python爬取动态数据实战---猫眼专业版-实时票房(一)

时间:2019-10-31 17:00:59   收藏:0   阅读:646

学习了python之后,准备爬虫项目练练手。简单实现爬取网页数据的功能,发现猫眼实时票房展示的数据样本正好符合预期,就记录一下之间遇到的困难与解决办法

目标网址:http://piaofang.meituan.com/dashboard

目标数据:其中绿色框是想要获取的数据种类,红色框是需要获取的具体数据

技术分享图片

通过F12查看网页源代码,发现<table>标签里就是需要获取的数据

技术分享图片

技术分享图片

首先通过scrapy的shell命令:scrapy shell "http://piaofang.meituan.com/dashboard"

查看是否可以获取数据(本人就是在此处遇到了困难,造成无法获取动态加载的目标数据)

技术分享图片

执行成功之后就进入了交互模式,可以获取网页的内容,

输入命令:response.xpath("//div/div/div[2]/div[2]/table").extract()

可以获取到数据的种类信息

技术分享图片

通过命令:response.xpath("//div/div/div[2]/div[2]/div/div/table").extract() 

获取不到数据的具体数值信息:返回的数据是空的

技术分享图片继续查看网页源代码,这些数据是实时加载的,发现数据存放在second-box这个xhr类型文件中,可以通过此处获取数据

注:XHR到底是什么可以参照这篇文章:https://www.cnblogs.com/dengyg200891/p/6564739.html

技术分享图片

选择-右击-可以选择复制链接地址:http://piaofang.meituan.com/second-box

技术分享图片

单独打开这个页面地址就可以获取到实时票房数据了。

技术分享图片

红色框等数据就是所需要的。只需要通过该地址获取数据即可

这时候再通过命令进入交互模式:scrapy shell "http://piaofang.meituan.com/second-box"

技术分享图片

通过命令: response.body。查看到具体数据信息(中文不显示,但不妨碍获取数据)

技术分享图片

以上就是爬取数据的流程步骤,后续会进行代码功能的实现

 

原文:https://www.cnblogs.com/no-end-to-learning/p/11771590.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!