Python爬虫实战之爬取携程评论
作者:程序员启航 发布时间:2022-02-03 14:26:23
标签:Python,爬取,携程评论
一、分析数据源
这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。
提示:以下操作均不需要登录(当然登录也可以)
咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。
页面下方则是评论数据
从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包。
二、分析数据包
在network中找到下面这个数据包
查看Preview里面的内容(请求返回内容)
可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。
ok,没问题之后,下面开始编写Python程序去请求数据。
1.请求地址
可以获取到请求链接和请求方式。
这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。
2.请求参数
在network里可以看到请求参数
在程序中的构建如下:
其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。
最终结果如下:
该景点的评论就可以成功爬取下来了。
三、采集全部评论
上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。
比如这个景点一共是300页。现在把循环给加上
最终的完整代码如下:
来源:https://blog.csdn.net/aaahtml/article/details/117325495
0
投稿
猜你喜欢
- 一、 yaml1、 准备支持的数据类型:字典、列表、字符串、布尔值、整数、浮点数、Null、时间等基本语法规则:大小写敏感使用缩进表示层级关
- 直接使用==比较的情况分类说明是否能比较说明基本类型整型( int/uint/int8/uint8/int16/uint16/int32/u
- 前言虚拟环境是程序执行时的独立执行环境,在同一台服务器中可以创建不同的虚拟环境供不同的系统使用,项目之间的运行环境保持独立性而相互不受影响。
- 实现效果将位于/img目录下的1000张.png图片,转换成.webp格式,并存放于img_webp文件夹内。源图片目录目标图片目录关于批量
- 本文实例为大家分享了Python+OpenCV实现图像的全景拼接的具体代码,供大家参考,具体内容如下环境:python3.5.2 + ope
- iterator循环器(iterator)是对象的容器,包含有多个对象。通过调用循环器的next()方法 (next()方法,在Python
- TFTP文件传输功能:1、获取文件列表2、上传文件3、下载文件4、退出第一部分,TftpServer部分。①导入相关模块from socke
- 在现在的项目里,不管是电商项目还是别的项目,在管理端都会有导出的功能,比方说订单表导出,用户表导出,业绩表导出。这些都需要提前生成excel
- 在如今的Web设计中,图片的应用是必不可少的,为了更好地设计网站效果,大体积的图片被越来越多地应用到Web设计中来,所以,更好地优化图片文件
- 什么是Css Hack?由于不同的浏览器,比如Internet Explorer 6,Internet Explorer 7,Mozilla
- 1.引言热力图的想法很简单,用颜色替换数字。现在,这种可视化风格已经从最初的颜色编码表格走了很长一段路。热力图被广泛用于地理空间数据。这种图
- 动画效果如下:GIF看起来可能会有点卡wxml<view class="confirm bubble">确定
- Python工程师面试必备25条Python知识点:1.到底什么是Python?你可以在回答中与其他技术进行对比下面是一些关键点:Pytho
- alert table 表名 add column 列名 alter table 表名 drop column 列名 eg: alter t
- 爬取流程(美食区最热标签下的三个视频)在首页获取视频的编号和名字拼接成正确的url保存视频思路1.从网页中获取视频的url发现视频的url在
- 如果只是想实现将jenkins的构建结果发送到企业微信进行通知,最简便的方式是安装Qy Wechat Notification Plugin
- 前言这次开发微信抢票程序中,普通用户的身份是由微信管理的。当用户通过微信公众号(测试号)向后台发消息时,微信会将用户的身份标记为一个uniq
- 如下所示:fp = open(''test2.txt','w') #打开你要写得文件test2.tx
- 场景:1.计算SimHash值,及Hamming距离。2.SimHash适用于较长文本(大于三五百字)的相似性比较,文本越短误判率越高。Py
- 应用场景在嵌入式开发中,常常需要将一个binary文件分割成多个文件,或者将一个binary的某块区域抓成一个单独文件。本篇blog以pyt