Python爬虫实战之爬取携程评论
作者:程序员启航 发布时间:2022-02-03 14:26:23
标签:Python,爬取,携程评论
一、分析数据源
这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。
提示:以下操作均不需要登录(当然登录也可以)
咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。
页面下方则是评论数据
从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包。
二、分析数据包
在network中找到下面这个数据包
查看Preview里面的内容(请求返回内容)
可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。
ok,没问题之后,下面开始编写Python程序去请求数据。
1.请求地址
可以获取到请求链接和请求方式。
这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。
2.请求参数
在network里可以看到请求参数
在程序中的构建如下:
其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。
最终结果如下:
该景点的评论就可以成功爬取下来了。
三、采集全部评论
上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。
比如这个景点一共是300页。现在把循环给加上
最终的完整代码如下:
来源:https://blog.csdn.net/aaahtml/article/details/117325495


猜你喜欢
- 单位的小王学习SQL Server已有一段时间了,已经做了个不错的管理系统,有次小王让我帮着看看库的设计有没有问题,其间我发现他的安全意识非
- 1、概述在前面的文章中,我有分享了vue+drf+第三方滑动验证码接入的实现 (文中也留了分享图片验证码功能的实现),即本文将要分享的是基于
- 通常python安装包都会被默认装在/usr/local/pythonx/lib/site-packages(linux),但是我们有时想自
- 在项目开发的过程中可能需要开放自己的数据库给别人,但是为了安全不能自己服务器里其他数据库同时开放。那么可以新建一个用户,给该用户开放特定数据
- 本文实例为大家分享了vue实现表单录入的具体代码,供大家参考,具体内容如下最终效果:代码:<template> <div
- 本文实例讲述了python类和对象用法。分享给大家供大家参考,具体如下:前面我们都是用python面向过程编程,现在来用python创建类和
- 本文实例讲述了python实现将元祖转换成数组的方法。分享给大家供大家参考。具体分析如下:python的元祖使用一对小括号表示的,元素是固定
- 本文实例讲解了tab响应式切换效果,利用js对样式进行动态切换即可。 多的不说,请看代码<html> <head>
- path.makeUrlAbsolute() 把相对URL转化为绝对URLjQuery.mobile.path.makeUrlAbsolut
- 一.设置客户端网络实用工具点击“开始”-“程序”,在“Microsoft SQL Server”菜单中选择“客户端网络实用工具”。在“别名”
- 说明1、字典运算中的键必须是不可变类型,如整数(int)、浮点数(float)、字符串(str)、元组(tuple)等。2、列表(list)
- 1.背景最近项目是国际项目,所以需要经常需要用到UTC时间和local时间的转换。所以整理了一下时间戳工具类,方便使用。这里主要用到的包就是
- Django默认情况下,按字母顺序对模型进行排序。因此,Event应用模型的顺序为Epic、EventHero、EventVillain、E
- 错误现象:ERROR 1045 (28000): Access denied for user 'ODBC'@'lo
- //图片上传<SCRIPT RUNAT=SERVER LANGUAGE=VBSCRIPT> Function GetUpload
- 项目介绍背景:DC竞赛比赛项目,运用回归模型进 * 价预测。数据介绍:数据主要包括2014年5月至2015年5月美国King County的房
- 上周跟朋友喝咖啡时聊起我想学Python,她恰好也有这个打算,顺便推荐了一本书《编程小白的第1本Python入门书》,我推送到Kindle后
- 在numpy的ndarray类型中,似乎没有直接返回特定索引的方法,我只找到了where函数,但是where函数对于寻找某个特定值对应的索引
- 本文实例为大家分享了python实现学生信息管理系统的具体代码,供大家参考,具体内容如下1.主要内容python种的.py文件如图所示第一个
- 我就废话不多说了,大家还是直接看代码吧~#coding=utf-8import cv2import numpy as npimg=cv2.i