位置：首页>> 网络编程>> Python编程>> Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论

作者：程序员启航　　发布时间：2022-02-03 14:26:23　

标签：Python,爬取,携程评论

一、分析数据源

这里的数据源是指html网页？还是Aajx异步。对于爬虫初学者来说，可能不知道怎么判断，这里辰哥也手把手过一遍。

提示：以下操作均不需要登录（当然登录也可以）

咱们先在浏览器里面搜索携程，然后在携程里面任意搜索一个景点：长隆野生动物世界，这里就以长隆野生动物世界为例，讲解如何去爬取携程评论数据。

页面下方则是评论数据

从上面两张图可以看出，点击评论下一页，浏览器的链接没有变化，说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的，这时候需要去network里面是查看数据包。

二、分析数据包

在network中找到下面这个数据包

查看Preview里面的内容（请求返回内容）

可以看到数据已经请求到了，下面看一下数据是否是正确的（和网页内容一致）。

ok，没问题之后，下面开始编写Python程序去请求数据。

1.请求地址

可以获取到请求链接和请求方式。

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接，data_1是请求参数。

2.请求参数

在network里可以看到请求参数

在程序中的构建如下：

其中需要关注的是arg中的pageIndex（页数），pageSize（每页条数）。

最终结果如下：

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据，通过改变arg中的pageIndex（页数），就可以遍历爬取全部的评论。

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下：

来源：https://blog.csdn.net/aaahtml/article/details/117325495

0

投稿

猜你喜欢

常见SQL Server 2000漏洞及其相关利用
单位的小王学习SQL Server已有一段时间了，已经做了个不错的管理系统，有次小王让我帮着看看库的设计有没有问题，其间我发现他的安全意识非
基于Python实现原生的登录验证码详情
1、概述在前面的文章中，我有分享了vue+drf+第三方滑动验证码接入的实现（文中也留了分享图片验证码功能的实现），即本文将要分享的是基于
基于python指定包的安装路径方法
通常python安装包都会被默认装在/usr/local/pythonx/lib/site-packages(linux)，但是我们有时想自
Mysql中新建用户及授权的方法分享
在项目开发的过程中可能需要开放自己的数据库给别人，但是为了安全不能自己服务器里其他数据库同时开放。那么可以新建一个用户，给该用户开放特定数据
vue实现表单录入小案例
本文实例为大家分享了vue实现表单录入的具体代码，供大家参考，具体内容如下最终效果：代码：<template> <div
python编程进阶之类和对象用法实例分析
本文实例讲述了python类和对象用法。分享给大家供大家参考，具体如下：前面我们都是用python面向过程编程，现在来用python创建类和
python实现将元祖转换成数组的方法
本文实例讲述了python实现将元祖转换成数组的方法。分享给大家供大家参考。具体分析如下：python的元祖使用一对小括号表示的，元素是固定
javascript实现tab响应式切换特效
本文实例讲解了tab响应式切换效果，利用js对样式进行动态切换即可。多的不说，请看代码<html> <head>
jQuery mobile转换url地址及获取url中目录部分的方法
path.makeUrlAbsolute() 把相对URL转化为绝对URLjQuery.mobile.path.makeUrlAbsolut
如何远程连接SQL Server数据库的图文教程
一.设置客户端网络实用工具点击“开始”－“程序”，在“Microsoft SQL Server”菜单中选择“客户端网络实用工具”。在“别名”
python字典进行运算原理及实例分享
说明1、字典运算中的键必须是不可变类型，如整数(int)、浮点数(float)、字符串(str)、元组(tuple)等。2、列表(list)
Python中带时区的日期转换工具类总结
1.背景最近项目是国际项目，所以需要经常需要用到UTC时间和local时间的转换。所以整理了一下时间戳工具类，方便使用。这里主要用到的包就是
Django Admin设置应用程序及模型顺序方法详解
Django默认情况下，按字母顺序对模型进行排序。因此，Event应用模型的顺序为Epic、EventHero、EventVillain、E
MySQL ERROR 1045 (28000) 错误的解决办法
错误现象：ERROR 1045 (28000): Access denied for user 'ODBC'@'lo
用文本+ASP打造新闻发布系统
//图片上传<SCRIPT RUNAT=SERVER LANGUAGE=VBSCRIPT> Function GetUpload
利用机器学习预测房价
项目介绍背景：DC竞赛比赛项目，运用回归模型进 * 价预测。数据介绍：数据主要包括2014年5月至2015年5月美国King County的房
Python、PyCharm安装及使用方法（Mac版）详解
上周跟朋友喝咖啡时聊起我想学Python，她恰好也有这个打算，顺便推荐了一本书《编程小白的第1本Python入门书》，我推送到Kindle后
numpy中实现ndarray数组返回符合特定条件的索引方法
在numpy的ndarray类型中，似乎没有直接返回特定索引的方法，我只找到了where函数，但是where函数对于寻找某个特定值对应的索引
python实现学生信息管理系统(面向对象)
本文实例为大家分享了python实现学生信息管理系统的具体代码，供大家参考，具体内容如下1.主要内容python种的.py文件如图所示第一个
Python-openCV开运算实例
我就废话不多说了，大家还是直接看代码吧~#coding=utf-8import cv2import numpy as npimg=cv2.i

如何利用Python和matplotlib更改纵横坐标刻度颜色

django从请求到响应的过程深入讲解

Pytorch 中retain_graph的用法详解

scrapy+flask+html打造搜索引擎的示例代码

OpenCV半小时掌握基本操作之图像梯度

python socket网络编程之粘包问题详解

python3 pathlib库Path类方法总结

Python PCA降维的两种实现方法

Python3 用什么IDE开发工具比较好

Python实现将16进制字符串转化为ascii字符的方法分析

ppt怎么去掉图片水印 PPT去除水印的三个方法

和平精英M416涂鸦艺术怎么获得？M416涂鸦艺术皮肤获取攻略

抖音文字找茬大师找22个人答案是什么

Python使用matplotlib的pie函数绘制饼状图功能示例

聊聊docker 单机部署redis集群的问题

Windows XP用户无法登录iTunes帐号无法访问购买过的影视剧等

excel 数据有效性出错警告如何解决

Win10系统怎么禁止流氓软件自动安装？Win10禁止流氓软件自动安装方法

excel常用函数vlookup有什么用

Python如何截图保存的三种方法(小结)

手机版 网络编程 asp之家 www.aspxhome.com