如何基于Python爬虫爬取美团酒店信息
作者:松鼠爱吃饼干 发布时间:2023-10-11 00:12:45
标签:Python,爬虫,爬取,美团,酒店,信息
一、分析网页
网站的页面是 JavaScript 渲染而成的,我们所看到的内容都是网页加载后又执行了JavaScript代码之后才呈现出来的,因此这些数据并不存在于原始 HTML 代码中,而 requests 仅仅抓取的是原始 HTML 代码。抓取这种类型网站的页面数据,解决方案如下:
分析 Ajax,很多数据可能是经过 Ajax 请求时候获取的,所以可以分析其接口。
在XHR里可以找到,Request URL有几个关键参数,uuid和cityId是城市标识,offset偏移量可以控制翻页,分析网页发现,第x页的offset为:(x-1)*20,limit表示每页有20条信息,startDay和endDay为当前的日期。
在Preview里可以找到每页的20条信息
模拟JavaScript渲染过程,直接抓取渲染后的结果。
selenium和pyppeteer爬虫就是用的这种方法
二、爬取酒店信息
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
url = "https://ihotel.meituan.com/hbsearch/HotelSearch"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36",
"Referer": "https://hotel.meituan.com/chengdu"
}
wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(['酒店名称', '酒店地址', '酒店类型', '最低价', '评价', '评论数', '经度', '纬度'])
def hotel_data(x):
data = {
'utm_medium': 'pc',
'version_name': 999.9,
'cateId': 20,
'attr_28': 129,
'uuid': '5D4E443EC83DDD49B73F317921EAE16C7B492A634A67FA261773890F730A5932@1600263777783',
'cityId': 59,
'offset': x * 20,
'limit': 20,
'startDay': 20200916,
'endDay': 20200916,
'q': '', 'sort': 'defaults',
'X-FOR-WITH': '47zbBAV+k1e7QrnKt4lEVXrmtOE9w2OpFfGsKf539CDdXIw4r2V/qICcWVeNACGHWNbD6iL4huPyRVdkNJJwR6dqcoQMyzjUE3cQGWr6YZOwANQOlCSrZ7m1+aahwcnh/dTfaJLMZfxWaJQEISBuKbiMgDC8Vr4eaeWiYASkLl0ByB96MOUz7gfjUTbhlV0ZXvZ/ucwNcK3zxTQjmoBINsAY4HwpKQLpOV2IqV1CtPg=',
}
res = requests.get(url, headers=headers, params=data)
time.sleep(random.randint(1, 3))
results = json.loads(res.text)['data']['searchresult']
for con in results:
name = con['name'] # 酒店名称
addr = con['addr'] # 酒店地址
star = con['hotelStar'] # 酒店类型
price = con['lowestPrice'] # 最低价
scoreIntro = con['scoreIntro'] # 评价
comments = con['commentsCountDesc'] # 评论数
lng, lat = con['lng'], con['lat'] # 经纬度
data = [name, addr, star, price, scoreIntro, comments, lng, lat]
sheet.append(data)
logging.info(data)
程序运行成功,酒店信息保存到了Excel。
来源:https://www.cnblogs.com/hhh188764/p/13878195.html


猜你喜欢
- 导读我们在使用selenium打开google浏览器的时候,默认打开的是一个新的浏览器窗口,而且里面不带有任何的浏览器缓存信息。当我们想要爬
- 情况一:坐标上的内容是文字时如上图这样一个横向的柱状图,y坐标轴的内容太长后会导致显示不全。因为数据是由后端传过来的,有些会很长有些会比较短
- 本文实例讲述了Python实现读取字符串按列分配后按行输出。分享给大家供大家参考,具体如下:问题:输入一个字符串和一个数字,数字代表分为几行
- 1. 背景 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了
- 前言ctypes是Python的外部函数库。它提供了C兼容的数据类型,并且允许调用动态链接库/共享库中的函数。它可以将这些库包装起来给Pyt
- 本文主要介绍Python3.6及TensorFlow的安装和配置流程。一、Python官网下载自己电脑和系统对应的Python安装包。&nb
- 主要内容1.函数基本语法及特性2.参数与局部变3.返回值 4.递归5.名函数 6.函数式编程介绍7.阶函数 8.内置函数函数基本语法及特性定
- Python PyTorch深度学习框架PyTorch是一个基于Python的深度学习框架,它支持使用CPU和GPU进行高效的神经网络训练。
- 一:什么是数据库镜像?Robidoux:数据库镜像是将数据库事务处理从一个SQL Server数据库移动到不同SQL Server环境中的另
- 本文实例讲述了Python中的单继承与多继承。分享给大家供大家参考,具体如下:单继承一、介绍Python 同样支持类的继承,如果一种语言不支
- 什么是restREST是所有Web应用都应该遵守的架构设计指导原则。Representational State Transfer,翻译是”
- 一、代码示例 window.open(url,'新窗口','width='+(window.screen.a
- ASP访问数据库的方式有哪些?在ASP中可以通过三种方式访问数据库:1、IDC(Internet Database Connec
- 首先,我们需要着重介绍一些概念,以给你提供一些使这个“奇迹”得以发生的组成部分。太轻易地泄露伏笔对于讲故事来说不是个好的形式,所以那些不愿意
- 最近一个项目开发要用到PHP技术导出Word文档,比较了几种方案,首先是使用Microsoft Office自带的ActiveX/COM组件
- 张量范数:torch.norm(input, p=2) → float返回输入张量 input 的 p 范数举个例子:>>>
- domainname.asp<form method="POST"> &nb
- 如我们新建窗体FatherPage.htm: XML-Code: <script type="text/javascript
- 起步这是许多开发者在项目初期要面临的一个普遍问题。要怎样来处理多用户类型。本文讲介绍对于不同场景和业务需求如何设计用户模型。为项目提供指导设
- 开发高质量软件的过程中,我们经常会为每个函数编写测试,这样在开发过程中运行这些测试的时候就比较方便,doctest是一个python标准库自