python selenium爬取斗鱼所有直播房间信息过程详解
作者:springionic 发布时间:2023-11-19 07:00:11
标签:python,selenium,爬取,斗鱼,房间,信息
还是分析一下大体的流程:
首先还是Chrome浏览器抓包分析元素,这是网址:https://www.douyu.com/directory/all
发现所有房间的信息都是保存在一个无序列表中的li中,所以我们可以先获取一个装有li的element对象的列表,然后在对每个element逐一操作
分析斗鱼的翻页,有一个下一页按钮,是个li,class="dy-Pagination-item-custom"
,但是当烦到最后一页的时候,class="dy-Pagination-disabled dy-Pagination-next"
,所以我们要想利用selenium模拟点击这个按钮,我们应该利用
get_elements_by_xpath()这个函数,这样到最后一页就获取不到了,就可以终止程序了。而用elements的原因是当到最后一页的时候获取不到的话,element会报错
然后还是通用的套路:发送请求获取响应、提取数据和下一页的元素、保存数据、点击下一页的元素循环......
遇到的两个坑:
需要用time.sleep()函数强制等待页面加载完再获取元素,否则报错,睡几秒就看你的网速了
xpath定位的时候,网页上有的类如这样:class=" abc"
或者class="abc "
,前面或后面有空格的,xpath处理的时候也必须有空格,否则获取不到
代码实现:
import time
from selenium import webdriver
class DouyuSpider(object):
def __init__(self):
self.start_rul = 'https://www.douyu.com/directory/all'
self.driver = webdriver.Chrome()
def get_content_list(self):
time.sleep(10) # 强制等待10秒,否则可能报错
li_list = self.driver.find_elements_by_xpath('//ul[@class="layout-Cover-list"]/li')
content_list = []
for li in li_list:
item = {}
item['room_img'] = li.find_element_by_xpath('.//img[@class="DyImg-content is-normal "]').get_attribute('src')
item['room_title'] = li.find_element_by_xpath('.//h3[@class="DyListCover-intro"]').text
item['root_category'] = li.find_element_by_xpath('.//span[@class="DyListCover-zone"]').text
item['author_name'] = li.find_element_by_class_name('DyListCover-user').text
item['watch_num'] = li.find_element_by_class_name('DyListCover-hot').text
content_list.append(item)
print(item) # 打印每次获取到的直播房间的信息
# 获取下一页的元素,为了防止没有报错,这里用elements,翻到最后一页一定就没有了,返回一个列表
next_url = self.driver.find_elements_by_xpath('//li[@class=" dy-Pagination-next"]')
next_url = next_url[0] if len(next_url) > 0 else None
return content_list, next_url
def save_content_list(self, content_list):
pass # 保存数据这里就不再做演示
def run(self): # 实现主要逻辑
# 1.start_url
# 2.发送请求,获取响应
self.driver.maximize_window()
self.driver.get(self.start_rul)
# 3.提取数据,提取下一页的元素
content_list, next_url = self.get_content_list()
# 4.保存数据
self.save_content_list(content_list)
# 4.点击下一页元素,循环
while next_url is not None:
next_url.click()
content_list, next_url = self.get_content_list()
self.save_content_list(content_list)
if __name__ == '__main__':
douban = DouyuSpider()
douban.run()
来源:https://www.cnblogs.com/springionic/p/11140982.html
0
投稿
猜你喜欢
- mysql的root账户,我在连接时通常用的是localhost或127.0.0.1,公司的测试服务器上的mysql也是localhost所
- 下面先给大家介绍下python获取酷狗音乐top500的下载地址 MP3格式,具体代码如下所示:# -*- coding: utf-8 -*
- IE的for...in循环存在严重的缺陷,除了性能低下外,有许多属性不可遍历,著名有这三兄弟:constructor ,toString ,
- 相信大家刚开始做都会遇到这个问题,在网上找了好多也不管用,都写的不全,在这里记录一下,希望对大家有所帮助一、配置Vue前端在config下i
- 有时会统计某个目录下有哪些文件,每个文件的sha256及文件大小等相关信息,这里用python3写了个脚本用来实现此功能,此脚本可跨平台,同
- 前言前段时间因为需要处理一大堆验收单,都是一些简单的复制粘贴替换工作,于是就想到用python进行处理。接下来进入正题~实现需求我是用的开发
- Redis数据类型String:二进制安全,可以包含任何数据Hash:一个键值(key=>value)对集合List:简单的字符串列表
- 本文实例讲述了Python显示进度条的方法,是Python程序设计中非常实用的技巧。分享给大家供大家参考。具体方法如下:首先,进度条和一般的
- 1.基本构架:mport PIL.Image 相关模块img=Image.open(img_name) 打开图片img.save(save_
- 本文实例为大家分享了Python实现发送QQ邮件的封装代码,供大家参考,具体内容如下封装codeimport smtplibfrom ema
- Pydub是一个基于ffmpeg的Python音频处理模块,封装了许多ffmpeg底层接口,因此用它来做音乐歌曲文件格式转换会非常方便,如果
- 1. 更新日志1.1. v1.01.1.1. 破坏性变更gorm.Open返回类型为*gorm.DB而不是gorm.DB更新只会更新更改的字
- 为什么要建立索引?当在非常大的表中进行查询,如果数据库进行全表遍历的话那么速度是会非常慢的,而我们的索引则可以建立一个b+树的结构,可以自上
- 一、概述公司新购了一批PC,准备把几个性能较优的PC升级为数据库服务器,替换老旧的机器。公司有套POS终端软件,后台数据存储是 MySQL
- 最近做了一个微信小程序的项目,关于后端给我传递日期的时候,我拿到的是一串数字如:createDate: 1552117531000 ,这是一
- 本文实例讲述了Python实现桶排序与快速排序算法结合应用的方法。分享给大家供大家参考,具体如下:#-*- coding: UTF-8 -*
- 问题描述使用 Navicat 导入之前转储好的 sql 文件,报错错误原因在信息日志当中往上翻,发现没有选择数据库,所以报错的原因就是没有提
- 下面是模板的一般形式,显示了指定 SQL 查询和 XPath 查询的方式: <ROOT xmlns:sql="ur
- 一、模块概述模块指的是包含python代码的文件,也就是一个.py文件就是一个模块。文件夹(directory)---->包(pack
- 在计算机软件领域,缓存(Cache)指的是将部分数据存储在内存中,以便下次能够更快地访问这些数据,这也是一个典型的用空间换时间的例子。一般用