python selenium爬取斗鱼所有直播房间信息过程详解
作者:springionic 发布时间:2023-11-19 07:00:11
标签:python,selenium,爬取,斗鱼,房间,信息
还是分析一下大体的流程:
首先还是Chrome浏览器抓包分析元素,这是网址:https://www.douyu.com/directory/all
发现所有房间的信息都是保存在一个无序列表中的li中,所以我们可以先获取一个装有li的element对象的列表,然后在对每个element逐一操作
分析斗鱼的翻页,有一个下一页按钮,是个li,class="dy-Pagination-item-custom"
,但是当烦到最后一页的时候,class="dy-Pagination-disabled dy-Pagination-next"
,所以我们要想利用selenium模拟点击这个按钮,我们应该利用
get_elements_by_xpath()这个函数,这样到最后一页就获取不到了,就可以终止程序了。而用elements的原因是当到最后一页的时候获取不到的话,element会报错
然后还是通用的套路:发送请求获取响应、提取数据和下一页的元素、保存数据、点击下一页的元素循环......
遇到的两个坑:
需要用time.sleep()函数强制等待页面加载完再获取元素,否则报错,睡几秒就看你的网速了
xpath定位的时候,网页上有的类如这样:class=" abc"
或者class="abc "
,前面或后面有空格的,xpath处理的时候也必须有空格,否则获取不到
代码实现:
import time
from selenium import webdriver
class DouyuSpider(object):
def __init__(self):
self.start_rul = 'https://www.douyu.com/directory/all'
self.driver = webdriver.Chrome()
def get_content_list(self):
time.sleep(10) # 强制等待10秒,否则可能报错
li_list = self.driver.find_elements_by_xpath('//ul[@class="layout-Cover-list"]/li')
content_list = []
for li in li_list:
item = {}
item['room_img'] = li.find_element_by_xpath('.//img[@class="DyImg-content is-normal "]').get_attribute('src')
item['room_title'] = li.find_element_by_xpath('.//h3[@class="DyListCover-intro"]').text
item['root_category'] = li.find_element_by_xpath('.//span[@class="DyListCover-zone"]').text
item['author_name'] = li.find_element_by_class_name('DyListCover-user').text
item['watch_num'] = li.find_element_by_class_name('DyListCover-hot').text
content_list.append(item)
print(item) # 打印每次获取到的直播房间的信息
# 获取下一页的元素,为了防止没有报错,这里用elements,翻到最后一页一定就没有了,返回一个列表
next_url = self.driver.find_elements_by_xpath('//li[@class=" dy-Pagination-next"]')
next_url = next_url[0] if len(next_url) > 0 else None
return content_list, next_url
def save_content_list(self, content_list):
pass # 保存数据这里就不再做演示
def run(self): # 实现主要逻辑
# 1.start_url
# 2.发送请求,获取响应
self.driver.maximize_window()
self.driver.get(self.start_rul)
# 3.提取数据,提取下一页的元素
content_list, next_url = self.get_content_list()
# 4.保存数据
self.save_content_list(content_list)
# 4.点击下一页元素,循环
while next_url is not None:
next_url.click()
content_list, next_url = self.get_content_list()
self.save_content_list(content_list)
if __name__ == '__main__':
douban = DouyuSpider()
douban.run()
来源:https://www.cnblogs.com/springionic/p/11140982.html
0
投稿
猜你喜欢
- 简介Python 的序列(sequence)通常指一个可迭代的容器,容器中可以存放任意类型的元素。列表和元组这两种数据类型是最常被用到的序列
- 本文为大家分享了python实现外卖信息管理系统的具体代码,供大家参考,具体内容如下一、需求分析 需求分析包含如下:1、问题描述 以外卖信息
- 题目1、 请输入一个整数 , 若该数是偶数 , 输出 “ 是偶数” ”
- 1. 数据集基本信息df = pd.read_csv()df.head():前五行;df.info():rangeindex:行索引;dat
- 两张表 组织架构表(Organise) 和 工资发放历史记录表 (WagePerMonthHis) 两张表通过 Organise.Item_
- 在ASP中,你可通过VBScript和其他方式调用自程序。实例:调用使用VBScript的子程序如何从ASP调用以VBScript编写的子程
- 技巧1XmlNode.InnerText与.InnerXml的区别是:前者将内容中的<和>分别变成<和>,因此,希望
- 本文研究的主要是Python web开发框架Django的管理界面的相关内容,具体如下。admin界面的路径,通常在my_project中已
- 一、安装配置PHP1、下载Php的版本zip包之后,解压缩到指定目录。下载地址:http://www.php.net/downl
- 1、你需要通过指定的文本模式去检查字符串的开头或者结尾,比如文件名后缀,URL Scheme 等等。检 查 字 符 串 开 头 或 结 尾
- 话说用了就要有点产出,要不然过段时间又忘了,所以在这里就记录一下试用Kafka的安装过程和php扩展的试用。实话说,如果用于队列的话,跟PH
- np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等。np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等。具体见示
- 先说说线程在多线程中,为了保证共享资源的正确性,我们常常会用到线程同步技术.将一些敏感操作变成原子操作,保证同一时刻多个线程中只有一个线程在
- 常用的python第三方库安装工具大概有三种:1、pip (分为cmd和conda)(推荐)2、easy_install &n
- 先想创意,再画草图,接着鼠绘,最后做成flas * 。这是我的习惯流程。 这是想到中秋时,我第一时间内能浮想出的图像:大意是嫦娥奔
- 代码如下,另存为asp文件,请传到你的服务器上就可以了马上测一下<%Response.Expires = 0Response.Expi
- 基于的phantomjs的自动化,会出现1.flash不支持2.部分基于view的按钮点不到,部分按钮是基于flash的(尤其是在于上传按钮
- 本文旨在分类讲述执行计划中每一种操作的相关信息。数据访问操作 首先最基本的操作就是访问数据。这既可以通过直接访问表,也可以通过访问索引来进行
- RegMail是用来存放注册邮件的表,现以创建时间(CreateTime)字段来给表进行分区,具体步骤如下:--为分区创建存储文件 
- 这几年比较火的一个漏洞就是jinjia2之类的模板引擎的注入,通过注入模板引擎的一些特定的指令格式,比如 {{1+1}} 而返回了 2 得知