Selenium爬取b站主播头像并以昵称命名保存到本地
作者:拿头来坚持 发布时间:2023-05-18 01:26:36
标签:Selenium,爬取,保存本地
申明:资料来源于网络及书本,通过理解、实践、整理成学习笔记。
Pythion的Selenium自动化测试之获取哔哩哔哩主播的头像以昵称命名保存到本地文件
效果图
方法1
通过接口获取
首先使用pip下载requests包
pip install requests
import requests
# 通过接口获取请求的接口:想要获取网页的url
url = 'https://api.live.bilibili.com/xlive/web-interface/v1/second/getList?platform=web&parent_area_id=1&area_id=0&sort_type=sort_type_152&page=1'
# 发送get请求,获取返回数据
request = requests.get(url)
# 保存图片的路径
dir = '../requests/bilibili/'
# 将获取的数据转化为json文件并获取到图片的链接
info = request.json()['data']['list']
for i in info:
# 将图片以主播的昵称命名
file = open(dir + '{}.png'.format(i['uname']), 'wb')
# 将图片保存到之前的路径
file.write(requests.get(i['face']).content)
# 关闭文件流
file.close()
方法2
通过html定位获取
首先使用pip下载requests和selenium包
pip install requests
pip install selenium
import requests
from selenium import webdriver
# 使用谷歌驱动打开谷歌浏览器
driver = webdriver.Chrome()
# 访问哔哩哔哩直播页面
driver.get('https://live.bilibili.com/p/eden/area-tags?visit_id=2mwktlg4e2q0&areaId=0&parentAreaId=1')
# 循环30次一次保存的头像图片
for i in range(1, 31):
# xpth定位头像的位置
image_xpath = '/html/body/div[1]/div[3]/div/ul/li[{}]/a/div[1]/div/div'.format(i)
# 获取位置的style属性值
image_style_value = driver.find_element_by_xpath(image_xpath).get_attribute('style')
# 从style属性值中切片出图片的链接
image_url = image_style_value[image_style_value.find('h'):image_style_value.find('@'):1]
# xpath定位昵称的位置
title_xpath = '/html/body/div[1]/div[3]/div/ul/li[{}]/a/div[2]/div[2]/div/span'.format(i)
# 获取位置的title值
name_title_value = driver.find_element_by_xpath(title_xpath).get_attribute('title')
print(image_url)
# 发送get请求,获取返回数据
request = requests.get(image_url)
# 保存图片的路径
file = open('D:Python Projects/requests/bilibili/{}.jpg'.format(name_title_value), 'wb')
# 将图片保存到路径
file.write(request.content)
# 关闭文件流
file.close()
最后,在为大家增加一个获取b站视频信息的操作代码
# coding:utf-8
import requests
import json
import time
import pymysql
import bs4
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
result = []
def get_aid(page):
url = 'https://search.bilibili.com/all?keyword=爬虫&from_source=nav_search&spm_id_from=333.851.b_696e7465726e6174696f6e616c486561646572.11' + '&page=' + str(page)
response = requests.get(url, headers=headers, verify=False).text
time.sleep(1)
try:
soup = bs4.BeautifulSoup(response, 'lxml').find('div', attrs={'id':'all-list'}).find('div', attrs={'class':'mixin-list'})
ul = soup.find('ul', attrs={'class':'video-list clearfix'}).find_all('li', attrs={'class':'video-item matrix'})
for item in ul:
# print(item)
info = item.find('div', attrs={'class': 'headline clearfix'}).find('span', attrs={'class': 'type avid'}).get_text()
aid = info.replace('av', '')
print(aid)
result.append(aid)
return result
except:
print('something is wrong')
def get_contents(url):
response = requests.get(url=url, headers=headers, verify=False).json()
time.sleep(1)
try:
data_1 = response['data']
data = data_1['stat']
aid = data['aid']
view = data['view']
coin = data['coin']
like = data['like']
favorite = data['favorite']
share = data['share']
danmaku = data['danmaku']
print('视频编号', aid)
print('观看数量', view)
print('投币数量', coin)
print('收藏数量', favorite)
print('点赞数量', like)
print('分享数量', share)
print('弹幕数量', danmaku)
except:
print('------------')
if __name__ == '__main__':
for i in range(1, 50):
result = get_aid(i)
for i in result:
url = 'https://api.bilibili.com/x/web-interface/view?aid=' + str(i)
get_contents(url)
来源:https://blog.csdn.net/weixin_46382560/article/details/115734186
0
投稿
猜你喜欢
- domainname.asp<form method="POST"> &nb
- 1. Anaconda1.1 Anaconda简介Anaconda是一个开源的python发行版本,是现在比较流行的python数据科学平台
- element-ui form或table lable换行问题今天在写项目,突然遇到个需求,需要将form里面的lable换行,百度了下,发
- 今天在使用Pycharm的时候,由于文件过多,我对目录下的文件做了归类,改动了一些文件的路径,结果后来执行的时候,出现了路径找不到的错误.新
- 介绍PaddleOCR 是一个基于百度飞桨的OCR工具库,包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别、
- 前言python是一门优秀的编程语言,而是python成为数据分析软件的是因为python强大的扩展模块。也就是这些python的扩展包让p
- 前言在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求,整合了语音识别的python程序提供了其他技术无法比拟的交互性和可访问性
- 多行正则表达式是对象的只读布尔属性。它指定是否一个特定的正则表达式进行多行匹配,即,不管是否使用“m”属性创建。语法RegExp
- 计数器(Counter)是一个非常常用的功能组件,这篇blog以未读消息数为例,介绍了在 Django中实现一个高性能计数器的基本要点。故事
- 需求:看到朋友圈有人发词云照片,感觉自己也可以玩一玩,于是乎借助wordcloud实现功能。环境:MacOS 10.12 +Python 2
- python-tkinter 实现各种个样的撩妹鼠标拖尾,效果图展示:系统的拖尾已经无法满足我们了,女朋友叫你把鼠标拖尾换成她的照片,让你时
- JavaScript 中 typeof 和 instanceof 常用来判断一个变量是否为空,或者是什么类型的。但它们之间还是有区别的:ty
- MYSQL中批量替换某个字段的部分数据,具体介绍如下所示:1.修改字段里的所有含有指定字符串的文字UPDATE 表A SET 字段B = r
- 前言由于项目需要生成多条数据,并保存到数据库当中,在程序中封装了一个List集合对象,然后需要把该集合中的实体插入到数据库中,项目使用了Sp
- 本文实例讲述了python实现将pvr格式转换成pvr.ccz的方法。分享给大家供大家参考。具体实现方法如下:import zlibimpo
- 装饰器模式装饰器模式解决什么问题?增加新功能,且不改变原有功能和代码选配,根据不同情况,动态调整功能装饰器,顾名思义,就是用来装饰其他实物,
- 英文文档:format(value[, format_spec])Convert a value to a “formatted” repr
- 前言:流程控制是每种编程语言控制逻辑走向和执行次序的重要部分,流程控制可以说是一门语言的“经脉”。Go语言中最常用的流程控制有if和for,
- 首先,先介绍两种引入模块的方法。法一:将整个文件引入import 文件名文件名.函数名( ) / 文件名.类名通过这个方法可以运行另外一个文
- 前言最近学习了Fiddler抓包工具的简单使用,通过抓包,我们可以抓取到HTTP请求,并对其进行分析。现在我准备尝试着结合Python来模拟