Selenium爬取b站主播头像并以昵称命名保存到本地
作者:拿头来坚持 发布时间:2023-05-18 01:26:36
标签:Selenium,爬取,保存本地
申明:资料来源于网络及书本,通过理解、实践、整理成学习笔记。
Pythion的Selenium自动化测试之获取哔哩哔哩主播的头像以昵称命名保存到本地文件
效果图
方法1
通过接口获取
首先使用pip下载requests包
pip install requests
import requests
# 通过接口获取请求的接口:想要获取网页的url
url = 'https://api.live.bilibili.com/xlive/web-interface/v1/second/getList?platform=web&parent_area_id=1&area_id=0&sort_type=sort_type_152&page=1'
# 发送get请求,获取返回数据
request = requests.get(url)
# 保存图片的路径
dir = '../requests/bilibili/'
# 将获取的数据转化为json文件并获取到图片的链接
info = request.json()['data']['list']
for i in info:
# 将图片以主播的昵称命名
file = open(dir + '{}.png'.format(i['uname']), 'wb')
# 将图片保存到之前的路径
file.write(requests.get(i['face']).content)
# 关闭文件流
file.close()
方法2
通过html定位获取
首先使用pip下载requests和selenium包
pip install requests
pip install selenium
import requests
from selenium import webdriver
# 使用谷歌驱动打开谷歌浏览器
driver = webdriver.Chrome()
# 访问哔哩哔哩直播页面
driver.get('https://live.bilibili.com/p/eden/area-tags?visit_id=2mwktlg4e2q0&areaId=0&parentAreaId=1')
# 循环30次一次保存的头像图片
for i in range(1, 31):
# xpth定位头像的位置
image_xpath = '/html/body/div[1]/div[3]/div/ul/li[{}]/a/div[1]/div/div'.format(i)
# 获取位置的style属性值
image_style_value = driver.find_element_by_xpath(image_xpath).get_attribute('style')
# 从style属性值中切片出图片的链接
image_url = image_style_value[image_style_value.find('h'):image_style_value.find('@'):1]
# xpath定位昵称的位置
title_xpath = '/html/body/div[1]/div[3]/div/ul/li[{}]/a/div[2]/div[2]/div/span'.format(i)
# 获取位置的title值
name_title_value = driver.find_element_by_xpath(title_xpath).get_attribute('title')
print(image_url)
# 发送get请求,获取返回数据
request = requests.get(image_url)
# 保存图片的路径
file = open('D:Python Projects/requests/bilibili/{}.jpg'.format(name_title_value), 'wb')
# 将图片保存到路径
file.write(request.content)
# 关闭文件流
file.close()
最后,在为大家增加一个获取b站视频信息的操作代码
# coding:utf-8
import requests
import json
import time
import pymysql
import bs4
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
result = []
def get_aid(page):
url = 'https://search.bilibili.com/all?keyword=爬虫&from_source=nav_search&spm_id_from=333.851.b_696e7465726e6174696f6e616c486561646572.11' + '&page=' + str(page)
response = requests.get(url, headers=headers, verify=False).text
time.sleep(1)
try:
soup = bs4.BeautifulSoup(response, 'lxml').find('div', attrs={'id':'all-list'}).find('div', attrs={'class':'mixin-list'})
ul = soup.find('ul', attrs={'class':'video-list clearfix'}).find_all('li', attrs={'class':'video-item matrix'})
for item in ul:
# print(item)
info = item.find('div', attrs={'class': 'headline clearfix'}).find('span', attrs={'class': 'type avid'}).get_text()
aid = info.replace('av', '')
print(aid)
result.append(aid)
return result
except:
print('something is wrong')
def get_contents(url):
response = requests.get(url=url, headers=headers, verify=False).json()
time.sleep(1)
try:
data_1 = response['data']
data = data_1['stat']
aid = data['aid']
view = data['view']
coin = data['coin']
like = data['like']
favorite = data['favorite']
share = data['share']
danmaku = data['danmaku']
print('视频编号', aid)
print('观看数量', view)
print('投币数量', coin)
print('收藏数量', favorite)
print('点赞数量', like)
print('分享数量', share)
print('弹幕数量', danmaku)
except:
print('------------')
if __name__ == '__main__':
for i in range(1, 50):
result = get_aid(i)
for i in result:
url = 'https://api.bilibili.com/x/web-interface/view?aid=' + str(i)
get_contents(url)
来源:https://blog.csdn.net/weixin_46382560/article/details/115734186
![](https://www.aspxhome.com/images/zang.png)
![](https://www.aspxhome.com/images/jiucuo.png)
猜你喜欢
- 一、项目概述本次项目目标是实现对自动生成的带有各种噪声的车牌识别。在噪声干扰情况下,车牌字符分割较困难,此次车牌识别是将车牌7个字符同时训练
- 下面开始构造HTTP数据包,IP层和TCP层使用python的Impacket库,http内容自行填写。#!/usr/bin/env pyt
- 说明:关于类的这部分,我参考了《Learning Python》一书的讲解。创建类创建类的方法比较简单,如下:class Person:&n
- 本文实例讲述了python实现unicode转中文及转换默认编码的方法。分享给大家供大家参考,具体如下:一、在爬虫抓取网页信息时常需要将类似
- Python中的random函数random模块提供生成伪随机数的函数,在使用时需要导入random模块1. random.random()
- xpath表达式1. xpath语法<bookstore><book> <title lang="e
- 最近需要做一个围棋识别的项目,首先要将棋盘位置定位出来,效果图如下:效果图原图中间处理效果最终结果思路分析我们利用python opencv
- 本文主要是用PyTorch来实现一个简单的回归任务。 编辑器:spyder1.引入相应的包及生成伪数据import torchimport
- 之前在网上看到有人提问,如何在页面上同步显示服务器的时间,其实实现方法有几种,可能 一般人立马就想到可以使用Ajax每隔一秒去请求服务器,然
- 项目简介之前学python的时候 写了个游戏来练手 用的是 pygame 没有别的依赖只用了一两百行的代码就实现了 整体来说功能并不算完整项
- 好几年前我在做一些自动化的脚本时,脑子里也闪过这样的想法:能不能直接把浏览器的cookies取出来用呢?直到昨天看到代码《python模拟发
- 1) 使用字典dict()循环遍历出一个可迭代对象中的元素,如果字典没有该元素,那么就让该元素作为字典的键,并将该键赋值为1,如果存在就将该
- Python读取相对路径文件例如下图目录结构:第一种情况1)xxx.py想要打开a.txt,使用相对路径,有如下两种方式:思路:xxx.py
- If...Then...Else 语句的一种变形,即添加任意多个 ElseIf 子句以扩充 If...Then...Else 语句的功能,允
- 通常用户看到的页面的样式会受到三层控制,第一层是浏览器的默认样式,第二层是网页定义样式,第三层是用户自定义样式。和CSS一样,后面的优先级高
- 1. 引言FLOPs 是 floating point operations 的缩写,指浮点运算数,可以用来衡量模型/算法的计算复杂度。本文
- 介绍Zmail 使得在python3中发送和接受邮件变得更简单。你不需要手动添加服务器地址、端口以及适合的协议,zmail会帮你完成。此外,
- 本文实例为大家分享了Android九宫格图片展示的具体代码,供大家参考,具体内容如下<!DOCTYPE html><htm
- 死锁是指在某组资源中,两个或两个以上的线程在执行过程中,在争夺某一资源时而造成互相等待的现象,若无外力的作用下,它们都将无法推进下去,死时就
- 1. mmap内存映射文件建立一个文件的内存映射将使用操作系统虚拟内存来直接访问文件系统上的数据,而不是使用常规的I/O函数访问数据。内存映