Python如何爬取b站热门视频并导入Excel
作者:Yi_warmth 发布时间:2023-06-20 23:27:44
标签:Python,爬取,b站,视频,导入,excel
代码如下
#encoding:utf-8
import requests
from lxml import etree
import xlwt
import os
# 爬取b站热门视频信息
def spider():
video_list = []
url = "https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3"
html = requests.get(url, headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}).text
html = etree.HTML(html)
infolist = html.xpath("//li[@class='rank-item']")
for item in infolist:
rank = "".join(item.xpath("./div[@class='num']/text()"))
video_link = "".join(item.xpath(".//div[@class='info']/a/@href"))
title = "".join(item.xpath(".//div[@class='info']/a/text()"))
payinfo = "".join(item.xpath(".//div[@class='detail']/span/text()")).split("万")
play = payinfo[0] + "万"
comment = payinfo[1]
if comment.isdigit() == False:
comment += "万"
upname = "".join(item.xpath(".//div[@class='detail']/a/span/text()"))
uplink = "http://" + "".join(item.xpath(".//div[@class='detail']/a/@href"))
hot = "".join(item.xpath(".//div[@class='pts']/div/text()"))
video_list.append({
'rank': rank,
'videolink': video_link,
'title': title,
'play': play,
'comment': comment,
'upname': upname,
'uplink': uplink,
'hot': hot
})
return video_list
def write_Excel():
# 将爬取的信息添加到Excel
video_list = spider()
workbook = xlwt.Workbook() # 定义表格
sheet = workbook.add_sheet("b站热门视频") # 添加sheet的name
xstyle = xlwt.XFStyle() # 实例化表格样式对象
xstyle.alignment.horz = 0x02 # 字体居中
xstyle.alignment.vert = 0x01
head = ['视频名', 'up主','排名', '热度','播放量','评论数']
for h in range(len(head)):
sheet.write(0, h, head[h], xstyle)
i = 1
for item in video_list:
# 向单元格(视频名)添加该视频的超链接
if '"' in item["title"]:
item["title"] = item["title"].split('"')[1]
title_data = 'HYPERLINK("'+item["videolink"]+'";"'+item["title"]+'")' # 设置超链接
sheet.col(0).width = int(256 * len(title_data) * 3/5) # 设置列宽
sheet.write(i, 0, xlwt.Formula(title_data), xstyle)
name_data = 'HYPERLINK("'+item["uplink"]+'";"'+item["upname"]+'")'
sheet.col(1).width = int(256 * len(name_data) * 3/5)
sheet.write(i, 1, xlwt.Formula(name_data), xstyle)
sheet.write(i, 2, item["rank"], xstyle)
sheet.write(i, 3, item["hot"], xstyle)
sheet.write(i, 4, item["play"], xstyle)
sheet.write(i, 5, item["comment"], xstyle)
i += 1
# 如果文件存在,则将其删除
file = "b站热门视频信息.xls"
if os.path.exists(file):
os.remove(file)
workbook.save(file)
if __name__ == '__main__':
write_Excel()
结果展示:
来源:https://www.cnblogs.com/zhouzetian/p/12613930.html


猜你喜欢
- TensorFlow提供了一种统一的格式来存储数据,就是TFRecord,它可以统一不同的原始数据格式,并且更加有效地管理不同的属性。TFR
- 浅谈tensorflow语义分割api的使用(deeplab训练cityscapes)安装教程:cityscapes训练:遇到的坑:1. 环
- 一、自定义数据集现有数据如下:5个文件夹,每个文件夹是神奇宝贝的一种。每个图片形状、大小、格式不一。我们训练CNN的时候需要的是tensor
- 本文介绍了python Celery定时任务的示例,分享给大家,具体如下:配置启用Celery的定时任务需要设置CELERYBEAT_SCH
- 使用cv2.imread(),cv2.imshow(),cv2.imwrite()读取、显示和保存图像一、读入图像使用函数cv2.imrea
- Sql Server 解决“用户登录失败,错误编号18456”1.说明因密码或用户名错误而使身份验证
- 前言相关一些检测工具挺多的,比如powertop、powerstat、s-tui等。但如何通过代码的方式来实时检测,是个麻烦的问题。通过许久
- 先由exp把数据卸出到文件系统, 产生一个.dmp文件, 然后必要时再由imp将数据装入数据库. 对于一般中小型数据库来说, 全数据库的ex
- 图像增强算子几何变换算子图像的几何变换又称为图像空间变换, 它将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置。图像缩放缩放只是调整图像
- 1. 排名函数与PARTITION BY --所有数据 SELECT * FROM dbo.student AS a INNER JOIN
- 如果不小心按到键盘上的Insert键的话,光标显示的就不是一条竖线,而是一个类似方块的阴影区域,比如插入一下insert键的介绍:它叫插入键
- 1、取得控制台应用程序的根目录方法 方法1、Environment.CurrentDirectory 取得或设置当前工作目录的完整限定路径
- 一、前言本文讲述的是1元1次方程,1元2次方程的python解法。只用给出一般形式的系数和常数,自动给出方程的解。还附带函数解析。二、1元1
- 需求在业务中,会碰到许多点击请求的情况,在请求前改变一个lock变量(在lock变回来之前,点击无效),在请求回调中再改变lock.以确保在
- 源码:#路飞骷髅import turtle as t#黄底帽子t.pu()t.goto(0,200)t.circle(-130,-80)t.
- “选项卡”经常会被混同为“滑动门”,滑动门只是一种背景自适应内容的实现方法,不只可以应用在导航菜单,一样也可以应用在其他地方。例如选项卡中就
- 一、腾讯语音合成介绍腾讯云语音合成技术(TTS)可以将任意文本转化为语音,实现让机器和应用张口说话。 腾讯TTS技术可以应用到很多场景,比如
- Series对象和DataFrame的列数据提供了cat、dt、str三种属性接口(accessors),分别对应分类数据、日期时间数据和字
- PIL(Python Imaging Library)是Python中一个强大的图像处理库,但目前其只支持到Python2.7pillow是
- django执行sql语句后得到的返回结果是一个结果集,直接把结果转json返回给前端会报错,需要先遍历转字典在转json,特别注意mode