python3写爬取B站视频弹幕功能
作者:laozhang 发布时间:2023-10-31 10:00:50
标签:python3,B站视频弹幕
需要准备的环境:
一个B站账号,需要先登录,否则不能查看历史弹幕记录
联网的电脑和顺手的浏览器,我用的Chrome
Python3环境以及request模块,安装使用命令,换源比较快:
pip3 install request -i http://pypi.douban.com/simple
爬取步骤: 登录后打开需要爬取的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求
点击查看历史弹幕,获取请求
其中rolldate后面的数字表示该视频对应的弹幕号,返回的数据中timestamp表示弹幕日期,new表示数目
在查看历史弹幕中任选一天,查看,会发出新的请求
dmroll ,时间戳,弹幕号,表示获取该日期的弹幕,1507564800 表示2017/10/10 0:0:0
该请求返回xml数据
使用正则表达式获取所有弹幕消息,匹配模式
'<d p=".*?">(.*?)</d>'
拼接字符串,将所有弹幕保存到本地文件即可
with open('content.txt', mode='w+', encoding='utf8') as f: f.write(content)
参考代码如下,将弹幕按照日期保存为单个文件...因为太多了...
import requests
import re
import time
"""
爬取哔哩哔哩视频弹幕信息
"""
# 2043618 是视频的弹幕标号,这个地址会返回时间列表
# https://www.bilibili.com/video/av1349282
url = 'https://comment.bilibili.com/rolldate,2043618'
# 获取弹幕的id 2043618
video_id = url.split(',')[-1]
print(video_id)
# 获取json文件
html = requests.get(url)
# print(html.json())
# 生成时间戳列表
time_list = [i['timestamp'] for i in html.json()]
# print(time_list)
# 获取弹幕网址格式 'https://comment.bilibili.com/dmroll,时间戳,弹幕号'
# 弹幕内容,由于总弹幕量太大,将每个弹幕文件分别保存
for i in time_list:
content = ''
j = 'https://comment.bilibili.com/dmroll,{0},{1}'.format(i, video_id)
print(j)
text = requests.get(j).text
# 匹配弹幕内容
res = re.findall('<d p=".*?">(.*?)</d>', text)
# 将时间戳转化为日期形式,需要把字符串转为整数
timeArray = time.localtime(int(i))
date_time = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
print(date_time)
content += date_time + '\n'
for k in res:
content += k + '\n'
content += '\n'
file_path = 'txt/{}.txt'.format(time.strftime("%Y_%m_%d", timeArray))
print(file_path)
with open(file_path, mode='w+', encoding='utf8') as f:
f.write(content)
最终效果
之后可以 做一些分词生成词云或者进行情感分析,有时间在说吧....
大家可以在下方给小编留言你学习的心得,也感谢你对脚本之家的支持。
来源:https://my.oschina.net/ahaoboy/blog/1579979


猜你喜欢
- 我们先来看下秒杀活动页面代码<!DOCTYPE HTML><html> <head> <
- 本文使用css结合js技术给网页背景background 插入flash播放器播放音乐,想法很大胆,呵呵!刚刚乱试一翻搞出这个,有意思吗?请
- 一、http协议无状态问题http协议没有提供多次请求之间的关联功能,协议的本意也并未考虑到多次请求之间的状态维持,每一次请求都被协议认为是
- IN为什么慢?在应用程序中使用子查询后,SQL语句的查询性能变得非常糟糕。例如:SELECT driver_id FROM driver w
- 首先需要安装chardet库,有很多方式,我才用的是比较笨的方式:sudo pip install chardet#!/usr/bin/en
- 使用python将图片改为灰度图或黑白图有三种方式,分别是是使用cv2库和PIL库来实现,详细过程如下所示。1. 使用cv2库将图片改为灰度
- 设计思路本文整理归纳以往的工作中用到的东西,现汇总成基础测试框架提供分享。框架采用python3 + selenium3 + PO + ya
- 1、在Python中以相对路径或者绝对路径来导入文件或者模块的方法今天在调试代码的时候,程序一直提示没有该模块,一直很纳闷,因为我导入文件一
- 1、MySQL 5.6.32 64位安装包下载在官网http://dev.mysql.com/downloads/mysql/5.6.htm
- 使用sql语句删除数据库中重复记录的两个方法如下:方法一declare @max integer,@id in
- 一、思路往MySQL中插入1000000条数据只花了6秒钟!关键点:1.使用PreparedStatement对象2.rewriteBatc
- 概述见源码源码# !/usr/bin/env python# -*- coding:utf-8 -*-"""图
- 本文实例讲述了Python实现的RSS阅读器。分享给大家供大家参考。具体如下:# -*- coding:utf-8 -*-# file: p
- Geohash 是一种地址编码,它能把二维的经纬度编码成一维的字符串。比如,北海公园的编码是wx4g0ec1。Geohash 的原理、算法下
- 腾讯“月捐计划”倡导爱心人士,通过每月小额捐款的形式,长期关注和支持公益项目。并和亿万爱心网友一起,每人每月1份爱,点滴付出,汇成爱海,形成
- migrate文件记录了每一次数据迁移的改变解决方法:重建数据库1.删除数据库错误方法:python manage.py shellfrom
- 本文实例讲述了Python实现的合并两个有序数组算法。分享给大家供大家参考,具体如下:思路按位循环比较两个数组,较小元素的放入新数组,下标加
- WindowsError的错误代码详解0操作成功完成。1功能错误。2系统找不到指定的文件。3系统找不到指定的路径。4系统无法打开文件。5拒绝
- 引言知乎上有个热门问题,Python 未来会成为大众办公常用编程工具吗?在编程世界里,Python已经是名副其实的网红了。曾经一个学汉语言的
- 在开发WEB应用程序中,我们经常需要对文件系统中的驱动器、文件夹和文件进行处理,比如收集驱动器的相关信息;创建、添加、移动或删除文件夹和文件