位置：首页>> 网络编程>> Python编程>> Python爬虫自动化爬取b站实时弹幕实例方法

Python爬虫自动化爬取b站实时弹幕实例方法

作者：宋宋大人　　发布时间：2023-03-21 04:45:42　

标签：Python爬虫,b站弹幕

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱，b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站，那你知道如何爬取b站实时弹幕吗？本文以王冰冰视频弹幕为例，向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式，

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作，将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
# 如果该词不属于停用词表并且非空长度不为1
if seg not in stopwords and seg != "" and len(seg) != 1:
# 将该词语添加到mytext_list列表中
mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

来源：https://www.py.cn/spider/guide/23296.html

0

投稿

猜你喜欢

MySQL8.0设置远程访问权限的方法
上一篇文章讲解了重置 MySQL 的密码，有同学反馈无法程连接到数据库，这是因为 MySQL 安装完成后只支持 localhost 访问，我
vux-scroller实现移动端上拉加载功能过程解析
本文将讲述vue-cli+vux-scroller实现移动端的上拉加载功能：纠错声明：网上查阅资料看到很多人都将vux和vuex弄混，在这里
关于element-ui中el-form自定义验证(调用后端接口)
element-ui中el-form自定义验证需求在输入项目名称后，调用后端接口isNameOnly，若已存在，则效果如下图：1.先设置校验
jQuery ajaxSubmit 实现ajax提交表单局部刷新
AJAX简介AJAX = Asynchronous JavaScript and XML（异步的 JavaScript 和 XML）。AJA
Window环境下Scrapy开发环境搭建
快速搭建scrapy开发环境pythonpippip百度网盘注：不同的电脑上所带有环境不同，安装方式有些许差别1、成功安装python并添加
Pytorch 使用不同版本的cuda的方法步骤
由于课题的原因，笔者主要通过 Pytorch 框架进行深度学习相关的学习和实验。在运行和学习网络上的 Pytorch 应用代码的过程中，不少
Go结合反射将结构体转换成Excel的过程详解
Excel中的一些概念一个excel文件中可以包含多个sheet，一个sheet可以理解成一个表格表格的每一行称为 Row表格的每一行中的任
mysql中的保留字段产生的问题
You have an error in your SQL syntax; check the manual that correspond
Python骚操作完美实现短视频伪原创
1. 场景大家好，我是J哥。前段时间有人私信我，说自己辛辛苦苦剪辑的短视频，上传到某平台后，由于播放量太大，收到降权的通知，直接导致这个
python虚拟环境完美部署教程
一、前言预处理建议仔细看完本文章之后在进行操作，避免失误，本环境可以用于生产环境，有利于生产环境python之间的环境隔离，互相不会产生环境
BigPipe:高性能的"流水线技术"网页
Facebook的网站速度做为最关键的公司任务之一。在2009年，我们成功地实现了Facebook网站速度提升两倍。而正是我们的工程师团队
cv2.getStructuringElement()函数及开、闭、腐蚀、膨胀原理讲解
cv2.getStructuringElement()函数的作用是返回一个结构元素（卷积核），具体解析如下：kernel = cv2.get
Vscode上使用SQL的方法
我们知道Vscode是一款强大的编辑器，我们可以通过商城里面的插件扩展来写C/C++/python/java等。同样Vscode支持SQL语
MySQL外键设置的方法实例
一、外键设置方法1、在MySQL中，为了把2个表关联起来，会用到2个重要的功能：外键（FOREIGN KEY）和连接（JOIN）。外键需要在
react+django清除浏览器缓存的几种方法小结
一. meta方法打包好的入口index.html头部加入<META HTTP-EQUIV="pragma" CO
Python3读取Excel数据存入MySQL的方法
Python是数据分析的强大利器。利用Python做数据分析，第一步就是学习如何读取日常工作中产生各种excel报表并存入数据中，方便后续数
Python实现压缩与解压gzip大文件的方法
本文实例讲述了Python实现压缩与解压gzip大文件的方法。分享给大家供大家参考，具体如下：#encoding=utf-8#author:
python清空命令行方式
python清空命令行 !有时我们在命令行上运行一些代码时，觉得有些冗余了，可以通过以下代码进行清除命令行上的代码。import osdef
Python常见数据类型转换操作示例
本文实例讲述了Python常见数据类型转换操作。分享给大家供大家参考，具体如下：类型转换主要针对几种存储工具：list、tuple、dict
Python数据分析之绘制ppi-cpi剪刀差图形
前言ppi-cpi 剪刀差大家可能都听说过，通过这个指标可以了解当前的经济运行状况，小编为了学习 python 的图形绘制，通过爬

遗传算法python版

Django中提示消息messages的设置方式

基于python生成英文版词云图代码实例

Django之form组件自动校验数据实现

Python利用Faiss库实现ANN近邻搜索的方法详解

Python基于随机采样一至性实现拟合椭圆(优化版)

Python中序列的修改、散列与切片详解

如何用python批量发送工资条邮件

python 顺时针打印矩阵的超简洁代码

python实现简单tftp(基于udp协议)

如何在 MacBook Pro 上调整显示设置？

excel中选择性粘贴不能实现的功能怎么回事

Win10如何让Windows Defender与第三方安全软件并存？

numpy给array增加维度np.newaxis的实例

Python获取android设备cpu和内存占用情况

Mac上实用的电影缩略图制作工具:Movie Thumbnails Maker

DNF手游可以金币寄售吗？

Android实现图片缓存与异步加载

Requests库实现数据抓取与处理功能

Win10 ARM版为什么可以运行x86程序?

手机版 网络编程 asp之家 www.aspxhome.com