位置：首页>> 网络编程>> Python编程>> 使用Python编程分析火爆全网的鱿鱼游戏豆瓣影评

使用Python编程分析火爆全网的鱿鱼游戏豆瓣影评

作者：小张Python　　发布时间：2023-10-11 00:35:26　

标签：Python,分析,影评,豆瓣

Hello，各位读者朋友们好啊，我是小张~

这不国庆嘛，就把最近很火的一个韩剧《鱿鱼游戏》刷了下，这部剧整体剧情来说还是非常不错的，很值得一看，

作为一个技术博主，当然不能在这儿介绍这部剧的影评，毕竟自己在这方面不是专业的，最关键还是自己也写不出来

技术工具

在正文开始之前，先介绍下本篇文章中用到的技术栈和工具。

本文用到的技术栈和工具如下，归结为四个方面；

语言：Python，Vue ，javascript；
存储：MongoDB;
库：echarts ，Pymongo，WordArt…
软件：Photoshop；

数据采集

本次数据采集的目标网站为豆瓣，但自己的账号之前被封，所以只能采集到大概二百来条数据，豆瓣有相应的反爬机制，浏览10页以上的评论需要用户登录才能进行下一步操作

至于为啥账号被封，是因为之前自己学爬虫时不知道在哪里搞的【豆瓣模拟登录】代码，当时不知道代码有没有问题，愣头青直接用自己的号试了下，谁知道刚试完就被封了，而且还是永久的那种

图1

在这里也给大家提个醒在以后做爬虫时，模拟登录时尽量用一些测试账号，能不用自己的号就别用，

这次数据采集也比较简单，就是更改图2 中 url 上的 start 参数，以 offset 为 20 的规则作为下一页 url 的拼接；

图2

拿到请求连接之后，用 requests 的 get 请求，再对获取到的 html 数据做个解析，就能获取到我们需要的数据了；采集核心代码贴在下方

for offset in range(0,220,20):
url = "https://movie.douban.com/subject/34812928/comments?start={}&limit=20&status=P&sort=new_score".format(offset)
res = requests.get(url,headers= headers)
# print(res.text)
soup = BeautifulSoup(res.text,'lxml')
time.sleep(2)
for comment_item in soup.select("#comments > .comment-item"):
try:

data_item = []
avatar = comment_item.select(".avatar a img")[0].get("src")
name = comment_item.select(".comment h3 .comment-info a")[0]
rate = comment_item.select(".comment h3 .comment-info span:nth-child(3)")[0]
date = comment_item.select(".comment h3 .comment-info span:nth-child(4)")[0]
comment = comment_item.select(".comment .comment-content span")[0]
# comment_item.get("div img").ge
data_item.append(avatar)
data_item.append(str(name.string).strip("\t"))
data_item.append(str(rate.get("class")[0]).strip("allstar").strip('\t').strip("\n"))
data_item.append(str(date.string).replace('\n','').strip('\t'))
data_item.append(str(comment.string).strip("\t").strip("\n"))
data_json ={
'avatar':avatar,
'name': str(name.string).strip("\t"),
'rate': str(rate.get("class")[0]).strip("allstar").strip('\t').strip("\n"),
'date' : str(date.string).replace('\n','').replace('\t','').strip(' '),
'comment': str(comment.string).strip("\t").strip("\n")
}
if not (collection.find_one({'avatar':avatar})):
print("data _json is {}".format(data_json))
collection.insert_one(data_json)
f.write('\t'.join(data_item))
f.write("\n")
except Exception as e:
print(e)
continue