基于Python实现微博抓取GUI程序
作者:萝卜大杂烩 发布时间:2021-06-01 10:59:29
标签:Python,微博,抓取
前言
在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,微博抓取工具,先来看下最终的效果
整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能
微博功能布局
我们整体的界面布局就是左侧可以选择不同功能,然后右侧的界面会对应改变
创建微博 Widget
对于右侧界面的切换,我们可以为不同的功能创建不同的 Widget,当点击左侧不同功能按钮后,对应切换 Widget 即可
我们新建一个 weibo 相关的函数,主要用来界面布局
def?weiboWidget(self):
????self.left_button_widget_3?=?QtWidgets.QWidget()
????self.weiboWebEngine?=?QWebEngineView()
????self.weiboWebEngine2?=?QWebEngineView()
????self.progressWidget?=?QtWidgets.QWidget()
????self.ciyunWidget?=?QtWidgets.QWidget()
我们还看到整体界面有一个词云,该词云是通过 matplotlib 渲染的,所以还需要创建 matplotlib 布局
#?matplotlib?绘图区域
self.figure?=?plt.figure(figsize=(7,?2))
self.canvas?=?FigureCanvasQTAgg(self.figure)??#?绘图区域放到图层canvas之中
self.gridLayout_weibo.addWidget(self.canvas,?5,?0,?1,?9)??#?图层放到pyqt布局之中
创建微博查询
接下来我们创建一个微博查询函数,同时因为我们这里需要实时更新抓取进度条,所以使用了多线程的方式
def?doWeiboQuery(self):
????weibo_link?=?self.lineEdit_weibo_link.text()
????weibo_name?=?self.lineEdit_weibo_name.text()
????weibo_page?=?self.weibo_comboBox.currentText()
????if?not?weibo_link?or?not?weibo_name:
????????QMessageBox.information(self,?"Error",?"微博链接或者用户名称不能为空",
????????????????????????????????QMessageBox.Yes)
????????return
????self.weiboWebEngine.load(QUrl(weibo_link))
????self.qth?=?WeiBoQueryThread()
????self.qth.update_data.connect(self.weiboPgbUpdate)
????self.qth.draw_ciyun.connect(self.drawCiyun)
????self.qth.weibo_page?=?weibo_page
????self.qth.weibo_link?=?weibo_link
????self.qth.weibo_name?=?weibo_name
????self.qth.start()
而主线程与子线程之间的通信,是使用信号槽的形式
def?weiboPgbUpdate(self,?data):
????self.pgb.setValue(data)
def?drawCiyun(self):
????self.canvas.draw()
????self.toolbar?=?NavigationToolbar2QT(self.canvas,?self)
????self.gridLayout_weibo.addWidget(self.toolbar,?8,?0,?1,?9)
接下来就是创建子进程函数,函数主体是爬取微博的代码
"""子进程微博查询"""
class?WeiBoQueryThread(QThread):
????#?创建一个信号,触发时传递当前时间给槽函数
????update_data?=?pyqtSignal(int)
????draw_ciyun?=?pyqtSignal()
????weibo_name?=?None
????weibo_link?=?None
????weibo_page?=?None
????total_pv?=?0
????timestamp?=?str(int(time.time()))
????def?run(self):
????????#?微博爬虫
????????try:
????????????file_name?=?self.weibo_name?+?"_"?+?self.timestamp?+?'comment.csv'
????????????my_weibo?=?weibo_interface.Weibo(self.weibo_name)
????????????uid,?blog_info?=?my_weibo.weibo_info(self.weibo_link)
????????????pv_max?=?int(self.weibo_page)
????????????pre_pv?=?100?//?pv_max
????????????for?i?in?range(int(self.weibo_page)):
????????????????my_weibo.weibo_comment(uid,?blog_info,?str(i),?file_name)
????????????????self.total_pv?+=?pre_pv
????????????????self.update_data.emit(self.total_pv)
????????????print("所有微博评论爬取完成!")
????????????print("开始生成词云")
????????????font,?img_array,?STOPWORDS,?words?=?ciyun(file_name)
????????????wc?=?WordCloud(width=2000,?height=1800,?background_color='white',?font_path=font,?mask=img_array,
???????????????????????????stopwords=STOPWORDS,?contour_width=3,?contour_color='steelblue').generate(words)
????????????plt.imshow(wc)
????????????plt.axis("off")
????????????self.draw_ciyun.emit()
????????????print("生成词云完成")
????????except?Exception?as?e:
????????????print(e)
而对于微博的具体爬取方法,这里就不再展开说明了,我是把所有微博爬虫的代码都封装好了,这里直接调用暴露的接口即可
词云制作
对于词云的制作,我们还是先通过 jieba 进行分词处理,然后使用 wordcloud 库生成词云即可
#?词云相关
def?ciyun(file,?without_english=True):
????font?=?r'C:\Windows\Fonts\FZSTK.TTF'
????STOPWORDS?=?{"回复",?"@",?"我",?"她",?"你",?"他",?"了",?"的",?"吧",?"吗",?"在",?"啊",?"不",?"也",?"还",?"是",
?????????????????"说",?"都",?"就",?"没",?"做",?"人",?"赵薇",?"被",?"不是",?"现在",?"什么",?"这",?"呢",?"知道",?"邓"}
????df?=?pd.read_csv(file,?usecols=[0])
????df_copy?=?df.copy()
????df_copy['comment']?=?df_copy['comment'].apply(lambda?x:?str(x).split())??#?去掉空格
????df_list?=?df_copy.values.tolist()
????comment?=?jieba.cut(str(df_list),?cut_all=False)
????words?=?'?'.join(comment)
????if?without_english:
????????words?=?re.sub('[a-zA-Z]',?'',?words)
????img?=?Image.open('ciyun.png')
????img_array?=?np.array(img)
????return?font,?img_array,?STOPWORDS,?words
由于很多评论当中会存在链接信息,导致制作的词云有很多高权重的英文字符,所有这里也通过正则进行了去英文字符处理
至此,我们这个微博查询功能就完成了~
结果展示
下面我们来看看最终的效果吧
来源:https://mp.weixin.qq.com/s/eeHauwcdvlG7b7C-rH_RVQ
0
投稿
猜你喜欢
- 工作中需要根据某个应用程序具体吃了多少内存来决定执行某些操作,所以需要写个小工具来模拟应用程序使用内存情况,下面是我写的一个Python脚本
- 以a=[1,2,3] 为例,似乎使用del, remove, pop一个元素2 之后 a都是为 [1,3],如下:>>>
- 在开发中有需求在详情显示里外键字段内容,并且添加按钮弹窗内容,以及按钮跳转内容。以前并没有做过相似的开发,我们的后台是xadmin,当时正在
- 基础知识铺垫学习图像金字塔,发现网上的资料比较多,检索起来比较轻松。图像金字塔是一张图像多尺度的表达,或者可以理解成一张图像不同分辨率展示。
- CUDACUDA是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构,是一种并行计
- 一、前言随着三胎政策的开放,人们对于生娃的讨论也逐渐热烈了起来,经常能够在各大社交媒体当中看到相关的话题,而随着时间慢慢地流逝,中国的首批“
- <?php //本功能主要是利用文件修改时间函数filemtime与现在时间作减法判断是否更新内容。 $cahetime=2;//设置
- 如何做一个计数器并让人家申请使用? 第一步:创建一个计数器(最简单的数字计数器,不是图片式的):&nbs
- 操作所涉及的文件都在当前用户下面的隐藏文件:1. 打开Anaconda Prompt(如果之前生成过Config配置文件则不需要第一步)终端
- 如下所示:#!/usr/bin/env python3# -*- coding: utf-8 -*-import sqlite3conn =
- 1 将下面代码拷贝到一个文件,命名为asyncore.pyimport socketimport selectimport sysdef d
- 你是否曾经想在数据库中存储一个日期而没有时间部分,或者想存储一个时间值希望有更高的精度?在SQL Server 2008的介绍中,微软介绍了
- 目录range函数的使用第一种创建方式第二种创建方式第三种创建方式判断指定的数有没有在当前序列中循环结构总结range函数的使用作为循环遍历
- 在防止sql注入这些细节出现问题的一般是那些大意的程序员或者是新手程序员,他们由于没有对用户提交过来的数据进行一些必要的过滤,从而导致了给大
- 1、首先要配好vs开发工程注意版本;我这使用32位的python那么我vs工程这边也选择32位的编译环境去配置注意点;需要将python安装
- 起步在django框架中,用的是 pytz 库处理时区问题,所以我也尝试用这个库来处理。但发现了一个奇怪的问题:import datetim
- PHP原型模式Prototype Pattern是什么原型模式是一种创建型模式,它可以通过复制现有对象来创建新的对象,而无需知道具体的创建过
- torch.Tensor有4种常见的乘法:*, torch.mul, torch.mm, torch.matmul. 本文抛砖引玉,简单叙述
- 关于substr、substring和slice方法区别的文章,网上搜到了许多,文章内容也基本一致。而后,我将其中一篇文章中的代码挪到本地进
- 本文实例讲述了JavaScript常用的返回,自动跳转,刷新,关闭语句。分享给大家供大家参考。具体如下:1. Javascript 返回上一