基于Python实现抢注大词的提词工具
作者:虚坏叔叔 发布时间:2022-04-07 02:00:20
假设通过爬虫获得了一个自媒体.txt
想要从这些关键词中提取流量最大的关键词
可以通过如下算法实现:
from smoothnlp.algorithm.phrase import extract_phrase
import re
class_name = '自媒体'
class_name_low = class_name.lower()
top_k = 100
with open('%s.txt' % class_name,'r',encoding='utf-8') as file:
data_str = file.read()
keyword_list = data_str.split('\n')
with open('dont.txt','r',encoding='utf-8') as file:
dont_set = set(file.read().split('\n'))
word_count_dict = dict()
new_word_list = extract_phrase(keyword_list,top_k=top_k)
for new_word in new_word_list:
if new_word in dont_set:
continue
new_word_low = new_word.lower()
if class_name_low in new_word_low or class_name_low == new_word_low:
word_count_dict[new_word] = len(re.findall(new_word_low,data_str))
continue
add_l = re.findall('%s%s' % (class_name_low,new_word_low),data_str)
add_r = re.findall('%s%s' % (new_word_low,class_name_low),data_str)
if len(add_l) >= len(add_r):
word_count_dict['%s%s' % (class_name,new_word)] = len(add_l)
else:
word_count_dict['%s%s' % (new_word,class_name)] = len(add_r)
for word,count in word_count_dict.items():
print('%s\t%s' % (word,count))
其中:
自媒体.txt
就是需要的关键词库
dont.txt
就是过滤掉一些没有用的词汇
获得的结果如下,下面的这些词就是流量很大的词汇 可以用于注册账号去获取流量
自媒体领域 702
自媒体软件 502
自媒体身份证 68
自媒体推荐 450
自媒体研究 199
自媒体素材 378
自媒体原创 1147
自媒体审核 417
浏览器自媒体 110
自媒体阅读量 378
自媒体app 346
自媒体工具 222
自媒体图片 416
自媒体电脑 112
自媒体管理 824
自媒体内容 1083
自媒体电视剧 48
自媒体申请 742
自媒体注册 1597
百度自媒体 545
自媒体同步 89
自媒体电影片段 14
自媒体检测 36
自媒体抄袭 130
自媒体选择 215
自媒体产品 105
自媒体信息 355
自媒体粉丝 474
自媒体下载 173
企业自媒体 789
自媒体收益 1296
自媒体数据 317
淘宝自媒体 263
自媒体手机 568
自媒体剪辑 367
自媒体电影 380
自媒体服务 167
自媒体采集 234
自媒体变现 246
自媒体修改 65
自媒体风险 43
中国自媒体 533
自媒体兼职 182
自媒体定位 143
自媒体英语 53
自媒体传播 776
抖音自媒体 686
自媒体渠道 212
自媒体影响力 130
0万粉丝自媒体 18
自媒体绑定 47
自媒体免费 205
自媒体认证 1662
自媒体流量 595
自媒体播放量 164
万粉丝自媒体 42
自媒体评论 116
自媒体邀请码 137
健康自媒体 96
自媒体问题 35
自媒体收入 826
自媒体垂直 129
自媒体招聘 665
自媒体奖励 26
自媒体教程 312
自媒体盈利模式 140
自媒体热点 104
自媒体标题 561
自媒体经营范围 20
自媒体意识形态 13
自媒体ppt 70
自媒体品牌 219
自媒体竞争 45
自媒体社会 235
自媒体现状 123
开通自媒体 219
2018自媒体 443
国外自媒体 350
自媒体公司 2862
自媒体介绍 311
自媒体生活 180
自媒体模式 56
自媒体故事 55
自媒体分析 168
自媒体策划 244
自媒体版权 123
自媒体推广 1893
自媒体考核 38
自媒体情况 32
自媒体搬运 958
音乐自媒体 337
最后的所有项目代码如下:
来源:https://blog.csdn.net/biggbang/article/details/129260216


猜你喜欢
- 学习前言……又看了很久的SSD算法,今天讲解一下训练部分的代码。预测部分的代码可以参照https
- 本文实例讲述了JavaScript常用数学函数用法。分享给大家供大家参考,具体如下:一、代码<script language=&quo
- 在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。本文重点给大家介绍python中正则表达式 re.findall
- 一个不错的js星级评分代码,可以评多个指标。相关文章推荐:用css制作星级投票评分功能 效果图:<script language=&q
- 分割单词将一个标识符分割成若干单词存进列表,便于后续命名法的转换先引入正则表达式包import re至于如何分割单词看个人喜好,如以常见分隔
- 在上一篇文章中,我介绍了MySQL对XML支持的部分功能,包括--xml命令行选项,以及MySQL 5.1.5中开始引入的新功能。今天我将介
- 我就废话不多说了,大家还是直接看例子吧!import numpy as npfrom numpy import randommatrix1
- Jon Wiley, User Experience Designer for Google Apps, outlined some of
- 多表连接的基本语法多表连接,就是将几张表拼接为一张表,然后进行查询select 字段1, 字段2, ...from 表1 {inner|li
- 一:工具准备Anaconda:是一个开源的Python发行版本,其中包含了conda、Python等180多个科学包及其依赖项。【Anaco
- 1. 永远不要停止学习和阅读 阅读 书籍,而不只是网站 阅读 只为自我提升,而不是为了下一个项目 阅读 提升你的基础,而不只是最新技术 2.
- 字符串索引示意图字符串切片也就是截取字符串,取子串Python中字符串切片方法字符串[开始索引:结束索引:步长]切取字符串为开始索引到结束索
- 本文实例讲述了Python 函数用法。分享给大家供大家参考,具体如下:demo.py(函数定义):# say_hello() # 不能在定义
- 一、作业需求 二、流程图三、源码与具体思路 import shutilimport osimport sysUSER_LOGIN
- Python类基本写法与注释风格python是一种面向对象的语言,利用类的抽象可以大大提高代码的复用和结构,减少重复造轮子的过程,也让代码变
- 前几天,看到有人写了个superLink的东东,主要的做什么用呢?我们有时会给在大块元素加个window.location='htt
- Python自动化脚本登录校园网所需工具:python编译环境(博主使用的pycharm作演示,其实在cmd也可以操作!)selenium自
- 项目背景最近在做的项目,涉及到数据库的操作了,之前做的是直接调用接口,不用做存库操作。因此要增加大量特殊格式的实体类。比如我们用的是 JPA
- 笔者电脑系统是win7,同时安装了Python2.7和Python3.6,但是在通过命令行直接使用“pip install XXX”安装Py
- 前言所谓模糊查询就是不需要用户完整的输入或者说全部输入信息即可提供查询服务,也就是用户可以在边输入的同时边看到提示的信息(其实是查询出来匹配