python轻松过滤处理脏话与特殊敏感词汇
作者:Python 发布时间:2022-02-07 15:53:28
标签:python,脏话,敏感词,过滤
python的其中一个强大之处就是它可以方便的集成很多的非标准库,今天在GitHub上溜达又发现了一个脏话处理神器,导入better_profanity库后,只需要几行代码就能搞定了,相当nice!
使用pip的方式将better_profanity非标准库安装好,这个库好像在清华大学的镜像站中没有,其他镜像站不知道有没有,于是下载时没有使用镜像站,默认到官方去下载即可。
pip install better_profanity
# 将处理模块直接导入到代码块中
from better_profanity import profanity
1、默认脏话库/敏感词库处理
默认情况下就只能处理英文的脏话。
censored_text = profanity.censor("you are bitch")
print(censored_text)
# you are ****
可以看到其中bitch字符被认为是脏话已经处理成****字符了。
当然,还可以将处理后的脏话字符换成别的字符代替,比如下面这样处理。
censored_text = profanity.censor("you are bitch",'-')
print(censored_text)
# you are ----
这样****就被替换成了----。
2、自定义过滤信息处理
bad_words = ['Python', 'Java', 'Scala'] # 自定义过滤词汇
profanity.load_censor_words(bad_words) # 加载自定义过滤词汇
censored_text = profanity.censor("Python is very Good !") # 执行过滤
print(censored_text)
# **** is very Good !
可以发现,想要过滤的python字符已经成功过滤掉了。
3、contains_profanity函数
contains_profanity函数用来查看我们的语句中是否包含需要过滤的词汇,如果包含则会返回True,否则返回False。
bad_words = ['bitch', 'Java', 'Scala'] # 自定义过滤词汇
profanity.load_censor_words(bad_words) # 加载自定义过滤词汇
censored_text = profanity.contains_profanity("you are bitch")
print(censored_text)
# True
结果为True,表示包含需要过滤的词汇信息。
4、load_censor_words_from_file函数
load_censor_words_from_file函数用于加载需要过滤词汇的文件。
profanity.load_censor_words_from_file('/usr/load/bad_words.txt')
加载完词汇文件之后,按照之前的逻辑处理即可。
词汇文件的定义格式,按照每个词汇独占一行的形式进行定义,文件格式使用.txt文本文档即可。
# bitch
# bitches
# bitchin
# bitching
# blowjob
# blowjobs
# blue waffle
来源:https://blog.csdn.net/chengxuyuan_110/article/details/125963996
0
投稿
猜你喜欢
- 如何在线更改Windows2000管理者密码?changepwd.htm <html><head><title
- 当你在IE中点击一个Realplayer连接时,系统会自动启动Realplayer软件,不仅占用系统内存,而且在上网时Realplayer容
- 一个不错的js星级评分代码,可以评多个指标。相关文章推荐:用css制作星级投票评分功能 效果图:<script language=&q
- 如下所示:#待处理列表A= [1,2,3,4,5]#移动次数a = 3右移比较简单for i in range(a): A.insert(0
- 问题描述:在画时间序列ACF时,调用from statsmodels.graphics.tsaplots import plot_acf,
- 本文实例讲述了Python基于最小二乘法实现曲线拟合。分享给大家供大家参考,具体如下:这里不手动实现最小二乘,调用scipy库中实现好的相关
- 这篇文章主要介绍了Oracle数据库到SQL Server数据库主键的迁移过程,具体内容请参考下文。由于项目需要要将以前Oracle的数据库
- 用字符串就可以轻松地获取每一个文件的名称和扩展名,但不要乱用:<%Function getFilename(text)tex
- 什么是存储过程呢?定义:将常用的或很复杂的工作,预先用SQL语句写好并用一个指定的名称存储起来, 那么以后要叫数据库提供与已定义好的存储过程
- 即使你没听说过“ * 六度分隔理论”,也很可能听过“凯文 • 贝肯 (Kevin Bacon)的六度分隔值游戏”。在这两个游戏中,目标都是
- 常用快捷键全部快捷键1、编辑(Editing)2、查找/替换(Search/Replace)3、运行(Running)4、调试(Debugg
- 浏览器对于CSS的支持问题落后于CSS的发展,以占有市场绝对份额的Internet Explorer来说,直到其前不久发布的第8个版本才刚刚
- MVC和MTV框架 MVC Web服务器开发领域里著名的MVC模式,所谓MVC就是把Web应用分为模型(M),控制器(C)和视图(V)三层,
- 简介这篇宏哥就带着小伙伴们分享一下如何连接模拟器(电脑版的虚拟手机),然后再安装一款APP-淘宝为例。一、appium+pycharm+连接
- 一、去除空格strip()" xyz ".strip() &n
- 1.交换变量值2.将一列表中的所有元素拼接成字符串3.查找list中最高频率的值4.检查两个单词是否是字谜(组成的字母和对应数量一致)5.反
- 第一步:创建转向控制页面创建网站默认的首页文件(通常为"index.asp"或"default.asp&quo
- Python等工具确实是不错的工具,但是有时候不管是基础的Python还是Python的软件包都让我觉得对中文不是很亲近。时不时地遇到一点问
- 现在能用自动化实现的,尽量使用自动化程序去操作,代替人工去操作,更有效率。今天说下用python结合adb命令去实现安卓手机端的通话压力测试
- <script>function getJsFile(url, callBack){