位置：首页>> 网络编程>> Python编程>> python对html过滤处理的方法

python对html过滤处理的方法

作者：striverpan　　发布时间：2023-04-25 15:28:57　

标签：python,html,过滤

如下所示：

##过滤HTML中的标签
#将HTML中标签等信息去掉
#@param htmlstr HTML字符串.
def filter_tags(htmlstr):
#先过滤CDATA
re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA
re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style
re_br=re.compile('<br\s*?/?>')#处理换行
re_h=re.compile('</?\w+[^>]*>')#HTML标签
re_comment=re.compile('')#HTML注释
re_stopwords=re.compile('\u3000')#去除无用的'\u3000'字符
s=re_cdata.sub('',htmlstr)#去掉CDATA
s=re_script.sub('',s) #去掉SCRIPT
s=re_style.sub('',s)#去掉style
s=re_br.sub('\n',s)#将br转换为换行
s=re_h.sub('',s) #去掉HTML 标签
s=re_comment.sub('',s)#去掉HTML注释
s=re_stopwords.sub('',s)
#去掉多余的空行
blank_line=re.compile('\n+')
s=blank_line.sub('\n',s)
s=replaceCharEntity(s)#替换实体
return s

##替换常用HTML字符实体.
#使用正常的字符替换HTML * 殊的字符实体.
#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.
#@param htmlstr HTML字符串.
def replaceCharEntity(htmlstr):
CHAR_ENTITIES={'nbsp':' ','160':' ',
'lt':'<','60':'<',
'gt':'>','62':'>',
'amp':'&','38':'&',
'quot':'"','34':'"',}

re_charEntity=re.compile(r'&#?(?P<name>\w+);')
sz=re_charEntity.search(htmlstr)
while sz:
entity=sz.group()#entity全称，如>
key=sz.group('name')#去除&;后entity,如>为gt
try:
htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
sz=re_charEntity.search(htmlstr)
except KeyError:
#以空串代替
htmlstr=re_charEntity.sub('',htmlstr,1)
sz=re_charEntity.search(htmlstr)
return htmlstr

来源：https://blog.csdn.net/w616358337/article/details/62891259

0

投稿

猜你喜欢

在python中使用正则表达式查找可嵌套字符串组
在网上看到一个小需求，需要用正则表达式来处理。原需求如下：找出文本中包含”因为……所以”的句子，并以两个词为中心对齐输出前后3个字，中间全输
FrontPage2002简明教程三：网页布局
阅读系列教程上一篇：FrontPage2002简明教程二：文字与图像的处理通常网页的布局使用到的是FrontPage 2002中的表格和框架
python爬虫判断招聘信息是否存在的实例代码
在找工作的时候，我们会选择上网查询招聘的信息，或者是通过一些招聘会进行现场面试。但由于信息更新不及时，有一些岗位会出现下架的情况，如果我们不
Python基于requests实现模拟上传文件
方法1：1.安装requests_toolbelt依赖库#代码实现def upload(self): login_
Python计算机视觉SIFT尺度不变的图像特征变换
图像特征-SIFT尺度不变特征变换1.1图像尺度空间在一定的范围内，无论物体是大还是小，人眼都可以分辨出来，然后计算机要具有相同的能力却很难
对python3.4 字符串转16进制的实例详解
如下所示：def str_to_hex(s): s = s.split(' ')&nbs
SQL Server 2005恢复Master库
master库对于SQLServer来说，是很重要的系统数据库，保存着所有Sqlserver的用户信息、数据库信息等，当数据库崩溃时，mas
详细聊聊为什么Python中0.2+0.1不等于0.3
为什么Python中0.2+0.1不等于0.3大家请看下面的python程序代码：print(0.2+0.1)猜一猜运行结果是什么，是0.3
PHP基于openssl实现非对称加密代码实例
使用非对称加密主要是借助openssl的公钥和私钥，用公钥加密私钥解密，或者私钥加密公钥解密。1.安装openssl和php的openssl
python中的psutil模块详解(cpu、内存、磁盘情况、结束指定进程)
获取CPU信息我们先来获取CPU的信息：>>> import psutil>>> psutil.cpu_
利用css的clear属性搞定广告文字环绕效果
是否看见大站的广告都是放在内容中间实现文字环绕的呢，一般普通小站广告只能放在内容开头或者结尾，也许大站的cms系统带这个功能吧，我们小站常用
简要介绍SQL Server 2008新的事件处理系统
SQL Server Extended Events（下面简称XEvent）是SQL Server 2008里新加的事件处理系统，用来取代S
Python Pygame制作雪夜烟花景
运行截图运行效果：什么？你说你看不清烟花？那我换一种颜色，请点开看。实现过程准备工作使用语言和框架：python、pygame。安装pyga
刚学完怎么用Python实现定时任务,转头就跑去撩妹!
一、发送消息import smtplibfrom email.mime.text import MIMETextfrom email.hea
python中np是做什么的
在python中，“np”一般是指“numpy”库，是第三方库“numpy”的别名。方法：利用命令“import numpy as np”将
让你同时上传 1000 个文件（二）
文件提交页面既已生成，下面任务就很明确了：将提交的文件内容保存到服务器上。下面我们用两种方法来实现这个功能： 1. 用 PHP 来保存：
Python文件处理、os模块、glob模块
一、文件基本的操作1、open() 打开文件open() 方法用于打开一个文件，并返回File文件对象，在对文件进行处理过程都需要使用到这个
uni-app常用的几种页面跳转方式总结
一、uni.navigateTo(OBJECT)保留当前页面，跳转到应用内的某个页面，使用uni.navigateBack可以返回到原页面u
Python轻松搞定视频剪辑重复性工作问题
目录01 安装02 剪辑01 安装对视频进行批量剪辑，需要三个库，分别是Moviepy库和Pathlib库，还有Tkinter库。首先我们对
介绍Python中的一些高级编程技巧
正文：本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中，你可以根据需要选择合适的数据结构，例如对快速查找性的

Python操作串口的方法

Python实现时间序列可视化的方法

利用Python实现岗位的分析报告

全网最详细的PyCharm+Anaconda的安装过程图解

python数据分析之公交IC卡刷卡分析

python 如何使用find和find_all爬虫、找文本的实现

Python实现特定场景去除高光算法详解

pytorch 中forward 的用法与解释说明

使用Python编写类UNIX系统的命令行工具的教程

python通过pillow识别动态验证码的示例代码

如何在你的Windows中使用杜比全景音效以提升影音游戏体验？

Win7系统开机黑屏仅有鼠标怎么办？教你一招轻松解决

Win10 Edge浏览器Dev / Canary版发布3D视图

DjangoRestFramework 使用 simpleJWT 登陆认证完整记录

Excel也能增加"后悔"次数

excel删除函数的教程

Win7系统麦克风的声音设置方法

python函数缺省值与引用学习笔记分享

excel怎么使用vba分解质因数

如何创建桌面快捷方式?windowsXP创建快捷方式方法介绍

手机版 网络编程 asp之家 www.aspxhome.com