解决python 文本过滤和清理问题
作者:IT派森 发布时间:2023-08-31 08:18:38
问题
某些无聊的脚本小子在Web页面表单中填入了“pýtĥöñ”这样的文本,我们想以某种方式将其清理掉。
解决方案
文本过滤和清理所涵盖的范围非常广泛,涉及文本解析和数据处理方面的问题。在非常简单的层次上,我们可能会用基本的字符串函数(例如str.upper()和str.lower())将文本转换为标准形式。简单的替换操作可通过str.replace()或re.sub()来完成,它们把重点放在移除或修改特定的字符序列上。也可以利用unicodedata.normalize()
来规范化文本。
然而我们可能想更进一步。比方说也许想清除整个范围内的字符,或者去掉音符标志。要完成这些任务,可以使用常被忽视的str.translate()方法。为了说明其用法,假设有如下这段混乱的字符串:
>>> s = 'pytĥon\fis\tawesome\r\n'
>>> s
'pytĥon\x0cis\tawesome\r\n'
>>>
第一步是清理空格。要做到这步,先建立一个小型的转换表,然后使用translate()方法:
>>> remap = {
... ord('\t') : ' ',
... ord('\f') : ' ',
... ord('\r') : None # Deleted
... }
>>> a = s.translate(remap)
>>> a
'pytĥon is awesome\n'
可以看到,类似t和f这样的空格符已经被重新映射成一个单独的空格。回车符r已经完全被删除掉了。
可以利用这种重新映射的思想进一步构建出更加庞大的转换表。例如,我们把所有的Unicode组合字符都去掉:
>>> import unicodedata
>>> import sys
>>> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
...
>>> b = unicodedata.normalize('NFD', a)
>>> b
'pytĥon is awesome\n'
>>> b.translate(cmb_chrs)
'python is awesome\n'
>>>
在这个例子中,我们使用dict.fromkeys()
方法构建了一个将每个Unicode组合字符都映射为None的字典。
原始输入会通过unicodedata.normalize()
方法转换为分离形式,然后再通过translate()
方法删除所有的重音符号。我们也可以利用相似的技术来去掉其他类型的字符(例如控制字符)。
下面来看另一个例子。这里有一张转换表将所有的Unicode十进制数字字符映射为它们对应的ASCII版本:
>>> digitmap = { c: ord('0') + unicodedata.digit(chr(c))
... for c in range(sys.maxunicode)
... if unicodedata.category(chr(c)) == 'Nd' }
...
>>> len(digitmap)
460
>>> # Arabic digits
>>> x = '\u0661\u0662\u0663'
>>> x.translate(digitmap)
'123'
>>>
另一种用来清理文本的技术涉及I/O解码和编码函数。大致思路是首先对文本做初步的清理,然后通过结合encode()和decode()操作来修改或清理文本。示例如下:
>>> a
'pytĥon is awesome\n'
>>> b = unicodedata.normalize('NFD', a)
>>> b.encode('ascii', 'ignore').decode('ascii')
'python is awesome\n'
>>>
这里的normalize()方法先对原始文本做分解操作。后续的ASCII编码/解码只是简单地一次性丢弃所有不需要的字符。很显然,这种方法只有当我们的最终目标就是ASCII形式的文本时才有用。
讨论
文本过滤和清理的一个主要问题就是运行时的性能。一般来说操作越简单,运行得就越快。对于简单的替换操作,用str.replace()通常是最快的方式——即使必须多次调用它也是如此。比方说如果要清理掉空格符,可以编写如下的代码:
def clean_spaces(s):
s = s.replace('\r', '')
s = s.replace('\t', ' ')
s = s.replace('\f', ' ')
return s
如果试着调用它,就会发现这比使用translate()
或者正则表达式的方法要快得多。
另一方面,如果需要做任何高级的操作,比如字符到字符的重映射或删除,那么translate()方法还是非常快的。
从整体来看,我们应该在具体的应用中去进一步揣摩性能方面的问题。不幸的是,想在技术上给出一条“放之四海而皆准”的建议是不可能的,所以应该尝试多种不同的方法,然后做性能统计分析。
尽管本节的内容主要关注的是文本,但类似的技术也同样适用于字节对象(byte),这包括简单的替换、翻译和正则表达式。
总结
以上所述是小编给大家介绍的解决python 文本过滤和清理问题,希望对大家有所帮助
来源:https://www.jianshu.com/p/65f1fab2faa2
猜你喜欢
- 仿google的asp分页代码index.asp(文件1)<%@LANGUAGE="VBSCRIPT" CODEP
- //重新封装document对象 var Console={ Write:function(msg){alert(msg);} }; //P
- ttk控件的width-height设置tkinter中窗口,框架容器,控件如果不设置宽度高度,则会根据其中的内容自动设置宽度高度框架容器设
- CSS3的box-shadow属性可以让我们轻松实现图层阴影效果。我们来实战详解一下这个属性。1. box-shadow属性的浏览器兼容性先
- PHP中的MYSQL常用函数1、mysql_connect()-建立数据库连接格式:resource mysql_connect([stri
- 对于数字索引数组来说,通过 array_push()函数向数组中添加元素。array_push()函数将数组当成一个栈,将传入的变量压入该数
- 示例:mysql> DELIMITER //mysql> CREATE PROCEDURE `statis`()
- 1.用一个栈【python中可以用List】就可以解决,时间和空间复杂度都是O(n)# -*- coding: utf8 -*-# 符号表S
- 前言引用一张比较清晰易懂的图php伪协议是php自己支持的一种协议与封装协议,简单来说就是php定义的一种特殊访问资源的方法。常见的php伪
- 开门见山,直接以例子介绍: 代码如下:CREATE TABLE [dbo].[course]( [id] [int] NULL,
- 快速排序(QuickSort)是对冒泡排序的一种改进:基本思想:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一
- python 获取网页编码方式实现代码<span style="font-family: Arial, Helvetica,
- 2017年底,Tensorflow 推出Lite版本,可实现移动端的快速运行,其中,一个很关键的问题,如何把现有分类模型(.pb) 转换为(
- 一个常常令设计师和前端开发人员都头疼的事情就是字体的使用,设计师常常在设计稿中使用某些很漂亮的字体,以实现比较酷炫的界面。但这样常常给编码人
- 一、MySQL数据库的实例管理器概述:1、MySQL数据库的实例管理器(IM)是通过TCP/IP端口运行的后台程序,用来监视和管理MySQL
- 我们可能会出现这种情况,某个表原来设计不周全,导致表里面的数据数据重复,那么,如何对重复的数据进行删除呢?重复的数据可能有这样两种情况,第一
- 这是一篇知识性的文档,主要目的是为了让Web缓存相关概念更容易被开发者理解并应用于实际的应用环境中。为了简要起见,某些实现方面的细节被简化或
- 就服务器端处理而言,ASP是产生动态Web网页的一种相对较新的技术。动态页意味着什么呢?先暂时不考虑客户端相关功能上的进展,也不讨论客户端脚
- 任何一个交互过程的操作,对于用户来说都有学习成本,谁也不能保证所有人都可以准确无误地走完一个流程。交互设计师在设计时应该考虑适时地给用户相应
- 如何在一个广告旗帜里轮番显示时间长度不一的不同广告?好了,下面就是Ad Rotator组件完整的应用例子:adrot.asp<html