使用Python去除字符串中某个字符的多种实现方式比较
作者:AllardZhao 发布时间:2023-07-15 00:45:13
标签:python,去除,字符串
1、如何去掉字符串中不需要的字符?
实际案例:
(1)过滤掉用户输入前后多余的空白字符:' nick2008@gmail.com '
(2)过滤某windows下编辑文本中的'\r':'hello world\r\n'
(3)去掉文本中的unicode组合符号(调音):u'ní hǎo, chī fàn'(或 èěéēàǎā)
解决方案;
方法1:字符串strip(),lstrip(),rstrip()方法去掉字符串两端字符。
方法2:删除单个固定位置的字符,可以使用切片+拼接的方式。
方法3:字符串的replace()替换方法或正则表达式re.sub()删除任意位置字符。(通用)
方法4:字符串translate()方法,可以同时删除多种不同字符。
2、代码演示
# 方法1:strip类的方法
# 去掉字符串两端的字符
s = ' abc 123 '
'''
str.strip方法介绍:
strip([chars]) -> string or unicode
chars不指定默认情况下去掉空白字符(空格,\n,\t,\r)
'''
# 去掉两端空白,但保留了中间的空白
print(s.strip())
# 只去掉左端的空白
print(s.lstrip())
# 只去掉右端的空白
print(s.rstrip())
s2 = '---abc+++'
# 去掉s2中的加减
print(s2.strip('-+'))
# 方法2:删除固定位置字符,切片+拼接
s3 = 'abc:123'
# 只删除固定位置的冒号
s4 = s3[0:3] + s3[4:]
print(s4)
# 方法3:
'''
因为第1种方法不能删除中间的某些字符,只能在两端进行删除,
第3种就能完成删除中间某些字符的事情。
'''
s5 = '\tabc\t123\txyz'
# 清除s5中的所有\t,可以使用字符串替换replace,
# 但是这种方式只能替换一种
print(s5.replace('\t', ''))
s6 = '\tabc\t123\txyz\ropq\r'
import re
# 去除s6中的\t和\r
print(re.sub('[\t\r]', '', s6))
# 方法4:
'''
str.translate方法介绍:
S.translate(table) -> string
table如果是None不做任何映射,如果存在就是一个字符映射到另一个字符上去的表;
'''
s7 = 'abc1230323xyz'
# 现在对s7字符串进行加密,加密规则是将其中a全部替换成x,
# b替换成y,c替换成z,反过来将其中的xyz分别替换成abc
# 构建映射表
make = str.maketrans('abcxyz', 'xyzabc')
print(make)
# 对s7字符串进行加密转换
print(s7.translate(make))
s8 = 'abc\refg\n2342\t'
# 删除s8中\r,\n,\t,构建映射表str_trans
str_trans = str.maketrans('', '', '\t\r\n')
print(s8.translate(str_trans))
# 去掉音标符号
u = u'nǐ hǎo, chī fàn'
import unicodedata, sys
# 将原始输入标准化为分解形式字符
a = unicodedata.normalize('NFD', u)
'''
使用dict.fromkeys() 方法构造一个字典,每个Unicode和音调作为键,对应的值全部为None
sys.maxunicode : 给出最大Unicode代码点的值的整数,即1114111(十六进制的0x10FFFF)。
unicodedata.combining:将分配给字符chr的规范组合类作为整数返回。如果未定义组合类,则返回0
这样我们就成功将所有组合类的值全部设置为None
'''
cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode)
if unicodedata.combining(chr(c)))
# 调用translate函数删除所有音调
print(a.translate(cmb_chrs))
来源:https://blog.csdn.net/qq_37189082/article/details/124546253


猜你喜欢
- 下面是十个Python中很有用的贴士和技巧。其中一些是初学这门语言常常会犯的错误。注意:假设我们都用的是Python 31. 列表推导式你有
- php.ini文件没有参数没有配置正确解决方法:(1) 打开php.ini文件,找到:extension_dir = "./&qu
- 包的使用1.首次导入模块发生的事情3件事情先产生一个执行文件的名称空间:1.创建模块文件的名称空间2.执行模块文件中的代码 将产生的名字放入
- 在介绍Python的self用法之前,先来介绍下Python中的类和实例……我们知道,面向对象最
- Himmelblau函数如下:有四个全局最小解,且值都为0,这个函数常用来检验优化算法的表现如何:可视化函数图像:import numpy
- 那就废话不多说,直接上代码吧!new_array = np.zeros((107,4))# 共107行 每行4列 初值为0>>&
- 本文介绍python统计词频的几种方法,供大家参考方法一:运用集合去重方法def word_count1(words,n):
- 前言神奇的JQuery怎么设置checkbox状态时好时坏?明明同一行代码,断点跟踪确实执行了,但是有时候好使,有时候却没有生效。毕竟对JS
- 1.简介: java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。 它包括两个类:Pattern和Ma
- 本文实例讲述了Python多线程下载文件的方法。分享给大家供大家参考。具体实现方法如下:import httplibimport urlli
- class torch.nn.Sequential(* args)一个时序容器。Modules 会以他们传入的顺序被添加到容器中。当然,也可
- 对于大多数数据科学家而言,线性回归方法是他们进行统计学建模和预测分析任务的起点。这种方法已经存在了 200 多年,并得到了广泛研究,但仍然是
- /** * The maximum supported {@code LocalTime}, '23:59:59.999999999
- 1. 前言上一篇介绍了 Go并发控制--Channel使用channel来控制子协程的优点是实现简单,缺点是当需要大量创建协程时就需要有相同
- 这个主要应用于,获取用户输入的时候,防止用户不小心,多输入了一个空格,导致验证无法通过,多用于用户名跟密码的,好多情况下,大家复制的winr
- 将pandas.DataFrame,pandas.Series的索引设置为datetime64 [ns]类型时,将其视为DatetimeIn
- HTML5真的是很强大,前端时间看到一个canvas实现九宫格的密码解锁。今天抽出时间模仿了一个,特定分享一下!效果截图如下:效果看起来还不
- 今天主要来实现一个权限管理系统,它主要是为了给不同的用户设定不同的权限,从而实现不同权限的用户登录之后使用的功能不一样,首先先看下数据库总共
- 定义及路由机制定义在settings里面的DATABASES是一个字典,用于定义需要的数据库,如下,一共定义了两个数据库。DATABASES
- Python提供了一些内建函数用于基本对象类型:cmp(),repr(),str(),type()和等同于repr()的('