Python全角与半角之间相互转换的方法总结
作者:埃菲尔没有塔尖 发布时间:2023-12-25 03:50:50
1.应用领域:
全角和半角的转换通常用在自然语言处理过程中,由于全角和半角的不一致会导致信息抽取不一致,在使用语料训练语言模型会导致模型的效果不准确,所以需要统一。
2.全角半角转换概述
全角字符unicode编码范围从65281~65374 (对应的十六进制范围是: 0xFF01 ~ 0xFF5E)
半角字符unicode编码范围从33~126 (对应的十六进制范围从 0x21~ 0x7E)
空格比较特殊,全角为12288(0x3000),半角为 32 (0x20)
除空格外, 全角/半角按unicode编码排序在顺序上是对应的(半角 +65248 = 全角 or 半角 + 0x7e= 全角 )
所以可以直接通过用±法来处理非空格数据,对空格单独处理
3.请注意:
中文文字永远是全角,只有英文字母、数字键、符号键才有全角半角的概念。
一个字母或数字占一个汉字的位置叫全角,占半个汉字的位置叫半角。
引号在中英文、全半角情况下是不同的
4.应用到的库函数
chr()函数用一个范围在range(256)内的(就是0~255)整数作参数,返回一个对应的字符。
unichr()跟它一样,只不过返回的是Unicode字符。
ord()函数是chr()函数(对于8位的ASCII字符串)或unichr()函数(对于Unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值,或者Unicode数值。
示例:
5.全角转半角:
def strQ2B(ustring):
rstring = ""
for uchar in ustring:
inside_code = ord(uchar)
if inside_code == 12288: # 全角空格直接转换
inside_code = 32
elif 65281 <= inside_code <= 65374: # 全角字符(除空格)根据关系转化
inside_code -= 65248
rstring += chr(inside_code)
return rstring
str11 = strQ2B("电影《2012》讲述了2012年12月21日的世界末日,主人公Jack以及世界各国人民挣扎求生的经历!")
print(str11)
运行结果:
电影《2012》讲述了2012年12月21日的世界末日,主人公Jack以及世界各国人民挣扎求生的经历!
6.半角转成全角:
def strB2Q(ustring):
"""半角转全角"""
rstring = ""
for uchar in ustring:
inside_code = ord(uchar)
if inside_code == 32: # 半角空格直接转化
inside_code = 12288
elif 32 <= inside_code <= 126: # 半角字符(除空格)根据关系转化
inside_code += 65248
rstring += chr(inside_code)
return rstring
str22 = strB2Q("电影《2012》讲述了2012年12月21日的世界末日,主人公Jack以及世界各国人民挣扎求生的经历!")
print(str22)
运行结果:
电影《2012》讲述了2012年12月21日的世界末日,主人公Jack以及世界各国人民挣扎求生的经历!
附:如何通过python转换全角字符串为半角字符串实例
# coding:utf-8
from idna import unichr
def all_to_half(all_string):
"""全角转半角"""
half_string = ""
for char in all_string:
inside_code = ord(char)
if inside_code == 12288: # 全角空格直接转换,全角和半角的空格的Unicode值相差12256
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): # 全角字符(除空格)根据关系转化,除空格外的全角和半角的Unicode值相差65248
inside_code -= 65248
half_string += unichr(inside_code)
return half_string
说在后面:
下面的内容都是从网上整理出来,因为曾经使用过,所以以后查询起来比较方便。
来源:https://blog.csdn.net/weixin_38819889/article/details/103288086


猜你喜欢
- #HelloWorld是文件名称,Hello是类from HelloWorld import Hello调用,Hello类的方法:>&
- 但Insus.NET想到的是,从下面的SQL语句,就可以查询到数据库大小。因此分享于此。 代码如下:SELECT DB_NAME
- MAC地址也叫物理地址、硬件地址,由网络设备制造商生产时烧录在网卡(Network lnterface Card)的EPROM(一种闪存芯片
- Git 服务器搭建上一章节中我们远程仓库使用了 Github,Github 公开的项目是免费的,但是如果你不想让其他人看到你的项目就需要收费
- 一、查询条件精确,针对有参数传入情况 二、SQL逻辑执行顺序 FROM-->JOIN-->WHERE-->GROUP--&
- 索引是提高数据查询最有效的方法,也是最难全面掌握的技术,因为正确的索引可能使效率提高10000倍,而无效的索引可能是浪费了数据库空间,甚至大
- BLOB是一个大文件,典型的BLOB是一张图片或一个声音文件,由于它们的尺寸,必须使用特殊的方式来处理(例如:上传、下载或者存放到一个数据库
- js判断undefined类型if (reValue== undefined){alert("undefined");}
- 因为他的简单实用和数量庞大的插件,所以我们喜欢和使用jQuery,在jQuery数量庞大的插件中有很大的一部分是关于图片的,所以今天我们就整
- 前言为什么会做这个?因为我们把word转化为pdf,wps默认转化为文字pdf,而图片pdf要会员。网上确实也有网站可以实现免费的,但是未必
- 深度学习网络通常具有很深的层次结构,而且层与层之间通常会有并联、串联等连接方式。当使用PyTorch建立一个深度学习网络并输出文本向读者展示
- 本文实例讲述了GO语言实现简单的目录复制功能。分享给大家供大家参考。具体实现方法如下:创建一个独立的 goroutine 遍历文件,主进程负
- python爬虫基本告一段落,琢磨搞点其他的,正好在网上看到一个帖子,一个外国13岁小朋友用python写的下棋程序,内容详细,也有意思,拿
- 记录一些select的技巧: 1、select语句可以用回车分隔 $sql="select * from&nb
- 想使用正则表达式来获取一段文本中的任意字符,写出如下匹配规则: (.*) 结果运行之后才发现,无法获得换行之后的文本。于是查了一下手册,才发
- 本博客详细为你解释 Python Flask 框架下的 HTML 文件压缩内容,其第三方模块也可用在其他框架中。本案例是基于 Python
- pre标签会原样保留HTML内容的格式,可是如果宽度过大会把页面撑坏,这时候需要自动换行来帮忙:Making preformate
- 众所周知,透明的PNG图片在IE6中是不透明的。为了在IE6中显示透明的PNG图片,找了一下方法,在网页中嵌入JS语句,可是执行效果并不尽如
- 前面简单介绍了Python元组基本操作,这里再来简单讲述一下Python字典相关操作>>> dir(dict) #查看字段
- 当下,大数据方面的就业主要有三大方向:一是数据分析类大数据人才,二是系统研发类大数据人才,三是应用开发类大数据人才。他们的基础岗位分别是大数