网络编程
位置:首页>> 网络编程>> Python编程>> python 全角半角互换的实现示例

python 全角半角互换的实现示例

作者:王大呀呀  发布时间:2021-02-03 20:30:52 

标签:python,全角,半角

在自然语言处理过程中,全角、半角的的不一致会导致信息抽取不一致,因此需要统一。

有规律(不含空格):

全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)
半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)

特例:

空格比较特殊,全角为 12288(0x3000),半角为 32(0x20)

除空格外,全角/半角按unicode编码排序在顺序上是对应的(半角 + 0x7e= 全角),所以可以直接通过用+-法来处理非空格数据,对空格单独处理。

注:

1. 中文文字永远是全角,只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角,占半个汉字的位置叫半角。

2. 引号在中英文、全半角情况下是不同的

示例

# 全角转半角
def strQ2B(ustring):
   ss = []
   for s in ustring:
       rstring = ""
       for uchar in s:
           inside_code = ord(uchar)
           if inside_code == 12288:  
               inside_code = 32
           elif (inside_code >= 65281 and inside_code <= 65374):  
               inside_code -= 65248
           rstring += chr(inside_code)
       ss.append(rstring)
   return ''.join(ss)

# 半转全角
def strB2Q(ustring):
   ss = []
   for s in ustring:
       rstring = ""
       for uchar in s:
           inside_code = ord(uchar)
           if inside_code == 32:
               inside_code = 12288
           elif (inside_code >= 33 and inside_code <= 126):
               inside_code += 65248
           rstring += chr(inside_code)
       ss.append(rstring)
   return ''.join(ss)

if __name__ == '__main__':
   b = strQ2B('王大AA')
   print(b)
   a = strB2Q("王大AB")
   print(a)

库函数说明

chr()函数用一个范围在range(256)内的(就是0~255)整数作参数,返回一个对应的字符。
unichr()跟它一样,只不过返回的是Unicode字符。

ord()函数是chr()函数(对于8位的ASCII字符串)或unichr()函数(对于Unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值,或者Unicode数值。

来源:https://juejin.cn/post/7080335663979036686

0
投稿

猜你喜欢

手机版 网络编程 asp之家 www.aspxhome.com