深入浅析python3中的unicode和bytes问题
作者:虞大胆 发布时间:2022-11-29 02:41:47
最近写了一些python3程序,四处能看到bytes类型,而它并不存在于python2中,这也是python3和python2显著区别之一。
以前在写python2代码的时候,经常会遇到很多编码报错的异常,原因在于python2对unicode的支持不是特别理想。而在python3中,所有编写的代码都是unicode,python解析器在运行的时候,内部都转换(除非你显示定义为bytes类型)为unicode,减少了出错的可能性。
在python3中,有两种字符串类型,默认的就是str,即unicode,也叫做文本类型。但一个程序总是会有I/O操作(磁盘,网络),即I/O二进制数据,在python3中定义为bytes类型。bytes类型就是一个个字节串,包含0~256 之间的一个整数。
那么如何定义bytes类型呢,有两种显示的方法,比如:
#只能允许ASCII值
x=b'abc'
y=b'\xe6\x88\x91'
print (x,y)
#对unicode字符集进行特定编码
t=bytes("我们","UTF-8")
#输出b'\xe6\x88\x91\xe4\xbb\xac'
#一个中文字符,UTF-8编码占用三个字节
print (t)
#返回6,对于python来说,就是字节序列的长度
print (len(t))
#返回2,代表两个字符
print (len("我们"))
接下去说说str类型和bytes类型之间的转换,比如从网络上读取到二进制数据后,python需要你显示的将其转换为str类型,也就是说 python不会隐式在str和bytes之间转换 ,看上去麻烦了很多,但会减少你出错的几率,自己明确自己做要的事情。
如果要将str转换为bytes,必须选择一个编码,明确二进制数据是如何编码的,比如:
x="我"
y=x.encode("UTF-8")
z=x.encode("GBK")
#b'\xe6\x88\x91' b'\xce\xd2'
print (y,z)
如果要将bytes转换为str,也需要一个编码,必须说明的是,你必须知道 二进制数据的编码是什么 ,如果选错了,转换为unicode的时候会错误,另外在python内部,它不关心二进制数据是什么编码的,只要是bytes类型, 它就是一串字节序列 ,比如:
x=b'\xe6\x88\x91'
print (x.decode("UTF-8"))
#会报错
print (x.decode("GBK"))
总之一句话,“ python内部使用unicode,外部使用bytes类型 ”,python内建库中,很多函数会说明需要str类型还是bytes类型(严格说来是bytes-like对象,比如bytes、bytearray ),在写代码的时候一定要看清楚,比如 hamc 库的new方法,就要求:
hmac.new(key, msg=None, digestmod=None) key is a bytes or bytearray object giving the secret key
很多库,尤其第三方库(比如requests)为了兼容python2和python3,会在内部做很多转换工作,让你意识不到bytes类型的存在,虽然生产力提高了,但对于理解python并没有太大的好处。
如果要充分理解bytes和str的应用,可以参考open和write两个内建函数。
使用文本方式打开文件,python在内部会自动转换为str类型,比如:
file ="t.txt"
t = open(file,mode="r").read()
而如果是二进制方式打开,如果要显示在终端,需要转换为str类型,比如:
file ="t.txt"
t = open(file,mode="rb").read()
print (t.decode())
print (t,type(t))
而如果是二进制方式写入,则将bytes类型数据直接写入,比如:
file="t.txt"
t=open(file,mode="wb")
t.write(b'\xe6\x88\x91')
在上面几个例子中,都没有说明使用那种编码,如果不显示指定,一般编码等同于locale.getpreferedencoding()
。
总结
以上所述是小编给大家介绍的python3中的unicode和bytes问题,网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!
来源:https://mp.weixin.qq.com/s


猜你喜欢
- Python中Math库和Python库都具备求对数的函数。import numpy as npimport math1. Numpy库1.
- 本文实例讲述了Python网络编程使用select实现socket全双工异步通信功能。分享给大家供大家参考,具体如下:在前面一篇《Pytho
- hello,我是小小炽,这是我写的第一篇博客,写博客一直都想在写,但是苦于能力尚浅,在各位大牛面前那既然是关公面前耍大刀了,但是其实想来每一
- 先来看这行代码:<script src = "allMyClientSideCode.js"></sc
- 因为这两天在学习深度学习需要用到ubuntu+python3.6版本,所以就按照网上的教学安装,但是ubuntu16.04自带的是pytho
- import timeimport paramikoclass HandleParamiko: '''
- 一、前言最近本都是开开心心的打开电脑写一些祖传BUG但一个报错阻碍了我写BUG的进度!这年代还有能阻碍我写BUG的报错???二、解决过程一个
- 绘制折线图命令形如:# 常用plt.plot(x, y, linewidth = '1', label = "te
- 前言相信做自动化测试的同学一定不可忽视的问题就是验证码,他几乎是一个网站登录的标配,当然,我一般是不建议在这上面浪费时间去做识别的。举个例子
- 并发与锁多个线程共享数据的时候,如果数据不进行保护,那么可能出现数据不一致现象,使用锁,信号量、条件锁互斥锁1. 互斥锁,是使用一把锁把代码
- 在图片处理中,霍夫变换主要是用来检测图片中的几何形状,包括直线、圆、椭圆等。在skimage中,霍夫变换是放在tranform模块内,本篇主
- python如何修改索引和行列修改索引修改索引之前是自动生成的索引:使用set_index('以xx字段为索引',inpla
- 概述先来介绍一下xml格式的文件,从数据分析的角度去看xml格式的数据集,具有以下的优点开放性(能在任何平台上读取和处理数据,允许通过一些网
- LabelEncoder 和 OneHotEncoder 是什么- 在数据处理过程中,我们有时需要对不连续的数字或者文本进行数字化处理。-
- sys.dm_io_pending_io_requests可以返回当前IO Pending的状态,对于SQL Server 中每个挂起的I/
- Chrome Options常用的行为一般有以下几种:禁止图片和视频的加载:提升网页加载速度。添加代理:用于 * 某些页面,或者应对IP访
- 将json多行数据传入到mysql中使用python实现表需要提前创建,字符集utf8 如果不行换成utf8mb4import jsonim
- 前言在这篇文章中,准备用 Python 从头开始实现一个全连接的神经网络。你可能会问,为什么需要自己实现,有很多库和框架可以为我们做这件事,
- 由于服务器无法上网,不得不采用离线方式安装。IDE=pycharm-community-2019.2.3,python=3.5.4。1 安装
- 安装Tornado省事点可以直接用grequests库,下面用的是tornado的异步client。 异步用到了tornado,根据官方文档