python中的编码和解码及\\x和\\u问题
作者:气球会膨胀 发布时间:2023-11-02 14:46:31
编码和解码及\x和\u问题
“字符在内存里的表示是unicode,如果要存盘或者发到网络就经过utf-8,然后对端收到依次解码。”
Python 3里面,str在内存里是unicode表示的
‘中文’ == ‘\u4e2d\u6587’
'中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
'\u4e2d\u6587'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
1个汉字用unicode表示一般是2个byte,
例如:
‘中’=\u4e2d(十六进制写法【即2bytes】)
'A'.encode('ascii')
>>>b'A'
('\u0041').encode('ascii')
>>>b'A'
'A'.encode('utf-8')
>>>b'A'
note: b’A’和’A’
在python 3中
b’A’是ascii编码的01010101的字节,占1个byte;
'A‘是在内存里按unicode形式编码的/ucc,占的是2个byte。
unicode编码后是bytes,如果这个字节范围不在ascii的表示范围内,就会显示成\x(十六进制形式)
例如:
汉字编码成bytes,去查看这个bytes肯定只能看到\x系列,因为这个bytes的内容肯定不在ascii范围内;
英文编码成bytes可以看到对应的英文字母,本质上它还是没有含义的010101的字节流而不是字符。
"abc".encode('utf-8')
b'abc'
'中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
1个汉字,按utf-8编码,一般是3个bytes,\xe4是十六进制表示的1个byte。
相同的英文字符,ascii编码和utf-8编码的结果是一致的,因为这两种编码都使用一个byte表示一个英文字符
'abc'.encode('ascii').decode('utf-8')
'abc'
可以用一个编码然后再另一个解码,是可以成功还原的。但一般是不会这么做的。
ord函数获取字符的整数表示和chr数把编码转换为对应的字符
ord('A')
65
ord('中')
20013
chr(66)
'B'
chr(25991)
'文'
对str和对bytes用len,意义是不同的。
len(str)统计字符数,len(bytes)统计bytes数
>>> len('中文')
2
len(str)统计字符数
>>> bt1 = '中文'.encode('gb2312')
>>> bt2 = '中文'.encode('utf-8')
>>> bt1
b'\xd6\xd0\xce\xc4'
>>> bt2
b'\xe4\xb8\xad\xe6\x96\x87'
>>> len(bt1)
4
>>> len(bt2)
6
以Unicode表示的str通过encode()方法可以编码为指定的bytes
python解析 \x 和 \u "乱码"
参数错误
\xe5\x8f\x82\xe6\x95\xb0\xe6\x9c\x89\xe8\xaf\xaf
今日已经完成过此任务,请明日再做此任务吧!
\u4eca\u65e5\u5df2\u7ecf\u5b8c\u6210\u8fc7\u6b64\u4efb\u52a1\uff0c\u8bf7\u660e\u65e5\u518d\u505a\u6b64\u4efb\u52a1\u5427!
python2.7解析方法
>>> print(u'\xe5\x8f\x82\xe6\x95\xb0\xe6\x9c\x89\xe8\xaf\xaf '.encode('unicode_escape').decode('string_escape'))
>>>print('\u4eca\u65e5\u5df2\u7ecf\u5b8c\u6210\u8fc7\u6b64\u4efb\u52a1\uff0c\u8bf7\u660e\u65e5\u518d\u505a\u6b64\u4efb\u52a1\u5427!'.decode('unicode_escape'))
python3解析方法
>>>('\xe5\x8f\x82\xe6\x95\xb0\xe6\x9c\x89\xe8\xaf\xaf '.encode('raw_unicode_escape')).decode()
>>>'\u4eca\u65e5\u5df2\u7ecf\u5b8c\u6210\u8fc7\u6b64\u4efb\u52a1\uff0c\u8bf7\u660e\u65e5\u518d\u505a\u6b64\u4efb\u52a1\u5427!'
来源:https://blog.csdn.net/weixin_44895142/article/details/107775166


猜你喜欢
- 通过百度云API接口抽取得到产品评论的观点,也掠去了很多评论中无用的内容以及符号,为后续进行文本主题挖掘或者规则的提取提供基础。工具 1、百
- 如下所示:from sklearn.datasets import load_bostonboston = load_boston()fro
- 目录分析问题音频url搜索urlJS代码实现分析问题音频url点入某个音乐的播放界面,通过F12-Network,分析数据,可以看到有一个i
- js 日期 获取今天、昨天、明天第一个函数function getDay(day){ var today = ne
- 概述在进行网站爬取数据的时候,会发现很多网站都进行了反爬虫的处理,如JS加密,Ajax加密,反Debug等方法,通过请求获取数据和页面展示的
- 1、$(function(){ $("#a").click(function(){ //adding your code
- 问题:MySQL 8.0 无法远程连接访问原因:可能是mysql数据库user表中,用户的 host 字段配置是不允许当前hos
- 前面我讲解了如何将树莓派(Raspberry Pi)打造成无线路由,感觉每次通过命令ssh管理显麻烦,于是自己动手编写Web界面,主要是使用
- 目的现有两幅栅格图像,一个是某地区道路栅格图,一个是某地区土地利用类型图,需要将道路叠加到土地利用类型图中,即叠加后,重合的像元值以道路图为
- 这篇文章主要介绍了Python实现序列化及csv文件读取,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的
- 百万级数据处理方案数据存储结构设计表字段设计表字段 not null,因为 null 值很难查询优化且占用额外的索引空间,推荐默认数字 0。
- Python定时执行程序(schedule)使用schedule库import scheduleimport timedef job():
- 本来想着做一个将图片识别为文字的小功能,本想到Google上面第一页全是各种收费平台的广告。这些平台提供的基本都是让我们通过调用相关的三方接
- 前言我最近喜欢去听情感类的节目,比如说,婚姻类,我可能老了吧。我就想着怎么把音乐下载下来了,保存到手机上,方便我们业余时间去听。发送请求首先
- 如下所示:>> import numpy as np>> P = np.eye(3)>> Parray(
- 我们在建立一个大型网站的时候,往往会包括很多相同的页面框架模式,甚至一些细节元素都是相同的。但令人困扰
- 当我们定义一个类的时候,有时候会定义一个私有属性来辅助开发。在其它语言中经常会用到 private 来修饰这个属性为私有属性。可是你知道么?
- 导语在工作场景遇到了这么一个场景,就是需要定期去执行一个缓存接口,用于同步设备配置。首先想到的就是Linux上的crontab,可以定期,或
- 安装环境及说明操作系统:64位win7以下所有安装包已经被我打包至网盘,请移步到http://www.colafile.com/file/4
- 1. grpc开源包的安装# conda$ conda create -n grpc_env python=3.9# install grp