浅谈Python2之汉字编码为unicode的问题(即类似\\xc3\\xa4)
作者:mighty13 发布时间:2021-12-14 07:07:19
标签:Python2,汉字编码,unicode
Python2中编码相关的问题很是让人蛋疼,特别是中文字符。
比如本文所述的中文网页GBK编码的诡异问题。
现象
例如:盲录職氓聭聵,其实网页里面正常的应该是会员
分析
接着上面的例子,会员这部分乱码通过repr()函数求值得到如下结果
\xc3\xa4\xc2\xbc\xc2\x9a\xc3\xa5\xc2\x91\xc2\x98
使用type()函数求值得到的结果为unicode
eval(repr())出来值为
盲录職氓聭聵
通过查表上述6个汉字对应
c3a4 c2bc c29a c3a5 c291 c298
而上面内容对应的UTF-8值就是会员
解决方法
相当诡异的是本身是unicode编码,却被当作GBK系列来解码,结果导致乱码。因此将这些字符先编码再解决解决问题。
encode('raw_unicode_escape').decode()
来源:https://blog.csdn.net/mighty13/article/details/78231678


猜你喜欢
- 在一行内声明CSS,对比下面两个:h2 {font-size:18px; border:1px solid&n
- 前言前面两篇文章介绍了数据结构和算法的一些前置内容,这篇文章开始正式学习常见的数据结构,首先学习的就是栈(Stack)。什么是栈?栈全称为堆
- 这篇文章主要介绍了python3.8 微信发送服务器监控报警消息代码实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考
- 核心代码# -*- coding: utf-8 -*-'''python读取英文文件,将每个单词按照空格分开,并将每
- Vue如何配置根目录@首先:@是在路径访问时使用的,为了减少层级引用。@这是webpack设置的路径别名,默认指向src。旧版本在build
- golang数组去重利用map可以利用go中,map数据类型的key唯一的属性,来对数组去重将strSlice数组中重复的元素去掉,使其中的
- pytorch加载图片数据集有两种方法。1.ImageFolder 适合于分类数据集,并且每一个类别的图片在同一个文件夹, ImageFol
- 写在前面额、、、最近开始学习机器学习嘛,网上找到一本关于机器学习的书籍,名字叫做《机器学习实战》。很巧的是,这本书里的算法是用Python语
- 1.静态传值(在父组件中赋值好props中属性的值传递给子组件)父组件<template> <div>
- Web开发中,我们经常会遇到分页显示和排序数据记录集的情况,这在服务器端使用服务器端的代码和数据库技术是件很轻松的事情,比如:ASP、PHP
- <form action="calscore.asp?action=do" met
- 我们平时导入第三方模块的时候,一般使用的是 import 关键字,例如:import scrapyfrom scrapy.spider im
- 一、特效预览处理前处理后细节放大后二、程序原理1.将图片转为灰白图片后,将图片分成了三块,明、暗、阴影区域2.明区域使用空白进行填充3.阴影
- 防止用户通过后退按钮重复提交表单 <% response.Buffer=true response.Expires=0 respons
- 今天有个学生问我:页面中使用GIF格式,失真太大,怎么办呢?这个问题比较简单啊,只要用JPG就可以了。我们常用的页面的图片格式有三种,GIF
- 一般来说,pytorch 的Parameter是一个tensor,但是跟通常意义上的tensor有些不一样1) 通常意义上的tensor 仅
- 如何做一个看他爱不爱你的小测验?<%CurQ = Request.Form("CurQ")An
- threading用于提供线程相关的操作,线程是应用程序中工作的最小单元。python当前版本的多线程库没有实现优先级、线程组,线程也不能被
- 注意:列转行的方法可能是我独创的了,呵呵,因为在网上找不到哦,全部是我自己写的,用到了系统的SysColumns(一)行转列的方法先说说行转
- 对于网站设计者而言,时常处理大批量的文件是难免的,特别是图片和一些文本文本文件,更是经常处理。而由于网站大量文件的关系,对于同类