python2和python3在处理字符串上的区别详解
作者:HF9 发布时间:2021-10-07 03:29:31
python2和python3对于字符串的处理有很大的区别
熟悉了python2的写法用python3时真的会遇到很多问题啊……
区别
python2中有一种类型叫做unicode型,例
type(u"a") => str型
type("a".decode('utf8')) => unicode型
两者返回的类型都是unicode型
而在python3中,所有的字符串都是unicode,所以就不存在单独的unicode型,全部都是字符串型
type(u"a") => str型
type("a".decode('utf8')) => 报错,python3不能这样写
但是python3中多处一种字符串
type(b'132') => byte型
而在python2中这样写就会报错
所以显而易见,decode和encode的使用也会有很大的区别
python2中的decode是将str型转换为unicode型
python3中的decode是将byte型转换为str型
使用
在使用python3写爬虫时,有时候会遇到这样的错误
'gbk' codec can't encode character '\u30fb' in position 0: illegal multibyte sequence
遇到这样的错误就和上面的编码问题连系起来了
你会发现,明明自己设置的编码是utf8,怎么会报一个gbk的错误??
这个问题可能会在两个地方出现(输出时,写入文件时),其实这里设置的编码并没有问题,问题出在python3的字符串中,像上面说的,python3默认所有字符串都是unicode型,在面对字符串时,会首先按照unicode解析,自然会报错
那么,我们来转换一下编码(假设a是一个gbk编码的数据流)
"a".decode('gbk')
将字符串按照gbk规则解码
会发现依旧报错,明明已经改为gbk了啊……不着急,再进行一次
"a".decode('gbk').encode('utf8').decode('utf8')
为什么写的这么长……就像上面说的,decode是将byte型转为str型,而encode是将str型转换为byte型,所以再进行一次encode,decode就能够使得字符串转换编码格式
但是当你输出时,你会发现还是有问题
解决
我们回到开始
不输出我们想要的字符串,发现没有问题……问题出在哪?
没错,是print(),print在输出时会默认其中的字符时unicode编码的字符串,而我们输入了一个gbk编码的字符串,所以就会出错,所以,解决方法就是,不使用print……
但是print的使用有时候是不可避免的,所以在decode时加上一个ignore
"a".decode('gbk',errors='ignore')
此外,在打开或写入文件时遇到的话,就需要加上encoding参数
with open("1.txt",'r',encoding='utf8') as a:
来源:https://www.cnblogs.com/hf99/p/9740777.html


猜你喜欢
- 完整项目地址下载:https://github.com/rainbow-tan/rainbow/tree/master/%E8%A3%81%
- 介绍 os模块是Python和操作系统进行交互的一个接口,它提供了许多操作文件及文件夹的函数。可以用于文件名、文件路径、文件夹相
- Django实现内容缓存:1、内存缓存settings.py文件配置CACHES = { 'default':
- 背景App落地页迭代频繁,且需兼容App与各小App,目前是单向前进迭代,会存在以下问题:跳转原生交互;如:某个落地页增加了只有主App的才
- 关于MySQL8的WITH查询学习前言:对于逻辑复杂的sql,with可以大大减少临时表的数量,提升代码的可读性、可维护性MyS
- MySQL数据库远程访问权限设置对于初学者小伙伴来说,我们安装mysql到本地服务,再用一些图形化工具链接。一般情况下我们都能链接成功;但是
- 问题背景: 日常对Sql Server 2005关系数据库进行操作时,有时对数据库(如:Sharepoint网站配置数据库名Sharepoi
- 使用 Python 对数据进行更新操作对于 es 的更新的操作,不用到 Search() 方法,而是直接使用 es 的连接加上相应的函数来操
- 什么是Dynamic HTML 今天我们以问答的形式来讲述什麽是Dynamic Html。问:亲爱的网猴,我经常看到讲述有关“Dynamic
- 前文学习:python数据类型: python数据结构:数据类型.python的输入输出: python数据结构输入输出及控制和异常.pyt
- 前言项目中要实现多选,就想到用插件,选择了bootstrap-select。附上官网api链接,http://silviomoreto.gi
- 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?方法一:基于Scrapy框架中的Spider的递归爬去进行实现
- 在Linux下C连接MySQL出现问题如下:编译成功后,运行程序,出现./connect: error while loading shar
- Python元字典字典(dictionary)是除列表以外python之中最灵活的内置数据结构类型。列表是有序的对象结合,字典是无序的对象集
- 开发工具**Python版本:**3.6.4相关模块:scikit-learn模块;jieba模块;numpy模块;以及一些Python自带
- 最近在研究pathon的命令行解析工具,argparse,它是Python标准库中推荐使用的编写命令行程序的工具。以前老是做UI程序,今天试
- 初学框架vue搭配vux使用发现这个UI库使用有些力不从心。下面说说自己在表单验证过程遇到的两个需求问题及解决的方法。1.使用x-input
- 本文实例讲述了Python使用progressbar模块实现的显示进度条功能。分享给大家供大家参考,具体如下:progressbar安装:p
- 前言之前公司设计的网站比较混乱,很多地方不统一,其中一个就是弹出层,导致这个原因是因为,公司的UI换了好几个人,而他们每个人做出来的都不太一
- 关于IE9,微软逐渐提供越来越多的内容。很多人想知道IE9有多少模式和渲染引擎,今天IE项目主管Marc Silbey就此问题进行了解答。S