位置：首页>> 网络编程>> Python编程>> Python响应对象text属性乱码解决方案

Python响应对象text属性乱码解决方案

作者：何梦吉他　　发布时间：2023-07-31 13:06:41　

标签：Python,响应,对象,text,乱码

在获得网页响应对象res后，使用res.text属性可以获得网页源代码，但可能出现乱码！因为requests库会使用自动猜测的解码方式将抓取的网页源码进行解码，然后存储到res对象的text属性中；

但有的网站的编码格式和requests库默认的解码格式（）不一样（比如gbk gb2312是gbk的子集），这时候就要自己手动进行解码，先获得content属性，返回的是bytes类型的字符串，再进行解码decode（“网页的编码

格式”）

这时候可能出现新的问题

'gbk' codec can't decode byte 0xd0 in position 15264: illegal multibyte sequence

这是因为遇到了非法字符

比如网页中有这种字符

全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格（真正的全角空格是\xa1\xa1），因此在转码的过程中出现了异常。

只要字符串中出现了一个非法字符，整篇文章就都无法转码。

对于这种字符，根本不需要，不重要！

解决方法：在解码时候指定errors参数，

decode()的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数是strict，代表遇到非法字符时抛出异常；

如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用

#requests库默认会使用自己猜测的解码方式将抓取下来的网页进行解码，然后存储到text属性上去；
#但在该网站中，编码方式和默认的解码方式不一样，就会产生乱码,所以要手动进行解码，先获得content再decode()解码
#右键查看网页源代码，发现是gb2312编码，gb2312就是gbk的子集，所以用decode("gbk")

来源：https://www.cnblogs.com/hemengjita/p/12496110.html

0

投稿

猜你喜欢

带进度条的ASP无组件断点续传大文件下载
本文介绍如何利用带进度条的ASP无组件实现断点续传下载大文件。<％@LANGUAGE="VBSCRIPT"&nbs
PL/SQL编程经验小结开发者网络Oracle
平时在PL/SQL中的编程中遇到一些问题，这里以问答的形式来进行把它们总结下来，以供大家分享。1、当需要向表中装载大量的数据流或者需要处理大
写给JavaScript库开发者们的规则
这是base2的作者Dean Edwards 2007年3月份的一篇文章。最近正在折腾JavaScript库，感觉Dean给出的这些规则很中
如何根据用户银行帐户余额的多少进行显式的提交或终止？
<％@ transaction = required ％><％response.b
SQL Server元数据的管理与应用
大部分数据库管理员拥有某种形式的数据库元数据库，他们依赖其来跟踪范围很广的Microsoft SQL Server环境。我利用连接的服务器和
asp下通过HTTP_USER_AGENT判断用户是从手机上访问，还是电脑IE上访问
通过HTTP_USER_AGENT判断用户是从手机上访问，还是电脑IE上访问。 asp代码片段：主要使用了正则匹配手机环境，大家可以补充手机
由日文出错的Bug，重新认识 Replace 函数
上次我重新修改了UBB的转换后，又很多朋友反映日文显示的时候出错了。我在本地测试了一下，结果出现了 Invalid procedure ca
如何用变量实现群聊和悄悄话？
具体代码见下。在此程序中，由于使用了变量，我们需将全部聊友的昵称用“，”（逗号）来隔开，储存到application（"visit
JS页内查找关键词的高亮显示
运行代码框<html><META HTTP-EQUIV="Content-Type" content=
亚马逊购物用户体验分析 (一)
现在电子商务网站的设计,正面临着一系列的挑战,其中最主要的挑战是:我们尝试建立一种用户体验,来提高用户在线购物的可能性。为了对抗网上激烈的竞
通过索引优化含ORDER BY的MySQL语句
关于建立索引的几个准则：1、合理的建立索引能够加速数据读取效率，不合理的建立索引反而会拖慢数据库的响应速度。2、索引越多，更新数据的速度越慢
不要跳转或刷新实现网页区域选择显示
我们在制作网页时，有时会遇到这样的情况：根据用户的选择，显示不同的内容。比如，制作一个登录网页，上面有
常用CSS缩写语法总结章
http://validator.w3.org/#validate_by_upload 在线校验网址点浏览，上次找到自己做的页面
在js中调用asp页面的方法
asp之家注：也许你还没有接触过使用js来调用asp文件，也许你也不知道如何用JS调用asp文件，甚至你也不知道JS调用asp文件有什么好处
检测远程文件是否存在
代码'########### '检测远程文件是否存在 '########### function CheckURL(
交互设计实用指南系列(11)—减少记忆负担
写在前面的话关于《交互设计实用指南》，我们最近收到很多朋友的反馈，有支持的也有批评的，在此一并感谢了，有你们的关注，我们才能走得更远。《交互
大牌 Banner 设计欣赏（468x60）
各大著名厂家、公司的banner广告设计欣赏，尺寸468x60，gif格式！有acer，阿尔卡特，AMD，中国电信，爱立信，Greatwal
asp空间判断jmail组件是否安装或支持的代码
首先，必须有错误继续进行的声明On Error Resume Next 然后尝试简历jmail实例： Dim JMail Set JMail
asp如何阻止别人非法链接你网站的图片？
如何阻止别人非法链接你网站的图片，防盗链？getimage.asp<％ Option ExplicitDim&nb
关于golang 字符串 int uint int64 uint64 互转问题
golang 字符串 int uint int64 uint64 互转字符串转 intintNum, _ = strconv.Atoi(i

Python的gevent框架的入门教程

python 根据正则表达式提取指定的内容实例详解

Python实现将wav转amr,并转换成hex数组

Django之创建引擎索引报错及解决详解

关于python的对象序列化介绍

Django修改端口号与地址的三种方式

使用Python操作excel文件的实例代码

以SQLite和PySqlite为例来学习Python DB API

python 图片验证码代码

Python多线程原理与用法实例剖析

Win10电脑网络被限速了怎么办？Win10解除网速限制方法教学

利用PS给美女加上彩妆及头饰

Google任命瑞斯为美国新显示广告销售主管

Google的排名算法，不在以外链为主

Spring Boot深入排查 java.lang.ArrayStoreException异常

QQ2008正式版16日发布新功能提前揭秘

一个用Ajax做的用户名验证程序

ASP分页显示Recordset数据

外部链接是什么意思

SWFObject1.5: 基于Javascript的Flash媒体版本检测与嵌入模块

手机版 网络编程 asp之家 www.aspxhome.com