浅谈Python爬取网页的编码处理
作者:jingxian 发布时间:2021-02-03 19:55:56
背景
中秋的时候,一个朋友给我发了一封邮件,说他在爬链家的时候,发现网页返回的代码都是乱码,让我帮他参谋参谋(中秋加班,真是敬业= =!),其实这个问题我很早就遇到过,之前在爬小说的时候稍微看了一下,不过没当回事,其实这个问题就是对编码的理解不到位导致的。
问题
很普通的一个爬虫代码,代码是这样的:
# ecoding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')
url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.text
目的其实很简单,就是爬一下链家的内容,但是这样执行之后,返回的结果,所有涉及到中文的内容,全部会变成乱码,比如这样
<script type="text/template" id="newAddHouseTpl">
<div class="newAddHouse">
自从您上次æµè§ˆï¼ˆ<%=time%>)之åŽï¼Œè¯¥æœç´¢æ¡ä»¶ä¸‹æ–°å¢žåŠ äº†<%=count%>套房æº
<a href="<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%>><%=linkText%></a>
<span class="newHouseRightClose">x</span>
</div>
</script>
这样的数据拿来可以说毫无作用。
问题分析
这里的问题很明显了,就是文字的编码不正确,导致了乱码。
查看网页的编码
从爬取的目标网页的头来看,网页是用utf-8来编码的。
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
所以,最终的编码,我们肯定也要用utf-8来处理,也就是说,最终的文本处理,要用utf-8来解码,也就是:decode('utf-8')
文本的编码解码
Python的编码解码的过程是这样的,源文件 ===》 encode(编码方式) ===》decode(解码方式),在很大的程度上,不推荐使用
import sys
reload(sys)
sys.setdefaultencoding('utf8')
这种方式来硬处理文字编码。不过在某些时候不影响的情况下,偷偷懒也不是什么大问题,不过比较建议的就是获取源文件之后,使用encode和decode的方式来处理文本。
回到问题
现在问题最大的是源文件的编码方式,我们正常使用requests的时候,它会自动猜源文件的编码方式,然后转码成Unicode的编码,但是,毕竟是程序,是有可能猜错的,所以如果猜错了,我们就需要手工来指定编码方式。官方文档的描述如下:
When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.
所以我们需要查看requests返回的编码方式到底是什么?
# ecoding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')
url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.encoding
打印的结果如下:
ISO-8859-1
也就是说,源文件使用的是ISO-8859-1来编码。百度一下ISO-8859-1,结果如下:
ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。
问题解决
发现了这个东东,问题就很好解决了,只要指定一下编码,就能正确的打出中文了。代码如下:
# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')
url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
res.encoding = ('utf8')
print res.text
打印的结果就很明显,中文都正确的显示出来了。
另一种方式是在源文件上做解码和编码,代码如下:
# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')
url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
# res.encoding = ('utf8')
print res.text.encode('ISO-8859-1').decode('utf-8')
另:ISO-8859-1也叫做latin1,使用latin1做解码结果也是正常的。
关于字符的编码,很多东西可以说,想了解的朋友可以参考以下大神的资料。
•《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》


猜你喜欢
- 如下所示:import tensorflow as tfsess = tf.Session(config=tf.ConfigProto(lo
- 数据聚合与分组运算对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之
- Go的标准库中有一个类型叫条件变量:sync.Cond。这种类型与互斥锁和读写锁不同,它不是开箱即用的,它需要与互斥锁组合使用:// New
- 一、数组的创建方式一var a = new Array(); a[0]="wo"
- 数据集成:将不同表的数据通过主键进行连接起来,方便对数据进行整体的分析。两张表:ReaderInformation.csv,ReaderRe
- 本文通过实例为大家分享了python实现批量提取指定文件夹下同类型文件,供大家参考,具体内容如下代码import osimport shut
- <'% '************************************************
- ECharts是一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级的Canvas类
- 一、效果图如下二、使用步骤1.创建并配置一个django项目1.1新建一个项目ch3django-admin startproject ch
- 最近做项目,需要用到vue,后台是php,第一次使用axios进行请求,本以为同ajax一样,会很简单,但是结果往往不让人满意啊,get请求
- 同时,关于datetime也是简单介绍。因为有很多东西需要自己去使用,去查帮助才最有效。例子:计算上一个星期五并输出。解答:import d
- python 字符串下标与切片的实例代码,如下:# !/usr/bin/env pythonname = "ksunone&quo
- 1、终极方法:条件注释<!--[if lte IE 6]> 这段文字仅显示在 IE6及IE6以下版本。 <![endif]
- 1.模型类中设置:null=True,表示数据库创建时该字段可不填,用NULL填充.MySQL:Null这一列,如果值为YES表示:创建一条
- 前言:今天要介绍这个神器,可以说是 pywebio 的 Plus + Pro&nbs
- 遇到一个难题,在无物理键盘情况下,通过页面软键盘在页面文本框输入汉字,不知道51js的各位大牛有没有遇到过这种需求,如果遇到过是如何解决的,
- 前言PyInstaller可以用来打包python应用程序,打包完的程序就可以在没有安装Python解释器的机器上运行了。PyInstall
- 前言argsparse是python的命令行解析的标准模块,内置于python,不需要安装。这个库可以让我们直接在命令行中就可以向程序中传入
- 本文实例讲述了Python使用微信SDK实现的微信支付功能。分享给大家供大家参考,具体如下:最近一段时间一直在搞微信平台开发,v3.37版本
- 过滤器模板层对变量的操作实际还有很多,过滤器就是其中一种。学过Linux系统的一定知道管道操作符,其可以将上一步输出直接作为下一步输入进行处