位置：首页>> 网络编程>> Python编程>> python抓取并保存html页面时乱码问题的解决方法

python抓取并保存html页面时乱码问题的解决方法

作者：holybin　　发布时间：2022-06-06 21:41:40　

标签：python,抓取,html,乱码,解决方法

本文实例讲述了python抓取并保存html页面时乱码问题的解决方法。分享给大家供大家参考，具体如下：

在用Python抓取html页面并保存的时候，经常出现抓取下来的网页内容是乱码的问题。出现该问题的原因一方面是自己的代码中编码设置有问题，另一方面是在编码设置正确的情况下，网页的实际编码和标示的编码不符合造成的。html页面标示的编码在这里：

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

这里提供一种简单的办法解决：使用chardet判断网页的真实编码，同时从url请求返回的info判断标示编码。如果两种编码不同，则使用bs模块扩展为GB18030编码；如果相同则直接写入文件（这里设置系统默认编码为utf-8）。

import urllib2
import sys
import bs4
import chardet
reload(sys)
sys.setdefaultencoding('utf-8')
def download(url):
htmlfile = open('test.html','w')
try:
result = urllib2.urlopen(url)
content = result.read()
info = result.info()
result.close()
except Exception,e:
print 'download error!!!'
print e
else:
if content != None:
charset1 = (chardet.detect(content))['encoding'] #real encoding type
charset2 = info.getparam('charset') #declared encoding type
print charset1,' ', charset2
# case1: charset is not None.
if charset1 != None and charset2 != None and charset1.lower() != charset2.lower():
newcont = bs4.BeautifulSoup(content, from_encoding='GB18030') #coding: GB18030
for cont in newcont:
htmlfile.write('％s\n'％cont)
# case2: either charset is None, or charset is the same.
else:
#print sys.getdefaultencoding()
htmlfile.write(content) #default coding: utf-8
htmlfile.close()
if __name__ == "__main__":
url = 'https://www.jb51.net'
download(url)

得到的test.html文件打开如下，可以看到使用的是UTF-8无BOM编码格式存储的，也就是我们设置的默认编码：

希望本文所述对大家Python程序设计有所帮助。

0

投稿

猜你喜欢

Div+CSS布局入门教程
内容摘要：在网页制作中，有许多的术语，例如：CSS、HTML、DHTML、XHTML等等。在下面的文章中我们将会用到一些有关于HTML的基本
python openpyxl使用方法详解
openpyxl特点openpyxl（可读写excel表）专门处理Excel2007及以上版本产生的xlsx文件，xls和xlsx之间转换容
VSCode如何巧用正则表达式快速处理字符段
正则表达式正则表达式(Regular Expression)是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为&q
Python中logging日志库实例详解
目录logging的简单使用|2logging常见对象|3logging基本使用|4logging之Formatter对象|5logging
JS获取url参数,JS发送json格式的POST请求方法
<script type="text/javascript">一、获取url所有参数值function US
分享JavaScript与Java中MD5使用两个例子
在网上查了一下，在网上收集了Java与JavaScript中使用的两个例子，试验过，分享下。1、Java：package org.bearf
asp.net和php的区别点总结
asp.net和php哪个更好？在.net之前，微软的是ASP。在微软的大力推广下，其看起来还是很有前途的。但现在，微软想推广asp.net
python开发简易版在线音乐播放器
在线音乐播放器，使用python的Tkinter库做了一个界面，感觉这个库使用起来还是挺方便的，音乐的数据来自网易云音乐的一个接口，通过ur
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解
下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例，都是最基础的内容html_doc = &qu
扫盲大讲堂：mysql出错的代码解析及解答
1005：创建表失败1006：创建数据库失败1007：数据库已存在，创建数据库失败1008：数据库不存在，删除数据库失败1009：不能删除数
数据库中identity字段不必是系统产生的唯一值性能优化方法(新招)
但是，具有identity特性的字段，不需要具有唯一性，更不必须是主键。可以通过，set identity_insert tablenam
Go单元测试工具gomonkey的使用
Go 单元测试工具测试分为4个层次单元测试：对代码进行测试集成测试：对一个服务的接口测试端到端测试（链路测试）：从一个链路的入口输入测试用例
python实现在控制台输入密码不显示的方法
本文实例讲述了python实现在控制台输入密码不显示的方法。分享给大家供大家参考。具体实现方法如下：import console;names
pandas读取csv文件,分隔符参数sep的实例
在python中读取csv文件时，一般操作如下：import pandas as pdpd.read_csv(filename)该读文件方式
sql server编写archive通用模板脚本实现自动分批删除数据
博主做过比较多项目的archive脚本编写，对于这种删除数据的脚本开发，肯定是一开始的话用最简单的一个delete语句，然后由于部分表数据量
js中的window.open返回object的错误的解决方法
解决window.open后返回object的错误 <a href="javascript:void(window.open
js/jq仿window文件夹移动/剪切/复制等操作代码
window对文件夹的操作主要包括移动/剪切/复制，本篇文章主要用jQuery来实现，下面一起来了解一下把。1.先看下效果吧！2.在添加一个
Python中Unittest框架的具体使用
Unittest1.环境Unittest为Python内嵌的测试框架，不需要特殊配置，仅需要在File---settings---Tools
opencv+pyQt5实现图片阈值编辑器/寻色块阈值利器
定位色块常用到hsv色彩空间下的颜色阈值，笔者曾经用openmv时，其IDE有自带一个阈值编辑器，使用起来非常方便，现在在linux上跑cv
JavaScript省市级联下拉菜单实例
最近学了一个关于省市级联简单的小例子，贴出来与大家分享一下：<!DOCTYPE html><html lang="

python 瀑布线指标编写实例

Python实现扫码工具的示例代码

python提取页面内url列表的方法

使用XML库的方式,实现RPC通信的方法(推荐)

Python多版本开发环境管理工具介绍

tf.truncated_normal与tf.random_normal的详细用法

详解如何在cmd命令窗口中搭建简单的python开发环境

Python+pandas编写命令行脚本操作excel的tips详情

Python操作MongoDB数据库PyMongo库使用方法

Python连接Mssql基础教程之Python库pymssql

Word2013将文档转存为PDF阅读格式

伙星app怎么更换主页封面？伙星app更换主页封面的方法

asp.net中调用winrar实现压缩解压缩的代码

WPS表格的实用技巧

excel中利用IFERROR函数屏蔽Vlookup的匹配错误

天涯明月刀手游破招拆招怎么提升

魔兽世界怀旧服君王铠甲护腿任务如何完成？君王铠甲护腿任务完成方法一览

wps vba怎么安装？

元气骑士刺客怎么样-元气骑士刺客基础属性玩法攻略一览

跑跑卡丁车第8章幸运关怎么过？剧情模式第8章找幸运关攻略

手机版 网络编程 asp之家 www.aspxhome.com