位置：首页>> 网络编程>> Python编程>> Python爬虫基于lxml解决数据编码乱码问题

Python爬虫基于lxml解决数据编码乱码问题

作者：This_is_Y　　发布时间：2021-09-11 23:48:44　

标签：Python,爬虫,lxml,编码,乱码

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高

XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择

XPath于1999年11月16日成为W3C标准，它被设计为供XSLT、XPointer以及其他XML解析软件使用，更多的文档可以访问其官方网站：https://www.w3.org/TR/xpath/

问题状况：

response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0]
print(name)

可以正常获取数据，但是结果是

å·²éªŒè¯ å®‰å…¨ ç›¾ç‰Œ

这样子的乱码

解决方法：

name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode('ISO-8859-1').decode('UTF-8')

这边的UTF-8根据网页编码情况而定

看网页编码情况

F12

来源：https://www.cnblogs.com/This-is-Y/p/13390506.html

0

投稿

猜你喜欢

ORACLE 报警日志如何查看？第1/2页
1.了解oracle外部表外部表定义：结构被存放在数据字典，而表数据被放在OS文件中的表作用：在数据库中查询OS文件的数据，还可以将OS
解决django xadmin主题不显示和只显示bootstrap2的问题
异常：python3的xadmin主题只显示默认和bootstrap2解决办法：慢慢来相信能遇到这个问题的人，都是已经配置好xadmin的，
浅谈php自定义错误日志
平时经常看php的错误日志，很少有机会去自己动手写日志，看了王健的《最佳日志实践》觉得写一个清晰明了，结构分明的日志还是非常有必要的。在写日
thinkphp3.x连接mysql数据库的方法(具体操作步骤)
本文实例讲述了thinkphp3.x连接mysql数据库的方法。分享给大家供大家参考，具体如下：惯例配置文件：ThinkPHP/conf/c
oracle数据库冷备份的方法
冷备份是数据库文件的物理备份，通常在数据库通过一个shutdown normal或shutdown immediate 命令正常关闭后进行。
Python性能分析工具pyinstrument提高代码效率
天下武功，唯快不破。编程也不例外，你的代码跑的快，你能快速找出代码慢的原因，你的码功就高。安装pip install pyinstrumen
python动态参数用法实例分析
本文实例讲述了python动态参数用法。分享给大家供大家参考。具体分析如下：先来看一段代码：class Person: &nb
php设计模式 Singleton(单例模式)
<?php /** * 单例模式 * * 保证一个类仅有一个实例,并提供一个访问它的全局访问点 * */ class Singleto
Python实现统计文本文件字数的方法
本文实例讲述了Python实现统计文本文件字数的方法。分享给大家供大家参考，具体如下：统计文本文件的字数，从当前目录下的file.txt取文
如何在Python中将字符串转换为集合
在Python中将字符串转换为集合使用 set() 类将字符串转换为集合，例如 my_set = set(my_str)。 set() 类将
php对数字进行万、亿单位的转化
php对数字进行万。亿的转化/** * 格式化数字 */public function float_number($number){ &nb
IIS上设置301跳转,实现ASP带参数跳转
IIS上设置301 跳转相信大家都会，只要在网站-属性-主目录里选择重定向URL就行了，这样整站就跳转到目标站点了，但是有个问
PHP的Yii框架中行为的定义与绑定方法讲解
定义行为要定义行为，通过继承 yii\base\Behavior 或其子类来建立一个类。如：namespace app\components
asp sqlserver 执行存储过程返回记录集报对象关闭时不允许操作
如果要得到返回值，需要用Command的方法。首先说明，返回值有两种。一种是在存储过程中直接return一个值，就象C和VB的函数返回值那
150行python代码实现贪吃蛇游戏
上篇博文我们实现了两百行代码实现贪吃蛇游戏，这次我们来实现一个代码量更加少，功能却更加完整的python代码实现贪吃蛇游戏，具体代码与文件可
Python计算矩阵的和积的实例详解
python的numpy库提供矩阵运算的功能，因此我们在需要矩阵运算的时候，需要导入numpy的包。一、numpy的导入和使用from&nb
详解Python Selenium如何获取鼠标指向的元素
有一个同学在Gne的群里面咨询如何通过Selenium获取当前鼠标指向的元素，在我讲了方法以后，他过了两天又来问：那么，我今天就来写一篇文章
NumPy统计函数的实现方法
numpy.amin()和numpy.amax()numpy.amin()用于计算数组中元素沿着指定轴的最小值。numpy.amax()用于
Oracle 存储过程加密方法
软件环境： 1、操作系统：Windows 2000 Server 2、数据库：Oracle 8i R2 (8.1.7) for NT 企
为什么Access数据库的精髓不在VBA之中
Access爱好者以会VBa为荣。我觉得这不是好现象。vba只是vb的子集，有着很多限制，比如不支持继承，不支持指针，不支持子界类型等。使用

Python捕捉和模拟鼠标事件的方法

开启Django博客的RSS功能的实现方法

python得到单词模式的示例

python开发中range()函数用法实例分析

python3 requests中文乱码之压缩格式问题解析

Python+OpenCV实现在图像上绘制矩形

Pytorch抽取网络层的Feature Map(Vgg)实例

pytorch 数据集图片显示方法

Ubuntu20.04安装Python3的虚拟环境教程详解

Python+Kepler.gl实现时间轮播地图过程解析

Win10专业版系统怎么设置隐藏硬盘分区？

多条件求和函数Sumifs的用法

抖音点赞赚钱是真的吗？有真有假，需谨慎！

如何让 Siri 帮你朗读文章？

JavaWeb开发基于ssm的校园服务系统(实例详解)

如何在 iPhone、iPad 及 Mac 上一键填充密码？密码总记不住怎么办？

wps文字怎么调整行高?

excel怎么让选中的区域不可编辑?

电脑版WPS表格找不到数字栏怎么办

Win10系统ping时出现传输失败常见故障？

手机版 网络编程 asp之家 www.aspxhome.com