python3中编码获取网页的实例方法
作者:PYCN 发布时间:2023-07-17 23:31:47
标签:python3,编码,获取网页
学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。
1. encoding和apparent_encoding
import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)
2. 处理方案
直接用r.encoding = ‘xxx'
re.encoding='utf-8'
3. requests的text() 跟 content() 有什么区别
re.text返回的是处理过的Unicode型的数据,
而使用re.content返回的是bytes型的原始数据。
4. 爬虫拿到的HTML和浏览器中的源码不相同时
通过下载源码对比
import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)
来源:https://www.py.cn/jishu/jichu/20849.html


猜你喜欢
- 升级了浏览器到IE9,今天进入公司网站后台突然发现有些页面进不去了,F12调试显示有JS错误:DOM Exception: INVALID_
- 前言在写 python 程序的时候,经常会用到引入其他文件夹里的 py 文件,要是都在同目录下直接 import 就好了,可是有的不在同一个
- 本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:这里使用分词使用最流行的分词包jieba,参考:http
- 话不多说了,先上一张Demo图,实现的功能有:左侧图例、右侧瀑布图、鼠标移入弹出当前坐标对应的数据信息(有优化的空间,大家自由发挥)。图例使
- 如何使用Office Chart 9.0 制作图表?代码如下:chart90.asp<HTML><HEAD><
- ASP,一种最先广泛的流行在WEB行业的编程语言。严格的说,ASP还算不上的编程语言。不过,因为微软的大力支持,ASP这一路,走得非常顺利。
- 本文实例讲述了js实现鼠标感应向下滑动隐藏菜单的方法。分享给大家供大家参考。具体实现方法如下:<html><head>
- 1.简介TensorFlow是一个由Google Brain团队开发的开源软件库,用于各种人工智能和机器学习应用,包括神经网络、深度学习、强
- blankzheng的blog:http://www.planabc.net/1、使用fieldset和legend标签在form中,我们经
- 背景一直对语音合成系统比较感兴趣,总想能给自己合成一点内容,比如说合成小说,把我下载的电子书播报给我听等等。语音合成系统其实就是一个基于语音
- 两个三维矩阵的乘法怎样计算呢?我通过实验发现,tensorflow把前面的维度当成是batch,对最后两维进行普通的矩阵乘法。也就是说,最后
- def Num2MoneyFormat( change_number ): ""&q
- 自己写的小工具,可以直接获取csdn文章并转换为markdown格式效果图核心代码from PySide2.QtWidgets import
- 身边的人竟然不玩“跳一跳了”,都迷上了一个叫“冲顶大会”的东西,考了很多各学科的冷知识,文学、数学、地理、生物、动漫、八卦…小编网上找到一些
- 目录一、介绍二、方法三、示例windows平台1、编写搭建动态库c函数2、python导入库3、结果linux平台1、编写c程序2、编译成s
- 二是什么时候CPU是空闲的?空闲是一个相对的标准。有时会CPU使用率30%以下可以定义为空闲;而有时候CPU使用率只有不到60%,就是空闲。
- 在网站或软件的策划和设计过程中,我们经常听到这样的讨论:“这个功能设计得太重了”又或“我们希望能够处理得轻一些”。似乎轻设计是时下炙手可热的
- 一.在express项目中操作数据库的步骤①安装操作 MySQL 数据库的第三方模块(mysql)②通过mysql模块连接到MySQL 数据
- "合成大西瓜"这个游戏在年前很火热,还上过微博热搜,最近便玩了一阵还挺有意思的,所以研究了一下小球碰撞原理,自己亲自手写
- vscode是一款非常轻量级的编辑器,你可以通过安装甚至自己编写一些小的插件来满足各种不同的使用需求,使用起来非常简介方便。方式一:图形安装