Python爬虫爬取商品失败处理方法
作者:py 发布时间:2021-04-11 11:26:31
标签:Python爬虫,爬取失败
1.登陆网站,开启开发者模式。
可以在浏览器中点击右键检查或者F12打开开发者模式。
2.点选 NetWork,DOC,然后刷新页面。
在 network 中选择 doc,在请求的 headers 中搜索 cookie。
3.获取对应的 cookie 以及 user-agent。
4.在代码中添加到 headers 里面。
def getHTMLText(url):
kv = {
'cookie': 'adsgadfafegadsgadsfaefasdfaewfadsfag'
'uaer-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
try:
r = requests.get(url, headers=kv, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "gg"
实例扩展:
程序的结构设计
提交商品搜索请求,循环获取页面
对于每个页面,提取商品名称和价格信息
将信息输出
遇到问题
爬取成功,数据有问题
打印 html 文件,返回如下
<script type="text/javascript">
TRLang = {
ERROR_NICK_BLANK: "请填写账户名",
ERROR_PASSWORD_BLANK: "请输入密码",
ERROR_NICK_PASSWORD_BLANK: "请输入账户名和密码",
ERROR_CHECKCODE_BLANK: "请输入验证码",
TIPS_REMEMBER_PASSWORD: "记住密码",
TIPS_NOT_REMEMBER_PSW_ON_PUBLIC: "不要在公共计算机记住密码,防止账户被盗"
};
</script>
来源:https://www.py.cn/jishu/spider/32181.html
0
投稿
猜你喜欢
- JDK1.8安装下载打开链接: http://www.oracle.com/technetwork/java/javase/download
- 为了给导航栏添加响应式特性,您要折叠的内容必须包裹在带有 classes .collapse、.navbar-collapse 的 <
- 介绍在本文中,云朵君将和大家一起了解装饰器的工作原理,如何将我们之前定义的定时器类 Timer 扩展为装饰器,以及如何简化计时功能。最后对
- 本文实例讲述了C语言实现访问及查询MySQL数据库的方法。分享给大家供大家参考,具体如下:1、添加头文件路径(MySQL安装路径中的incl
- 本文实例讲述了php的PDO事务处理机制。分享给大家供大家参考,具体如下:事务 (Transaction) 是操作数据库中很重要的一个功能,
- 一、之 Pandas Dataframe合并在数据分析中,避免不了要从多个数据集中取数据,那就避免不了要进行数据的合并,这篇文章就来介绍一下
- 随着当今世界的发展,计算机视觉技术的应用越来越广泛。伴随着硬件设备的不断升级,构造复杂的计算机视觉应用变得越来越容易了。OpenCV像是一个
- Appium是移动端的自动化测试工具,类似于前面所说的Selenium,利用它可以驱动Android、iOS等设备完成自动化测试,比如模拟点
- 使用pandas读取xml文件报错“ Unsupported format, or corrupt file: Expected BOF r
- 如何正确理解MIME类型?mime联系介绍。序号内容类型文件扩展名描述1application/msworddocMicrosoft Wor
- 前言我们知道在某些停机测试场景,是需要人为禁用crs/has的自启动的,防止过程中主机反复重启对数据库集群造成影响。使用crsctl dis
- 前言发现自己学习python 的各种库老是容易忘记,所有想利用这个平台,记录和分享一下学习时候的知识点,以后也能及时的复习,最近学习pand
- 伙伴遇到一个关于excel导入数据到python中,日期变成数字而不是日期格式的问题。第一反应这个数字应该是excel里面的时间戳类似的,所
- python-docx库可用于创建和编辑Microsoft Word(.docx)文件。官方文档:链接地址备注:doc是微软的专有的文件格式
- 前言最近有网友私信我,问如何把多张图片合成一张马赛克图片的样子说是女儿从出生到现在,所有的照片,大概有上百张,所以想使用这些照片合成一张,当
- 一、re模块的基本使用Python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符。正则表达式是用来匹配处理字符串的。假如你需要匹配文本中的
- 简介虽然使用Explain不能够马上调优我们的SQL,它也不能给予我们一些调整建议,但是它能够让我们了解MySQL 优化器是如何执行SQL
- 打开网页,然后将javascript:document.body.contentEditable='true';
- 众所周知,在设计爬虫时,最麻烦的一步就是对网页元素进行分析,目前流行的网页元素获取的工具有BeautifulSoup,lxml等
- flask之模板继承为什么要用模板继承?原因很简单,因为模板继承能让我们在实现效果的前提下少些很多代码!咱废话不多说,先来看个小例子,看完我