Python爬虫突破反爬虫机制知识点总结
作者:pycn 发布时间:2021-09-17 12:38:22
1、构建合理的HTTP请求标头。
HTTP的请求头是一组属性和配置信息,当您发送一个请求到网络服务器时。因为浏览器和Python爬虫发送的请求头不同,反爬行器很可能会被检测到。
2、建立学习cookie。
Cookie是一把 * 剑,有它不行,没有它更不行。站点将通过cookie来追踪你的访问情况,如果发现你有爬虫行为,将立即中断您的访问,例如,填写表格时速度过快,或在短时间内浏览大量网页。而且对cookies的正确处理,也可以避免许多采集问题,建议在收集网站的过程中,检查一下这些网站生成的cookie,然后想想哪个是爬虫需要处理的。
3、正常时差路径。
Python爬行器不应破坏采集速度的原则,尽可能在每一页访问时间内增加一小段间隔,能有效地帮助您避免反爬行。
4、使用 * ,对已经遇到过反爬虫的分布式爬虫来说,使用 * 将成为您的首选。
谈到Python爬虫的发展历史,那简直就是与反爬虫相恋的血泪史。因特网上,有网络爬虫的地方,绝对少不了反爬虫的身影。对网站进行反爬虫的截取,前提是要正确区分人与网络机器人,发现可疑目标时,通过限制IP地址等措施,阻止您继续访问。
知识点扩展:
python3爬虫--反爬虫应对机制
前言:
反爬虫更多是一种攻防战,网络爬虫一般有网页爬虫和接口爬虫的方式;针对网站的反爬虫处理来采取对应的应对机制,一般需要考虑以下方面:
①访问终端限制:这种可通过伪造动态的UA实现;
②访问次数限制:网站一般通过cookie/IP定位,可通过禁用cookie,或使用cookie池/IP池来反制;
③访问时间限制:延迟请求应对;
④盗链问题:通俗讲就是,某个网页的请求是有迹可循的,比如知乎的问题回答详情页,正常用户行为必然是先进入问题页,在进入回答详情页,有严格的请求顺序,如果之间跳过前面请求页面就有可能被判定为到了,通过伪造请求头可以解决这个问题;
具体的反爬虫策略:
①验证码
应对:简单的验证码可通过机器学习识别,准确率可高达,50-60%;复杂的可通过专门的打码平台人工打码(依据验证码的复杂度,打码工人平均每码收1-2分钱)
②封ip(容易误杀)
应对:通过ip代理池/vps拨号获取ip方式,可用低成本的获取几十万ip
③滑动验证码:相比常规的验证码易被机器学习识别,滑动验证有一定的优势
应对:模拟滑动来验证
④关联上下文/防盗链:利用token/cookie的记录能力,来关联请求的上下文,通过判断请求是否走了完整的流程来判定是否是爬虫;重而反爬虫(知乎,头条都有该机制)
应对:分析协议,进行全量模拟
⑤javascript 参与运算:利用简单爬虫无法进行json运算的特征,对中间结果进行js解析/运算
应对:可以通过自带 js 引擎模块或直接使用 phantomjs 等无端浏览器进行自动化解析
⑥session封禁:session请求超过阈值,从而封禁(容易导致误杀)
⑦UA封禁:ua请求超过阈值,从而封禁(容易导致误杀)
⑧web-fongt反爬虫机制:源代码不展示内容,而是提供字符集,在页面使用了font-face定义了字符集,并通过unicode去映射展示
⑨其他:比如代码混淆、动态加密方案、假数据等方式
来源:https://www.py.cn/spider/guide/34745.html
猜你喜欢
- if(document.mylist.length != "undefined" ) {} 这个用法有误. 正确的是 i
- 我就废话不多说了,大家还是直接看代码吧~one = tf.ones_like(label)zero = tf.zeros_like(labe
- 正则表达式(Regular Expression,在代码中常简写为regex、regexp或RE)是计算机科学的一个概念。正则表达式使用单个
- 概述很多人接触Python,都是从爬虫开始,其实很多语言都可以做爬虫,只是Python相对其他语言来说,更加简单而已。但是Python并不止
- 1.使用iloc对数据进行批量修改使用iloc最简单的就是将数据批量修改为某个特定的值以下是我随便写入的数据:现在将[‘
- 前言:record类型,这是一种新引用类型,而不是类或结构。record与类不同,区别在于record类型使用基于值的相等性。例如:publ
- 这篇文章主要介绍了python 采用paramiko 远程执行命令及报错解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的
- 经常在各处牛人的代码中看到许多简写的条件表达语句,看了一些介绍这方面的文章,觉得3 ways 2 say if这篇文章(http://www
- 今天有朋友问我关于用JAVASCRIPT来进行页面各表单之间的数据传递的问题,我以前也写过,不过从来没有注意,今天总结了一下,希望能够给大家
- 本文实例为大家分享了python实现学生成绩测评系统的具体代码,供大家参考,具体内容如下1、问题描述(功能要求): 根据实验指导书
- 前言要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful
- asp+access用户登录代码,loginnew.asp网面包含了登录框及验证用户的代码an.mdb数据库名fd表名y_username用
- 用Python编写过批量修改文件名的脚本程序,代码很简单,运行也比较快,唯一美中不足之处是每次批量修改文件名时都需要执行以下步骤:1)复制文
- 下文要实现的可视化大屏内容:需要在地图上将我司船舶的轨迹展示出来。听起来很简单,一开始我也是这样想的。通过一些BI工具应该可以轻松实现,比如
- 背景:由于需要对ocr识别系统的表格识别结果做验证,通过返回的json文件结果对比比较麻烦,故需要将json文件里面的识别结果还原为表格做验
- 本文实例讲述了Python中super函数用法。分享给大家供大家参考,具体如下:这是个高大上的函数,在python装13手册里面介绍过多使用
- 本文实例讲述了Python常用模块之requests模块用法。分享给大家供大家参考,具体如下:一. GET请求1.访问一个页面import
- 将近两个多月没有敲linux命令,手指头不听话了。该再次温习卖油翁的故事了。曾为oracle如何启动多个实例运行纠结过,不服输心理。当时在一
- 简介Github:https://github.com/spf13/cobraStar:26.5KCobra是一个用Go语言实现的命令行工具
- Variant变量一般会将其代表的数据子类型自动转换成合适的数据类型,但有时候,自动转换也会造成一些数据类型不匹配的错误.这时,可使用转换函