Nginx反爬虫策略,防止UA抓取网站
作者:Mr.Yong 发布时间:2021-06-09 11:03:00
标签:Nginx,反爬虫,爬虫
新增反爬虫策略文件:
vim /usr/www/server/nginx/conf/anti_spider.conf
文件内容
#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}
#屏蔽单个IP的命令是
#deny 123.45.6.7
#封整个段即从123.0.0.1到123.255.255.254的命令
#deny 123.0.0.0/8
#封IP段即从123.45.0.1到123.45.255.254的命令
#deny 124.45.0.0/16
#封IP段即从123.45.6.1到123.45.6.254的命令是
#deny 123.45.6.0/24
# 以下IP皆为流氓
#deny 58.95.66.0/24;
配置使用
在站点的server中引入
# 反爬虫
include /usr/www/server/nginx/conf/anti_spider.conf
最后重启nginx
校验是否有效
模拟YYSpider
λ curl -X GET -I -A 'YYSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 403
server: marco/2.11
date: Fri, 20 Mar 2020 08:48:50 GMT
content-type: text/html
content-length: 146
x-source: C/403
x-request-id: 3ed800d296a12ebcddc4d61c57500aa2
模拟百度Baiduspider
λ curl -X GET -I -A 'BaiduSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 200
server: marco/2.11
date: Fri, 20 Mar 2020 08:49:47 GMT
content-type: text/html
vary: Accept-Encoding
x-source: C/200
last-modified: Wed, 18 Mar 2020 13:16:50 GMT
etag: "5e721f42-150ce"
x-request-id: e82999a78b7d7ea2e9ff18b6f1f4cc84
爬虫常见的User-Agent
FeedDemon 内容采集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy sql注入
Java 内容采集
Jullo 内容采集
Feedly 内容采集
UniversalFeedParser 内容采集
ApacheBench cc攻击器
Swiftbot 无用爬虫
YandexBot 无用爬虫
AhrefsBot 无用爬虫
YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)
jikeSpider 无用爬虫
MJ12bot 无用爬虫
ZmEu phpmyadmin 漏洞扫描
WinHttp 采集cc攻击
EasouSpider 无用爬虫
HttpClient tcp攻击
Microsoft URL Control 扫描
YYSpider 无用爬虫
jaunty wordpress爆破扫描器
oBot 无用爬虫
Python-urllib 内容采集
Indy Library 扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot 无用爬虫
来源:https://www.myong.top/view/71
0
投稿
猜你喜欢
- Godaddy主机用户应该如何添加流量呢?其实流量是允许在某个用户的网站与其余因特网之间通过的数据量。一般来说,如果你有一个商业网站或者一个
- CentOS 开机启动自定义脚本有些时候我们需要在服务器里设置一个脚本,让他一开机就自己启动。方法如下:cd /etc/init.d vi
- 8.使用安全密码一个好的密码对于一个网络是非常重要的,但是它是最容易被忽略的。前面的所说的也许已经可以说明这一点了。一些公司的管理员创建帐号
- 本文实例讲述了Linux常见基本命令与用法。分享给大家供大家参考,具体如下:目标熟练使用 Linux常用的命令1> 查看文件信息:ls
- 防采集第一种方法:在文章的头尾加上随机广告网站采集者在采集时,通常都是指定头尾特征从哪到哪过滤.我们这里讲的第一种方法:文章头尾加随机广告,
- 一、简介:在大多发行版都有打包,请到各大发行版的ftp列表中得到,或者在发行版的安装盘中也能得到。lftp是一个命令行式的ftp客户端。对中
- 北京9月29日电欧洲联盟28日发出警告,如果官方检测发现iPhone屏幕离奇 * 的原因是产品制造存在缺陷,那么iPhone将被召回。&
- 运行Sendmail的服务器群集能够在有竞争力的价格上提供高性能和高可用性。对于经验丰富的系统管理员,这一贯是常用的做法。本文描述了我们的研
- 301永久性转向是SEO常用的一个手段,是搜索引擎认可的一种转向手段,搜索引擎可以肯定原网页永久的改变位置或不存在了,把新网页当作唯一有效的
- 电脑辐射会渗透皮肤激活黑色素母细胞,促使黑色素生成以抵挡辐射,如不适当清洁和防护会导致黑色素沉积或老死在皮肤内不易代谢出使得皮肤容易长斑,肤
- sudo权限委派介绍su 切换身份:su –l username –c ‘command'sudo来自sudo包man 5 sudo
- 无论是使用手工试探还是使用安全测试工具,恶意攻击者总是使用各种诡计从你的防火墙内部和外部攻破你的SQL服务器系统。既然黑客在做这样的事情。你
- .htaccess文件是非常有用的,下面一篇介绍:• Part 1 – Introduct
- 部署与维护FTP服务器是网络管理员的基本技能。虽然如此,但是笔者每次为企业部署完FTP服务器应用之后,总会有所收获。因为不同的企业需求不同,
- MongoDB安装过程以及问题记录一、MongoDB安装下载MongoDB官方地址:https://www.mongodb.com/down
- 这里可以看到另外一个语句Limit,Limit语句就是用来针对具体的请求方法来设定访问控制的,其中可以使用GET、POST等各种服务器支持的
- 在工作中有时候需要在服务器的环境下远程调试,例如调试微信相关服务的时候。1. 下载远程调试工具网址:https://visualstudio
- 1 各种搜索引擎的基本原理目录式搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类
- 在实际应用过程中可能会遇到DNS解析错误的问题,就是说当我们访问一个域名时无法完成将其解析到IP地址的工作,而直接输入网站IP却可以正常访问
- 做网赚就要有一定的心态,如果心态不对,往往会走很多的弯路,甚至最后无奈的放弃。芝麻认为,不仅仅的做网赚,做任何事情都要先确定好心态再继续,否