Nginx反爬虫策略,防止UA抓取网站
作者:Mr.Yong 发布时间:2021-06-09 11:03:00
标签:Nginx,反爬虫,爬虫
新增反爬虫策略文件:
vim /usr/www/server/nginx/conf/anti_spider.conf
文件内容
#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}
#屏蔽单个IP的命令是
#deny 123.45.6.7
#封整个段即从123.0.0.1到123.255.255.254的命令
#deny 123.0.0.0/8
#封IP段即从123.45.0.1到123.45.255.254的命令
#deny 124.45.0.0/16
#封IP段即从123.45.6.1到123.45.6.254的命令是
#deny 123.45.6.0/24
# 以下IP皆为流氓
#deny 58.95.66.0/24;
配置使用
在站点的server中引入
# 反爬虫
include /usr/www/server/nginx/conf/anti_spider.conf
最后重启nginx
校验是否有效
模拟YYSpider
λ curl -X GET -I -A 'YYSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 403
server: marco/2.11
date: Fri, 20 Mar 2020 08:48:50 GMT
content-type: text/html
content-length: 146
x-source: C/403
x-request-id: 3ed800d296a12ebcddc4d61c57500aa2
模拟百度Baiduspider
λ curl -X GET -I -A 'BaiduSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 200
server: marco/2.11
date: Fri, 20 Mar 2020 08:49:47 GMT
content-type: text/html
vary: Accept-Encoding
x-source: C/200
last-modified: Wed, 18 Mar 2020 13:16:50 GMT
etag: "5e721f42-150ce"
x-request-id: e82999a78b7d7ea2e9ff18b6f1f4cc84
爬虫常见的User-Agent
FeedDemon 内容采集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy sql注入
Java 内容采集
Jullo 内容采集
Feedly 内容采集
UniversalFeedParser 内容采集
ApacheBench cc攻击器
Swiftbot 无用爬虫
YandexBot 无用爬虫
AhrefsBot 无用爬虫
YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)
jikeSpider 无用爬虫
MJ12bot 无用爬虫
ZmEu phpmyadmin 漏洞扫描
WinHttp 采集cc攻击
EasouSpider 无用爬虫
HttpClient tcp攻击
Microsoft URL Control 扫描
YYSpider 无用爬虫
jaunty wordpress爆破扫描器
oBot 无用爬虫
Python-urllib 内容采集
Indy Library 扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot 无用爬虫
来源:https://www.myong.top/view/71
0
投稿
猜你喜欢
- 1. kali linux 系统版本查看 命令:cat /etc/issue2. kali linux系统内核信息查看命令:uname -a
- 先前搞个钱币论坛,想着能不能在z-blog侧栏,显示Discuz论坛最新主题列表,吸引点人气呢?在设置Discuz论坛边栏时,发现有外部调用
- 几天前,国内最大的电子阅读网站曾宣布,要在十一长假期间,将所有内容全部免费开放给人们阅读。今天,我们发现,这家网站已经开始免费开放了。据网站
- 1 设置 virtualBox打开设置-》网络采用桥接模式连接网络,并选择对应的物理网卡。2 设置虚拟机(centos7)1、使用 nmcl
- 千橡互动集团CEO兼董事长陈一舟(陈一舟新闻,陈一舟说吧)在日前举行的中国国际数字娱乐领袖峰会上表示,目前中国原创网络游戏发展面临的三大挑战
- 本文描述了如何在Windows XP中通过配置TCP/IP协议的方式使用域名服务(DNS)。DNS是一种用以将域名转换为IP地址的Inter
- 不管是在局域网还是互联网上,人们也都面临着另外一个困惑:计算机在网络上通讯时本来只能识别如“61.186.250.41”之类的数字地址,那么
- 在接下来的几个月内,我们将会在 AdWords 系统推出一些新的功能,为了实现这些功能,我们将会在发布商网络投放 Doubleclick 广
- 准备工作:1.安装VMware workstation 软件2.下载好kali linux 的ios系统文件3.打开电脑的虚拟化支持( In
- 对于一个网络管理员来说,垃圾邮件的困扰并不是接收这些垃圾邮件,而是试图防止垃圾邮件发送者使用你的邮件服务器来进行中继转发,这项工作很关键,因
- 对于我们做网站排名优化的SEOER来说一定要会分析对手,通过对对手网站的分析,可以使得我们更加好的做到知己知彼,知道自己网站的长处和对手的长
- 在折腾MiniServer时,发现不管我怎么配置,apache总会提示“Failed loading…ZendLoader.dll”,就是说
- 之所以说做网站站长就是这样一步一步练成的是因为是这样的,好好做下去,每天都坚持不懈的更新网站应该会有好回报。2007年在一朋友的介绍下我加入
- 企业管理工具开发商BeyondTrust近日表示,微软在Windows 7中对颇受争议的UAC(用户账户控制)所做的改进只是表面功夫,根本没
- 前文所述SVN客户端使用的时候,用的SVN服务器通常为外部,例如Google Code的服务器,不过,做为一个程序开发人员,就算自己一个人写
- Linux中增加软路由的方法一:route add -net 172.16.6.0 netmask 255.255.255.0 gw 172
- 1.分配光驱2.安装相关依赖包yum install -y bzip2 gcc gcc-devel gcc-c++ gcc-c++-deve
- 1、创建新的FTP站点 执行[开始]→[程序]→[管理工具]→[Internet服
- 如今,互联网将进入一个崭新的阶段,信息化的发展带动其它产业的发展,各行业都将与它进行更深入的融合和渗透。越来越多的企业已开始从对互联网的认知
- 当大多数同龄人还在靠周末辛苦打工赚一点零用钱时,16岁的英国小企业家乔纳森·格鲁宾已通过他所建立的3家网站掘出第一桶金,仅去年就赚了7.5万