位置：首页>> 网络编程>> Python编程>> Python使用scrapy采集数据时为每个请求随机分配user-agent的方法

Python使用scrapy采集数据时为每个请求随机分配user-agent的方法

作者：pythoner　　发布时间：2023-02-08 15:20:31　

标签：Python,scrapy,采集

本文实例讲述了Python使用scrapy采集数据时为每个请求随机分配user-agent的方法。分享给大家供大家参考。具体分析如下：

通过这个方法可以每次请求更换不同的user-agent，防止网站根据user-agent屏蔽scrapy的蜘蛛

首先将下面的代码添加到settings.py文件，替换默认的user-agent处理模块

DOWNLOADER_MIDDLEWARES = {
'scraper.random_user_agent.RandomUserAgentMiddleware': 400,
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
}

自定义useragent处理模块

from scraper.settings import USER_AGENT_LIST
import random
from scrapy import log
class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        ua = random.choice(USER_AGENT_LIST)
        if ua:
            request.headers.setdefault('User-Agent', ua)
        #log.msg('>>>> UA ％s'％request.headers)

希望本文所述对大家的Python程序设计有所帮助。

0

投稿

猜你喜欢

Frontpage轻松下载网页或站点
你一定想下载一下感兴趣的网页，以便慢慢欣赏吧！利用FrontPage能够轻松做到这一点，甚至可以下载整个站点，当然这里只能下载静态的页面。启
ThinkPHP3.1.2 使用cli命令行模式运行的方法
前言thinkphp3.1.2 需要使用cli方法运行脚本折腾了一天才搞定3.1.2的版本真的很古老解决增加cli.php入口文件defin
base href 使用方法详解
当点了链接后，跳出的网页地址是https://www.aspxhome.com/ 或https://www.cidianwang.
python字符串替换re.sub()实例解析
这篇文章主要介绍了python字符串替换re.sub()实例解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值
tensorflow tf.train.batch之数据批量读取方式
在进行大量数据训练神经网络的时候，可能需要批量读取数据。于是参考了这篇文章的代码，结果发现数据一直批量循环输出，不会在数据的末尾自动停止。然
Python常见字符串操作函数小结【split()、join()、strip()】
本文实例讲述了Python常见字符串操作函数。分享给大家供大家参考，具体如下：str.split(' ')1.按某一个字符分
数据分页显示按钮，自动获取url链接
'/***' 作者：冻结回忆'修改时间：2007-10-17'功能说明
sql server中批量插入与更新两种解决方案分享(存储过程)
1.游标方式代码如下:DECLARE @Data NVARCHAR(max) SET @Data='1,tanw,2,
javascript双击自动滚屏单击停止
在一些网站上，特别是小说网站经常我们会看到这个功能，就是自动滚动屏幕的功能，方便了大家阅读文章，增强了用户体验。下面的javascript代
python pandas 对series和dataframe的重置索引reindex方法
reindex更多的不是修改pandas对象的索引，而只是修改索引的顺序，如果修改的索引不存在就会使用默认的None代替此行。且不会修改原数
Python 解决logging功能使用过程中遇到的一个问题
现象：生产中心进行拷机任务下了300个任务，过了一阵时间后发现任务不再被调度起来，查看后台日志发现日志输出停在某个时间点。分析：1、首先确认
python修改list中所有元素类型的三种方法
修改list中所有元素类型：方法一：new = list()a = ['1', '2', '3
python实现批量提取指定文件夹下同类型文件
本文通过实例为大家分享了python实现批量提取指定文件夹下同类型文件，供大家参考，具体内容如下代码import osimport shut
Oracle建立二进制文件索引的方法
Oracle text是Oracle的全文检索技术，是9i版本标准版和企业版的一部分。Oracle text使用标准的sql语言索引、查找、
ASP实例：处理多关键词查询实例代码
在web开发中经常遇到多关键词对对单个字段查询，我一般是通过动态数组来实现的。当然多个关键词的一般是用空格或,隔开，我这几假设多个关键词用空
Django缓存Cache使用详解
缓存(Cache)对于创建一个高性能的网站和提升用户体验来说是非常重要的，然而对我们这种只用得起拼多多的码农而言最重要的是学会如何使用缓存。
利用色轮选择颜色搭配[译]
【译者的话】我们曾经在《透视色轮》一文中探讨过色轮的构成及作用，但你可能更多的只是将其作为了解颜色关系的一个工具，却不一定将其作为实际设计中
python实现学生管理系统源码
本文实例为大家分享了python实现学生管理系统的具体代码，供大家参考，具体内容如下一.面向过程版import osstu_list = [
关于Keras Dense层整理
我就废话不多说了，大家还是直接看代码吧！'''Created on 2018-4-4'''k
first-letter的一个小妙用
OL定义有序列表的时候，除非指定list-style-position:inside;，否则文字和前导符是有缩进的。但有的时候，OL定义的列

django做form表单的数据验证过程详解

Python编程快速上手——strip()函数的正则表达式实现方法分析

Python调用百度api实现语音识别详解

Python实现的爬取百度贴吧图片功能完整示例

python opencv实现目标区域裁剪功能

Pycharm虚拟环境pip时报错:no suchoption:--bulid-dir的解决办法

python生成九宫格图片

Python使用tkinter实现摇骰子小游戏功能的代码

python 中赋值,深拷贝,浅拷贝的区别

关于Python中字符串的各种操作

Win7英雄联盟进不去游戏怎么办？Win7系统英雄联盟为什么进不去游戏？

你真的会用Smaart吗？Smaart mac版使用教学

Win7笔记本电脑蓝牙怎么连接蓝牙耳机？

SQL Server 2005 SSIS技巧：动态目的文件名

Win7桌面图标右下角小盾牌怎么去掉？

WPS表格如何制作柏拉图

微软最新Win10 KB5007253补丁发布：修复共享打印机0x00000709等问题

Win10预览版10537怎么样 Win10预览版10537简单上手视频

安装pytorch时报sslerror错误的解决方案

win10怎么查看硬盘容量

手机版 网络编程 asp之家 www.aspxhome.com