位置：首页>> 网络编程>> 网络编程>> Scrapy模拟登录赶集网的实现代码

Scrapy模拟登录赶集网的实现代码

作者：人丑就要多读书-Wu　　发布时间：2023-02-22 20:33:47　

标签：Scrapy,登录,赶集网

1.打开赶集网登录界面，先模拟登录并抓包，获得post请求的request参数

2. 我们只需构造出上面的参数传入formdata即可

参数分析：

setcookie：为自动登录所传的值，不勾选时默认为0。

__hash__值的分析：只需要查看response网页源代码即可，然后用正则表达式提取。

3.代码实现

1.workon到自己的虚拟环境 cmd切换到项目目录，输入scrapy startproject ganjiwangdenglu,然后就可以用pycharm打开该目录啦。

2.在pycharm terminal中输入scrapy ganji ganjicom 创建地址，如下为项目目录

3. 代码详情

import scrapy
import re

class GanjiSpider(scrapy.Spider):
name = 'ganji'
allowed_domains = ['ganji.com']
start_urls = ['https://passport.ganji.com/login.php']

def parse(self, response):
hash_code = re.search(r'"__hash__":"(.+)"}', response.text).group(1) # 正则获取哈希
img_url = 'https://passport.ganji.com/ajax.php?dir=captcha&module=login_captcha' # 验证码url
yield scrapy.Request(img_url, callback=self.do_formdata, meta={'hash_code': hash_code}) # 发送获取验证码请求并保存验证码到本地

def do_formdata(self, response):
with open('yzm.jpg', 'wb') as f:
f.write(response.body)
# 验证码三种方案：1，保存下来手动输入，2，云打码，3 tesseract模块，在这里我们手动输入
code = input('请输入验证码：')
# 创建表单
formdata = {
'username': 'your_username',
'password': 'your_password',
'setcookie': '14',
'checkCode': code,
'next': '',
'source': 'passport',
'__hash__': response.request.meta['hash_code'] # meta是在respose.request中
}
login_url = "https://passport.ganji.com/login.php"
yield scrapy.FormRequest(url=login_url, formdata=formdata, callback=self.after_login) # 发送登录请求

def after_login(self, response):
print(response.text)

4.终端输入scrapy carwl ganji 即可大功告成。

返回来的json字符串解析如下：

注：setting中的设置不在赘述。

来源：https://www.cnblogs.com/bertwu/p/13210539.html

0

投稿

猜你喜欢

使用keras实现非线性回归(两种加激活函数的方式)
我就废话不多说了，大家还是直接看代码吧~import kerasimport numpy as npimport matplotlib.py
Python使用requests xpath 并开启多线程爬取西刺代理ip实例
我就废话不多说啦，大家还是直接看代码吧！import requests,randomfrom lxml import etreeimport
SQL Server中删除重复数据的几个方法
数据库的使用过程中由于程序方面的问题有时候会碰到重复数据，重复数据导致了数据库部分设置不能正确设置……方法一以下为引用的内容：declare
在生成的静态页面中统计点击次数
在静态页面里需要显示浏览次数的地方加上这个：浏览次数：<SCRIPT language='javascript
iframe 的用法与注意事项
好多同志对 iframe 是如何控制的,并不是十分了解,基本上还处于一个模糊的认识状态.注意两个事项,ifr 是一个以存在的 iframe
让你同时上传 1000 个文件（二）
文件提交页面既已生成，下面任务就很明确了：将提交的文件内容保存到服务器上。下面我们用两种方法来实现这个功能： 1. 用 PHP 来保存：
padas 生成excel 增加sheet表的实例
基本介绍pandas是Python数据挖掘、数据分析中常用的库。而DataFrame生成excel中的sheet表，以及在excel中增加s
如何修改被表单引用的ASP页面？
如何修改被表单引用的ASP页面？formhandler.asp<HTML><BODY BGCOLOR="
YOLOv5车牌识别实战教程(二)理论基础
摘要：本篇博客介绍了YOLOv5车牌识别的理论基础，包括目标检测的概念、YOLO系列的发展历程、YOLOv5的网络结构和损失函数等。通过深入
MySQL两种识别是否有中文字符的方法
1) 用正式表达式 regexp "[u0391-uFFE5]"2) 用length和char_lengthdrop t
python读取pdf格式文档的实现代码
python读取pdf文档一、准备工作安装对应的库pip install pdfminer3kpip install pdfminer.s
Asp用XMLHTTP实现QQ状态在线查询
这段程序的方法是利用XMLHTTP来读取腾讯网站的相应HTML代码获取QQ的头像，根据这个想法，我们还
asp空间判断jmail组件是否安装或支持的代码
首先，必须有错误继续进行的声明On Error Resume Next 然后尝试简历jmail实例： Dim JMail Set JMail
Python2.7环境Flask框架安装简明教程【已测试】
本文详细讲述了Python2.7环境Flask框架安装方法。分享给大家供大家参考，具体如下：第1步：确保本机已经安装有python，下载ea
基于python判断字符串括号是否闭合{}[]()
前言经典面试题：判断一个字符串里面的括号是否闭合，如：{{()}} 就是一个闭合的字符串。{{()}]} 这个里面 ([)] 括号不对称，
Python数据分析之使用matplotlib绘制折线图、柱状图和柱线混合图
matplotlib介绍Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用，提供了一种有效的 MatLab 开
Android界面与交互设计原则
译者按：在iOS HIG已经强大经典了N年之后，Android终于推出了一套比较系统的HIG（大概是为了配合Android 4.0 Ice
使用Python读取二进制文件的实例讲解
目标：目标文件为一个float32型存储的二进制文件，按列优先方式存储。本文使用Python读取该二进制文件并使用matplotlib.py
浅析Python 条件控制语句
Python 条件语句是通过一条或多条语句的执行结果（True 或者 False）来决定执行的代码块。可以通过下图来简单了解条件语句的执行过
python3中int（整型）的使用教程
Python3支持三种不同的数值类型：整型（int）--通常被称为是整型或整数，可以是正整数或负整数，不带小数点。Python3整型是没有限

Pytorch实现基于CharRNN的文本分类与生成示例

pyshp创建shp点文件的方法

tensorboard实现同时显示训练曲线和测试曲线

详解Java正则表达式中Pattern类和Matcher类

perl子程序的运用及子程序中变量私有(my)声明的重要性

pygame实现俄罗斯方块游戏

关于pyinstaller 打包多个py文件的问题

解决PyCharm不运行脚本,而是运行单元测试的问题

对变量赋值的理解--Pyton中让两个值互换的实现方法

教你漂亮打印Pandas DataFrames和Series

Win10桌面管理器占用内存过高怎么办？桌面管理器占用内存过高解决方法

QQ五笔输入法非86版本编码的词库如何导入

word如何设置首行缩进

Android 用HttpURLConnection访问网络的方法

安装Win10时提示“你的处理器不支持NX”的处理办法

Win10 1909怎么新建网络连接？Win10 1909网络连接新建方法简述

pygame实现贪吃蛇小游戏

word项目符号颜色怎么改

Python可变集合和不可变集合的构造方法大全

excel与最大值和最小值相关的几个公式

手机版 网络编程 asp之家 www.aspxhome.com