位置：首页>> 网络编程>> 网络编程>> Scrapy模拟登录赶集网的实现代码

Scrapy模拟登录赶集网的实现代码

作者：人丑就要多读书-Wu　　发布时间：2023-02-22 20:33:47　

标签：Scrapy,登录,赶集网

1.打开赶集网登录界面，先模拟登录并抓包，获得post请求的request参数

2. 我们只需构造出上面的参数传入formdata即可

参数分析：

setcookie：为自动登录所传的值，不勾选时默认为0。

__hash__值的分析：只需要查看response网页源代码即可，然后用正则表达式提取。

3.代码实现

1.workon到自己的虚拟环境 cmd切换到项目目录，输入scrapy startproject ganjiwangdenglu,然后就可以用pycharm打开该目录啦。

2.在pycharm terminal中输入scrapy ganji ganjicom 创建地址，如下为项目目录

3. 代码详情

import scrapy
import re

class GanjiSpider(scrapy.Spider):
name = 'ganji'
allowed_domains = ['ganji.com']
start_urls = ['https://passport.ganji.com/login.php']

def parse(self, response):
hash_code = re.search(r'"__hash__":"(.+)"}', response.text).group(1) # 正则获取哈希
img_url = 'https://passport.ganji.com/ajax.php?dir=captcha&module=login_captcha' # 验证码url
yield scrapy.Request(img_url, callback=self.do_formdata, meta={'hash_code': hash_code}) # 发送获取验证码请求并保存验证码到本地

def do_formdata(self, response):
with open('yzm.jpg', 'wb') as f:
f.write(response.body)
# 验证码三种方案：1，保存下来手动输入，2，云打码，3 tesseract模块，在这里我们手动输入
code = input('请输入验证码：')
# 创建表单
formdata = {
'username': 'your_username',
'password': 'your_password',
'setcookie': '14',
'checkCode': code,
'next': '',
'source': 'passport',
'__hash__': response.request.meta['hash_code'] # meta是在respose.request中
}
login_url = "https://passport.ganji.com/login.php"
yield scrapy.FormRequest(url=login_url, formdata=formdata, callback=self.after_login) # 发送登录请求

def after_login(self, response):
print(response.text)

4.终端输入scrapy carwl ganji 即可大功告成。

返回来的json字符串解析如下：

注：setting中的设置不在赘述。

来源：https://www.cnblogs.com/bertwu/p/13210539.html

0

投稿

猜你喜欢

各浏览器 CSS Hack 整理
CSS Hack是在标准CSS没办法兼容各浏览器显示效果时才会用上的补救方法,在各浏览器厂商解析CSS没有达成一致前,我们只能用这样的方法来
Python操作MongoDB数据库的方法示例
本文实例讲述了Python操作MongoDB数据库的方法。分享给大家供大家参考，具体如下：>>> import pymon
Python实现连点器的示例代码
啊，为此我特意准备了两个程序，一个是用来测试的，一个是主程序。来看看吧直接放连点器代码：# 改进版import pyautogui as p
MySQL中使用binlog时格式该如何选择
目录一、binlog的三种模式1.statement level模式2.rowlevel模式3.mixed模式二、我们使用binlog时应该
pymongo实现多结果进行多列排序的方法
本文实例讲述了pymongo实现多结果进行多列排序的方法。分享给大家供大家参考。具体分析如下：这里多列排序即指定多个排序字段。集合查询结果排
比较文档位置
一个很棒的 blog 文章，是 PPK 两年前写的，文章中解释了 contains() 和 compareDocumentPosition(
Python内置方法和属性应用：反射和单例(推荐)
1. 前言python除了丰富的第三方库外，本身也提供了一些内在的方法和底层的一些属性，大家比较常用的如dict、list、set、min、
python如何操作mysql
mysql 使用启动服务sudo systemctl start mysqlpip3 install pymysqlpython 操作数据库
兼容IE和FF的收藏本站、设为首页代码
这个收藏本站、设为首页代码相信每个网站都会用到，这么常用的代码，网络上流行的一般是很多年前的代码版本，只有兼容IE，对其它浏览器没有考虑，下
Vue + Webpack + Vue-loader学习教程之相关配置篇
前言之前已经介绍过了Vue + Webpack + Vue-loader的相关功能介绍，大家可以点击这篇文章了解详情。下面就来看看相关配置篇
xhEditor的异步载入实现代码
我将会使用xheditor作为新的在线编辑器，我希望它可以能通过一个php函数就能调用如function editor($content,$
pandas 读取各种格式文件的方法
pandas 读取各种格式文件：前置工序： import pandas as pdcsv 文件读取中文错误处理： utf-8 codec c
浅谈Python 对象内存占用
一切皆是对象在 Python 一切皆是对象，包括所有类型的常量与变量，整型，布尔型，甚至函数。参见stackoverflow上的一个问题
Python重新加载模块的实现方法
importlib 模块的作用模块，是一个一个单独的py文件包，里面包含多个模块（py文件）动态导入模块，这样就不用写那么多的import
基于python3 OpenCV3实现静态图片人脸识别
本文采用OpenCV3和Python3 来实现静态图片的人脸识别,采用的是Haar文件级联。首先需要将OpenCV3源代码中找到data文
页面制作中要注意的编码问题
不知道大家在做页面的时候会不会遇到样式定义不生效的问题，基本的表现就是怎么改样式都没显示或只有某些浏览器正常，这时通常需要做下面的几步：确认
python groupby函数实现分组后选取最值
现在需要将course分组,然后选择出每一组里面的最大值和最小值,并保留下来实现下面数据结果：直接使用groupby函数,不能直接达到此效果
python利用多线程+队列技术爬取中介网互联网网站排行榜
目标站点分析本次要抓取的目标站点为：中介网，这个网站提供了网站排行榜、互联网网站排行榜、中文网站排行榜等数据。网站展示的样本数据量是：58
Python3操作SQL Server数据库(实例讲解)
1.前言前面学完了SQL Server的基本语法，接下来学习如何在程序中使用sql，毕竟不能在程序中使用的话，实用性就不那么大了。2.最基本
Python连接字符串过程详解
这篇文章主要介绍了python连接字符串过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以

JetBrains(IEDA、CLion、Pycharm) 学生获得免费使用资格

Numpy如何检查数组全为零的几种方法

numpy工程实践之np.savetxt()存储数据

关于指令重排现象的两个阶段详解

在PyCharm中安装PaddlePaddle的方法

HTTP请求 GET与POST方法的区别

pyqt5 QListWidget的用法解析

PyCharm中关于安装第三方包的三个建议

Pytest接口自动化测试框架搭建模板

web服务器程序运行出现乱码问题的解决方法

从MySQL导大量数据的程序实现方法

Win11怎么快速找出电脑里所有视频？Win11快速找出电脑所有视频方法

告诉你8个不为人知的微信实用技巧

两天没解决的问题chatgpt用了5秒搞定隐藏bug

Win7搜索功能使用指南详细图文介绍

win7系统防火墙报错0x6D9该怎么办？

DNF手游宠物炎魔之魂怎么获取

Apex英雄手游C.A.R枪械属性怎么样

wps2019标尺在哪? wps2019调出标尺的教程

如何在word 2016文档中插入的图表

手机版 网络编程 asp之家 www.aspxhome.com