Python 通过爬虫实现GitHub网页的模拟登录的示例代码
作者:Amo Xiang 发布时间:2022-04-27 00:26:39
1. 实例描述
通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub
网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示。那么该如何实现模拟登录的功能呢?本文实现将通过爬虫实现 GitHub
网页的模拟登录。
2. 代码实现
在实现 GitHub
网页的模拟登录时,首先需要查看提交登录请求时都要哪些请求参数,然后获取登录请求的所有参数,再发送登录请求。如果登录成功的情况下获取页面中的注册号码信息即可。具体步骤如下:
(1) 点击 此处 打开 GitHub
的登录页面,然后输入账号与密码,如下图所示。
(2) 用 F12
或者 鼠标右键单击网页选择 检查
打开浏览器的开发者工具,选择获取网络请求过程,然后单击登录页面中的 Sign in
按钮,此时开发者工具中将显示 GitHub
网页的登录请求过程,重点查找名称为 session
的网络请求。如下图所示。
(3) 单击名称为 session
的网络请求,然后在 Headers
请求信息中主要查看 Request Headers
与 Form Data
中的各种信息,其中红框内为重要参数与数据。如下图所示。
说明:Host
为主页面地址,Referer
为当前请求的来源地址。User-Agent
为浏览器的头部信息。Form Data
中的所有信息都是登录请求的所用参数,其中动态参数为重要参数,authenticity_token
为加密字符串,login
为登录的账号,password
为密码,其它参数为静态参数。由于动态参数只有 authenticity_token
、login
以及password
,而用户名与密码只需要将动态字符串填写对应的位置即可,所以接下来需要获取 authenticity_token
参数所对应的加密字符串。
(4) 在浏览器中退出所登录的 GitHub
账号,返回 GitHub
的登录页面,打开浏览器开发者工具,查看网页的 html
代码,然后在代码中搜索 authenticity_token
关键词,标签内 value
所对应的值为 authenticity_token
参数的加密字符串。如下图所示。
(5) 实现爬虫代码,首先导入所需模块,然后创建头部信息,再通过 Session
会话对象发送网络请求获取 authenticity_token
信息,最后通过所有的登陆请求参数实现 GitHub
网页的登陆请求并提取注册号码。具体代码如下:
# -*- coding: utf-8 -*-
# @Time : 2020/5/10 23:25
# @Author : 我就是任性-Amo
# @FileName: 77.通过爬虫实现GitHub网页的模拟登录.py
# @Software: PyCharm
# @Blog :https://blog.csdn.net/xw1680
import requests # 导入网络请求模块
from lxml import etree # 导入数据解析模块 都是第三方模块需要安装
# pip install requests/lxml如果太慢 可以加上镜像服务器 或者在Pycharm中使用图形化界面进行安装
class GitHubLogin(object):
def __init__(self, username, password):
# 构造头部信息
self.headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) "
"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
"Host": "github.com",
"Referer": "https://github.com/login"
}
self.login_url = "https://github.com/login" # 登录页面地址
self.post_url = "https://github.com/session" # 实现登录的请求地址
self.session = requests.Session() # 创建Session会话对象
self.user_name = username # 用户名
self.password = password # 密码
# 获取authenticity_token信息
def get_token(self):
# 发送登录页面的网络请求
response = self.session.get(self.login_url, headers=self.headers)
if response.status_code == 200: # 判断请求是否成功
html = etree.HTML(response.text) # 解析html
# 提取authenticity_token信息
token = html.xpath("//div[@id='login']/form/input[1]/@value")[0]
# print(token) 测试是否能够获取到token
return token # 返回信息
# 实现登录
def login(self):
# 请求参数
post_data = {
"commit": "Sign in",
"authenticity_token": self.get_token(),
"login": self.user_name,
"password": self.password,
"webauthn - support": "supported"
}
# 发送登录请求
response = self.session.post(self.post_url, headers=self.headers, data=post_data)
if response.status_code == 200: # 判断请求是否成功
html = etree.HTML(response.text) # 解析html
# 获取注册号码
register_number = html.xpath("//div[contains(@class,'Header-item')][last()]//strong")[0]
print(f"注册号码为: {register_number.text}")
else:
print("登录失败")
if __name__ == '__main__':
user_name = input("请输入您的用户名:") # 获取输入的用户名
password = input("请输入您的密码:") # 获取输入的密码
login = GitHubLogin(user_name, password) # 创建登录类对象并传递输入的用户名与密码
login.login()
执行以上代码,输入用户名与密码,即可显示获取的注册号码。如下图所示:
来源:https://blog.csdn.net/xw1680/article/details/106044765
猜你喜欢
- 原理:第一步:应用程序把查询SQL语句发给服务器端执行。我们在数据层执行SQL语句时,应用程序会连接到相应的数据库服务器,把SQL语句发送给
- 用户体验已经是一个老生常谈的话题了。我非常赞同某位达人所说的,用户体验设计应该贯穿于产品从萌芽到出生的整个过程,产品原型、视觉设计、前端开发
- 方案概要: 1. 改变文件存储时的文件名 2. 配置索引服务器,并将索引服务器与MS SQL Server关联。 3. 修改SQL语句,将进
- 本文档整理大部分公认的、或者少有争议的JavaScript良好书写规范(Best Practice)。一些显而易见的常识就不再论述(比如要用
- 一直想了解Web编程的技术。PHP是进行Web编程重要的一种语言,书上总是说,PHP是用于服务器端的编程语言。但是,实在不能理解它是怎么用于
- 一、为什么要搭建爬虫代理池在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制,即在某一时间段内,当某个ip的访问次数达到一定的阀值时
- python创建一个类很简单只需要定义它就可以了.class Cat: pass就像这样就可以了,通过创建子类我们可以继承他的父
- PySide是一个免费的软件,与PyQt不同之处在于使用了LGPL,允许PySide免费的开发商业软件。 PySide有15个模块。这些模块
- python是支持多线程的, 主要是通过thread和threading这两个模块来实现的,本文主要给大家分享python实现多线程网页爬虫
- 本文实例讲述了php实现的验证码文件类。分享给大家供大家参考。具体如下:<?php/*** @file* @version 1.0*
- 前言在任何编程语言中,代码需要根据不同的条件在给定的输入中做不同的决定和执行相应的动作。例如,在一个游戏中,如果玩家生命点为0,游戏结束。在
- <!--模板--> <table width="100%" borde
- 今天来说说xml那些事儿.如何批量修改指定文件夹下的xml文件的指定属性.分三步走,首先,我们先看看如何读写单个的xml文件;第二步,来看看
- 为什么需要对参数进行编码?相信有过开发的经验的广大程序员都知道,在Web中,若是直接在Url地址上传递参数值,若是中文,或者+等什么的就会出
- 【原文地址】New "Orcas" Language Feature: Query Syntax 【原文发表日期】 Sa
- ThinkPHP支持多种php模板引擎,可以根据个人需要加以配置。下面我们以Smarty模板引擎为例,给大家说说具体的操作流程!首先去Sma
- 1、索引优化1.1 建表或加索引时,保证表里互相不存在冗余索引。对于MySQL来说,如果表里已经存在key(a,b),则key(a)为冗余索
- 一. 删除完全重复的记录完全重复的数据,通常是由于没有设置主键/唯一键约束导致的。测试数据:if OBJECT_ID('duplic
- 前言Tree一直是大家熟知的组件,做一些大型的后台管理系统都会用到。使用树组件可以完整的展现其中的层级关系,并具有展开收起选择等交互功能。效
- 本文介绍了python opencv之SURF算法示例,分享给大家,具体如下:目标:SURF算法基础opencv总SURF算法的使用原理:上