位置：首页>> 网络编程>> Python编程>> Python实现爬取需要登录的网站完整示例

Python实现爬取需要登录的网站完整示例

作者：罗兵　　发布时间：2022-08-09 11:40:33　

标签：Python,爬取,登录

本文实例讲述了Python爬取需要登录的网站实现方法。分享给大家供大家参考，具体如下：

import requests
from lxml import html
# 创建 session 对象。这个对象会保存所有的登录会话请求。
session_requests = requests.session()
# 提取在登录时所使用的 csrf 标记
login_url = "https://bitbucket.org/account/signin/?next=/"
result = session_requests.get(login_url)
tree = html.fromstring(result.text)
authenticity_token = list(set(tree.xpath("//input[@name='csrfmiddlewaretoken']/@value")))[0]
payload = {
"username": "<你的用户名>",
"password": "<你的密码>",
"csrfmiddlewaretoken": authenticity_token # 在源代码中，有一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。
}
# 执行登录
result = session_requests.post(
login_url,
data = payload,
headers = dict(referer=login_url)
)
# 已经登录成功了，然后从 bitbucket dashboard 页面上爬取内容。
url = 'https://bitbucket.org/dashboard/overview'
result = session_requests.get(
url,
headers = dict(referer = url)
)
# 测试爬取的内容
tree = html.fromstring(result.content)
bucket_elems = tree.findall(".//span[@class='repo-name']/")
bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]
print(bucket_names)

希望本文所述对大家Python程序设计有所帮助。

来源：http://www.cnblogs.com/hhh5460/p/5067678.html

0

投稿

猜你喜欢

Python利用PyQt5制作一个获取网络实时数据NBA数据播报GUI功能
制作NBA数据爬虫捋顺思路我们在这里选择的是百度体育带来的数据，我们在百度当中直接搜索NBA跳转到网页，我们可以看到，百度已经为我们提供了相
tensorflow:指定gpu 限制使用量百分比,设置最小使用量的实现
在Python代码中指定GPUimport osos.environ["CUDA_VISIBLE_DEVICES"] =
form 元素内的字段 name 不要跟 form 属性名称一致
长话短说，看这个 form 元素：<form method="post" action=&qu
Django开发的简易留言板案例详解
本文实例讲述了Django开发的简易留言板。分享给大家供大家参考，具体如下：Django在线留言板小练习环境ubuntu16.04 + py
css清除浮动的最优方法
在CSS森林群里讨论一个margin的问题中无意间发现overflow也可以用来清除浮动，嘿嘿，这个方法不单使用简单，而且FF、OP、IE7
Python中的pack和unpack的使用
不同类型的语言支持不同的数据类型，比如 Go 有 int32、int64、uint32、uint64 等不同的数据类型，这些类型占用的字节大
Python实现html转换为pdf报告(生成pdf报告)功能示例
本文实例讲述了Python实现html转换为pdf报告(生成pdf报告)功能。分享给大家供大家参考，具体如下：1、先说下html转换为pdf
Tensorflow的梯度异步更新示例
背景：先说一下应用吧，一般我们进行网络训练时，都有一个batchsize设置，也就是一个batch一个batch的更新梯度，能有这个batc
python实现清屏的方法
本文实例讲述了python实现清屏的方法。分享给大家供大家参考。具体分析如下：一试：>>> import os>&g
对python中的pop函数和append函数详解
pop()函数1、描述pop() 函数用于移除列表中的一个元素（默认最后一个元素），并且返回该元素的值。语法pop()方法语法：list.p
解析SQL server与asp 互操作的时间处理
在编程时你一定碰到过时间触发的事件，在VB中有timer控件，而asp中没有，假如你要不停地查询数据库来等待一个返回结果的话，我想你一定知
他们是如何不让我的Teleport和Webzip工作的？
他们是如何不让我的Teleport和Webzip工作的？你也可以做得到哦： <％dim UserAgentUser
使用Python操作Elasticsearch数据索引的教程
Elasticsearch是一个分布式、Restful的搜索及分析服务器，Apache Solr一样，它也是基于Lucence的索引服务器，
python使用pgzero进行游戏开发
目录1. pgzeropgzero的安装2. 游戏设计的过程3. pgzero基础4. pgzero游戏例子5. 总结6. 参考资料1. p
5步让你的CSS样式表成功减肥
你有没有觉得你的CSS样式表文件过于臃肿？其实如果你注意并培养一些比较好的CSS书写习惯，我想你的CSS样式表过于”肥胖”的问题会得到很好的
Tensorflow 2.4 搭建单层和多层 Bi-LSTM 模型
前言本文使用 cpu 版本的 TensorFlow 2.4 ，分别搭建单层 Bi-LSTM 模型和多层 Bi-LSTM 模型完成文本分类任务
python密码学RSA算法及秘钥创建教程
RSA算法RSA算法是一种公钥加密技术，被认为是最安全的加密方式.它是由Rivest，Shamir和Adleman于1978年发明的，因此命
利用python汇总统计多张Excel
为什么越来越多的非程序员白领都开始学习 Python ？他们可能并不是想要学习 Python 去爬取一些网站从而获得酷酷的成就感，而是工作中
修改 Navicat 默认备份路径
最近使用工作需要，使用了Navicat8.2版本，发现备份数据都是默认存储在C盘，这个就比较郁闷了。重做系统忘记转移了。那不就死定了？找了一
Python实现多线程下载文件的代码实例
实现简单的多线程下载，需要关注如下几点：1.文件的大小：可以从reponse header中提取，如“Content-Length:911”

使用Python实现学生学籍管理系统

Python列表list操作符实例分析【标准类型操作符、切片、连接字符、列表解析、重复操作等】

Python基于smtplib协议实现发送邮件

在Python中使用sort()方法进行排序的简单教程

Python获取指定网段正在使用的IP

python3 使用ssh隧道连接mysql的操作

python3实现弹弹球小游戏

python模块中pip命令的基本使用

Python+seaborn实现联合分布图的绘制

python实例化对象的具体方法

iPhone 12 小技巧：调整音频和视觉设置

win7配置更新100不动了怎么办

装Win10系统提示“缺少计算机所需的介质驱动程序”怎么办？

怎么用cmd还原系统？cmd一键还原系统

iphone的qq2013怎么降级

5.3.1.4 Excel VBA命令按钮的Picture属性

详解Django中的ifequal和ifnotequal标签使用

电脑玩游戏很卡怎么办系统运行游戏卡顿的解决方法

Excel2007多工作表快速输入数据方法

学会迭代器设计模式，帮你大幅提升python性能

手机版 网络编程 asp之家 www.aspxhome.com