对python抓取需要登录网站数据的方法详解
作者:wppkind 发布时间:2023-01-18 04:58:41
标签:python,抓取,网站,数据
scrapy.FormRequest
login.py
class LoginSpider(scrapy.Spider):
name = 'login_spider'
start_urls = ['http://www.login.com']
def parse(self, response):
return [
scrapy.FormRequest.from_response(
response,
# username和password要根据实际页面的表单的name字段进行修改
formdata={'username': 'your_username', 'password': 'your_password'},
callback=self.after_login)]
def after_login(self, response):
# 登录后的代码
pass
selenium登录获取cookie
get_cookie_by_selenium.py
import pickle
import time
from selenium import webdriver
def get_cookies():
url = 'https://www.test.com'
web_driver = webdriver.Chrome()
web_driver.get(url)
username = web_driver.find_element_by_id('login-email')
username.send_keys('username')
password = web_driver.find_element_by_id('login-password')
password.send_keys('password')
login_button = web_driver.find_element_by_id('login-submit')
login_button.click()
time.sleep(3)
cookies = web_driver.get_cookies()
web_driver.close()
return cookies
if __name__ == '__main__':
cookies = get_cookies()
pickle.dump(cookies, open('cookies.pkl', 'wb'))
获取浏览器cookie(以Ubuntu的Firefox为例)
get_cookie_by_firefox.py
import sqlite3
import pickle
def get_cookie_by_firefox():
cookie_path = '/home/name/.mozilla/firefox/bqtvfe08.default/cookies.sqlite'
with sqlite3.connect(cookie_path) as conn:
sql = 'select name,value from moz_cookies where baseDomain="test.com"'
cur = conn.cursor()
cookies = [{'name': name, 'value': value} for name, value in cur.execute(sql).fetchall()]
return cookies
if __name__ == '__main__':
cookies = get_cookie_from_firefox()
pickle.dump(cookies, open('cookies.pkl', 'wb'))
scrapy使用获取后的cookie
cookies = pickle.load(open('cookies.pkl', 'rb'))
yield scrapy.Request(url, cookies=cookies, callback=self.parse)
requests使用获取后的cookie
cookies = pickle.load(open('cookies.pkl', 'rb'))
s = requests.Session()
for cookie in cookies:
s.cookies.set(cookie['name'], cookie['value'])
selenium使用获取后的cookie
from selenium import webdriver
cookies = pickle.load(open('cookies.pkl', 'rb'))
w = webdriver.Chrome()
# 直接添加cookie会报错,下面是一种解决方案,可能有更好的
# -- start --
w.get('http://www.test.com')
w.delete_all_cookies()
# -- end --
for cookie in cookies:
w.add_cookie(cookie)
来源:https://blog.csdn.net/wppkind/article/details/53991523
0
投稿
猜你喜欢
- 访问phpmyadmin时总是出现 “无法载入 mysql 扩展,请检查 PHP 配置”。
- 本文实例讲述了Python 进程操作之进程间通过队列共享数据,队列Queue。分享给大家供大家参考,具体如下:队列中的数据是放在内存中的,可
- 我们大致会在下列几种情况下用到: 一、文件操作(FileSystemObject)<%@ IMPORT
- 关于tensor.repeat()的使用考虑到很多人在学习这个函数,我想在这里提 一个建议:强烈推荐 使用 einops 模块中的 repe
- 译序:本文提到了一种很不错的实现跨浏览器圆角的解决方案,但是说的不够全面,前端观察最近将整理更多更全面的资源给大家,敬请期待。前一段时间,我
- Asp(Active Server Pages)是Web服务器端脚本编写环境,可以使用Vbscript/Jscript两种脚本来编写.作为我
- 北京时间2月15日据国外媒体报道,美国知名sns网站Facebook全球活跃用户量已突破1.75亿大关。数据显示,全球20%的网民都使用Fa
- MySQL目前不支持列的Default 为函数的形式,如达到你某列的默认值为当前更新日期与时间的功能,你可以使用TIMESTAMP列类型下面
- 工具:Pycharm,Django1.11.9.1.下载django_admin_bootstrappedpip install djang
- 代码如下:declare @cmd nvarchar(4000) set @cmd = N'exec [?].sys.sp_chan
- 就像标题呈现的一样,SQL Server 2008中的MERGE语句能做很多事情,它的功能是根据源表对目标表执行插入、更新或删除操作。最典型
- 今天一个项目上需要,修改了一些属性,测试成功。<!--#include file="conn.asp"-
- 昨天在做一道CTF题的时候碰到了一个图片异或的问题,操作大概如下:将一个图片读入,然后每字节进行异或操作,核心代码可简化为以下:#codin
- 俗话说,“工欲善其事,必先利其器”。对于前端开发工程师来说,基于Firefox丰富的Web开发辅助插件无疑就是最好的利器。下面就与大家分享2
- requests是一个python 轻量的http客户端库,相比python的标准库要优雅很多。接下来通过本文给大家介绍Python3使用r
- 主键表的主键(primary key,主关键字)是表中的一个或多个字段,它的值用于惟一地标识表中的某一条记录。一个表不能有多个主关键字,并且
- 目录分析问题音频url搜索urlJS代码实现分析问题音频url点入某个音乐的播放界面,通过F12-Network,分析数据,可以看到有一个i
- 在照着Tensorflow官网的demo敲了一遍分类器项目的代码后,运行倒是成功了,结果也不错。但是最终还是要训练自己的数据,所以尝试准备加
- XML是一个精简的SGML,它将SGML的丰富功能与HTML的易用性结合到Web的应用中。XML保留了SGML的可扩展功能,这使XML从根本
- 一、自定义数据集现有数据如下:5个文件夹,每个文件夹是神奇宝贝的一种。每个图片形状、大小、格式不一。我们训练CNN的时候需要的是tensor