位置：首页>> 网络编程>> Python编程>> python 自动提交和抓取网页

python 自动提交和抓取网页

　　发布时间：2022-11-16 17:47:01　

标签：python,自动提交,抓取网页

下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。

import urllib
import urllib2
import urlparse
import lxml.html
def url_with_query(url, values):
parts = urlparse.urlparse(url)
rest, (query, frag) = parts[:-2], parts[-2:]
return urlparse.urlunparse(rest + (urllib.urlencode(values), None))
def make_open_http():
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
opener.addheaders = [] # pretend we're a human -- don't do this
def open_http(method, url, values={}):
if method == "POST":
return opener.open(url, urllib.urlencode(values))
else:
return opener.open(url_with_query(url, values))
return open_http
open_http = make_open_http()
tree = lxml.html.fromstring(open_http("GET", "https://www.jb51.net").read())
form = tree.forms[0]
form.fields["q"] = "eplussoft"
form.action="https://www.jb51.net/search"
response = lxml.html.submit_form(form,open_http=open_http)
html = response.read()
doc = lxml.html.fromstring(html)
lxml.html.open_in_browser(doc)

恩，验证码是个大问题。还有今天看了一些百度贴吧上的东西，更是坏了心情，它的验证码是用ajax取的图片，这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了，更不要说分析验证码图片了。要解决的问题还是很多的。。。

0

投稿

猜你喜欢

python简单猜数游戏实例
本文实例讲述了python简单猜数游戏。分享给大家供大家参考。具体实现方法如下：#!/usr/bin/env pythonimport ra
Python利用PyQt5制作一个获取网络实时数据NBA数据播报GUI功能
制作NBA数据爬虫捋顺思路我们在这里选择的是百度体育带来的数据，我们在百度当中直接搜索NBA跳转到网页，我们可以看到，百度已经为我们提供了相
用python生成mysql数据库结构文档
最近因为项目原因需要编写数据库设计文档，但是由于数据表太多，手动编写耗费的时间太久，所以搞了一个简单的脚本快速生成数据库结构，保存到word
Python使用jupyter notebook查看ipynb文件过程解析
首先确保已安装jupyter notebook，而且添加到了环境变量再找到保存ipynb文件的文件夹，在路径处直接输入cmd，然后回车进入命
何时将数据装载到Application 或 Session 对象中去？
程序如下：＜％Function GetEmploymentStatusListDim dd = Ap
Python调用Tkinter示例浅析
用途：图形化界面操作：通过设计一个图形化的界面，用户可以通过按钮或其他操作方式调用后台的Python程序进行数据处理、图像处理等功能。自动化
Anaconda和Pycharm的安装配置教程分享
Anaconda 是一个基于 Python 的数据处理和科学计算平台，它已经内置了许多非常有用的第三方库，装上Anaconda，就相当于把
一起来学习Python的元组和列表
1 元组同一元组中元素的数据类型可以不同元组中只包含一个元素时，需要在元素后面添加逗号，否则圆括号会被当做运算符使用元组的创建：赋值命令=或
Python编译为二进制so可执行文件实例
通过cpython把python的文件转换为二进制文件，达到代码保护的目的1、下载Cython-0.28.2.tar.gz python s
如何让对方在线查看我的程序代码？
<％@ Language=VBScript ％><％Option Explicit ％><％Dim strUR
总结showModalDialog和showModelessDialog用法
这也是老早前整理的了，也贴出来吧：1． showModalDialog和showModelessDialog的异同
Python np.where()的详解以及代码应用
np.where共两种用法:第一种np.where(condition, x, y),即condition为条件,当满足条件输出为x,不满足
keras 简单 lstm实例(基于one-hot编码)
简单的LSTM问题，能够预测一句话的下一个字词是什么固定长度的句子，一个句子有3个词。使用one-hot编码各种引用import keras
Python解析nginx日志文件
项目的一个需求是解析nginx的日志文件。简单的整理如下：日志规则描述首先要明确自己的Nginx的日志格式，这里采用默认Nginx日志格式：
PHP登录验证功能示例【用户名、密码、验证码、数据库、已登陆验证、自动登录和注销登录等】
本文实例讲述了PHP登录验证功能。分享给大家供大家参考，具体如下：登录界面具体实现方法如下：login.html<!DOCTYPE h
Python中使用ctypes调用C++的方法
在Python中可以通过几种方法调用C++的函数，这里介绍使用ctypes的方法。ctypes是Python自带的一个模块，能够直接载入C+
python 爬取豆瓣网页的示例
目录python 语法简要介绍爬取网页解析网页储存网页python作为一种已经广泛传播且相对易学的解释型语言,现如今在各方面都有着广泛的应用
python torch.utils.data.DataLoader使用方法
PyTorch中数据读取的一个重要接口是torch.utils.data.DataLoader，该接口定义在dataloader.py脚本中
keras输出预测值和真实值方式
在使用keras搭建神经网络时，有时需要查看一下预测值和真是值的具体数值，然后可以进行一些其他的操作。这几天查阅了很多资料。好像没办法直接a
理解JavaScript作用域链
作用域链(Scope Chain)JavaScript中的一种重要机制，JS中所有的标识符（Identifier）都是通过Scope Cha

Python爬虫之Selenium实现键盘事件

python基础之集合

Python利用docx模块实现快速操作word文件

解决TensorFlow程序无限制占用GPU的方法

Python多线程以及多线程中join()的使用方法示例

Python科学计算包numpy用法实例详解

详解Python定时器Timer的使用及示例

python3 tkinter实现点击一个按钮跳出另一个窗口的方法

Python环境下搭建属于自己的pip源的教程

利用python-pypcap抓取带VLAN标签的数据包方法

设置Android设备WIFI在休眠时永不断开的代码实现

详解Python3迁移接口变化采坑记

善用Windows还原功能将系统恢复到最初状态

苹果发布会：全新 iMac、iPad Pro、紫色 iPhone 12 和 AirTag 登场

Win10电脑密码忘记了怎么办？Win10更改电脑密码的操作教程

iphone7关闭小圆点教程

Windowsxp不能打开用户账户控制面板解决方法

WPS文字中保存文档的几种方法

win10评估副本怎么升级正版系统？最简单的方法来了！

WPS word中女性符号♀怎么打出来

手机版 网络编程 asp之家 www.aspxhome.com