python实现ip代理池功能示例
作者:Yeoman92 发布时间:2023-07-30 16:36:06
标签:python,ip代理池
本文实例讲述了python实现ip代理池功能。分享给大家供大家参考,具体如下:
爬取的代理源为西刺代理。
用xpath解析页面
用telnet来验证ip是否可用
把有效的ip写入到本地txt中。当然也可以写入到redis、mongodb中,也可以设置检测程序当代理池中的ip数不够(如:小于20个)时,启动该脚本来重新获取ip,本脚本的代码也要做相应的改变。
# !/usr/bin/env python
# -*- coding: utf-8 -*-
# @Version : 1.0
# @Time : 2018/10/23 上午10:40
# @Author : Yeoman
# @Description :
import urllib.request
import lxml.etree
import telnetlib
import os
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
}
def get_proxy(page_num):
# 获取页面
req = urllib.request.Request('http://www.xicidaili.com/nn/{}'.format(page_num), headers=headers) # 构造request请求
response = urllib.request.urlopen(req) # 发送请求
html = response.read()
html = html.decode('utf-8')
# print(html)
# 解析页面
proxy_list = []
selector = lxml.etree.HTML(html)
rows = selector.xpath('//*[@id="ip_list"]//tr')
rows_total = len(rows)
row_xpath_head = '//*[@id="ip_list"]//tr['
row_ip_xpath_tail = ']/td[2]/text()'
row_port_xpath_tail = ']/td[3]/text()'
for i in range(1, rows_total):
ip_xpath = row_xpath_head + str(i+1) + row_ip_xpath_tail
port_xpath = row_xpath_head + str(i+1) + row_port_xpath_tail
ip = selector.xpath(ip_xpath)[0]
port = selector.xpath(port_xpath)[0]
ip_port = ip + ':' + port
proxy_list.append(ip_port)
return proxy_list
# 检测代理ip是否可用
def test_proxy_ip_port(proxy_ip_port):
print('当前代理ip:{}'.format(proxy_ip_port))
ip_port = proxy_ip_port.split(':')
ip = ip_port[0]
port = ip_port[1]
# 用telnet来验证ip是否可用
try:
telnetlib.Telnet(ip, port, timeout=10)
except:
return False
else:
return True
# 把有效的ip写入本地
def write_ip(proxy_ip):
with open('./ip.txt', 'a') as f:
f.write(proxy_ip + '\n')
# 删除文件
def del_file():
file_path = './ip.txt'
if os.path.exists(file_path):
os.remove(file_path)
def run():
del_file()
proxy_ip_port_list = []
for i in range(1, 6): # 前5页
proxy_ip_port_list += get_proxy(i)
for i in range(100): # 一页有100条
proxy_ip_port = proxy_ip_port_list[i]
is_valid = test_proxy_ip_port(proxy_ip_port)
print(is_valid)
if is_valid:
# 写入ip到本地
write_ip(proxy_ip_port)
if __name__ == '__main__':
run()
希望本文所述对大家Python程序设计有所帮助。
来源:https://blog.csdn.net/Yeoman92/article/details/83310646
0
投稿
猜你喜欢
- Online人们搜索、浏览、阅读、跟帖、互动投票,玩游戏,甚至在线买卖交易。这些行为都是“用户体验”,听起来用户体验似乎无所不能,造成了互联
- TensorBoard是TensorFlow下的一个可视化的工具,能够帮助我们在训练大规模神经网络过程中出现的复杂且不好理解的运算。Tens
- 弄个随机数的东西,直接从网上找了一个现成的,简单看了两眼,感觉算法应该是对的,但今天测试下来,是不对的;网上大多数人用的写法是这样的:fun
- 一、个人安装环境1.Windows10x64_pro2.anaconda4.6.9 +python3.7.1(anaconda集成,不需单独
- 一.错误分类1. 语法错误也称为解析错误,发生在传统编程语言的编译时,在JavaScript中发生在解释时,这些错误是由代码中的意外字符直接
- 新搞了台linux云主机,瞎折腾折腾,先装个Python3。Linux环境下有其他软件需要Python2,如YUM,所以安装的Python3
- SQL Server会把经常使用到的数据缓存在内存里(就是数据页缓存),用以提高数据访问速度。因为磁盘访问速度远远低于内存,所以减少磁盘访问
- Francesc (@francesc) 是 Go 核心团队的一员, 是提倡 Google Cloud 平台的开发者. 他是一个编程语言的爱
- 本文实例讲述了Python基于tkinter模块实现的改名小工具。分享给大家供大家参考,具体如下:#!/usr/bin/env python
- 设计单个页面,一点一点做就行了,但处理的页面多了,每个页面都一点点的做下去是非常费时费力的,特别是当许
- SQL Server创建临时表:创建临时表 方法一: &n
- 扪心自问,你真正了解你卖给用户的是什么玩意么?你所认为革命性的,一定会震惊世界的功能、特色,用户真的买单么?我的意思是,我们总是习惯性的忘记
- 在上一篇《服务器XMLHTTP(Server XMLHTTP in ASP)基础》中我介绍了一下ServerX
- 我相信站长们做网站的最终目的还是想要获得收入的,我想象站长们大部分的都做Google的联盟的,我相信站长中大部分的人都有考虑过做英文站的,但
- **问题描述:**有如下程序输出日志,计算程序运行时间,显示花费623分钟?start time:2019-03-15 19:45:31.2
- 一、中间键的引入:Django中间件(Middleware)是一个 轻量级、底层的 “插件”系 统,可以介入 Django的请求和响应处理过
- asp三天学好ADO对象之第一天 今天说一下Recordset 对象的属性1、CursorType 属性AdOpenForwardOnly:
- 目标网址:https://www.baidu.com/要获取的内容:链接分析:从下图可以看出只需要获取关键字,再构建就可以了。完整代码:im
- 元编程,一个听起来特别酷的词,强大的Lisp在这方面是好手,对于Python,尽管没有完善的元编程范式,一些天才的开发者还是创作了很多元编程
- 作用域:顾名思义,作用的范围。如果你是自学者,而且已经进军到函数这一部分了,那么就应当了解下Python的作用域。否则你可能会像我一样,总是