Python实现的批量下载RFC文档
作者:junjie 发布时间:2021-11-25 02:54:48
RFC文档有很多,有时候在没有联网的情况下也想翻阅,只能下载一份留存本地了。
看了看地址列表,大概是这个范围:
http://www.networksorcery.com/enp/rfc/rfc1000.txt
...
http://www.networksorcery.com/enp/rfc/rfc6409.txt
哈哈,很适合批量下载,第一个想到的就是迅雷……
可用的时候发现它只支持三位数的扩展(用的是迅雷7),我想要下的刚好是四位数……
郁闷之下萌生自己做一个的想法!
这东西很适合用python做,原理很简单,代码也很少,先读为快。
代码如下:
#! /usr/bin/python
'''
File : getRFC.py
Author : Mike
E-Mail : Mike_Zhang@live.com
'''
import urllib,os,shutil,time
def downloadHtmlPage(url,tmpf = ''):
i = url.rfind('/')
fileName = url[i+1:]
if tmpf : fileName = tmpf
print url,"->",fileName
urllib.urlretrieve(url,fileName)
print 'Downloaded ',fileName
time.sleep(0.2)
return fileName
# http://www.networksorcery.com/enp/rfc/rfc1000.txt
# http://www.networksorcery.com/enp/rfc/rfc6409.txt
if __name__ == '__main__':
addr = 'http://www.networksorcery.com/enp/rfc'
dirPath = "RFC"
#startIndex = 1000
startIndex = int(raw_input('start : '))
#endIndex = 6409
endIndex = int(raw_input('end : '))
if startIndex > endIndex :
print 'Input error!'
if False == os.path.exists(dirPath):
os.makedirs(dirPath)
fileDownloadList = []
logFile = open("log.txt","w")
for i in range(startIndex,endIndex+1):
try:
t_url = '%s/rfc%d.txt' % (addr,i)
fileName = downloadHtmlPage(t_url)
oldName = './'+fileName
newName = './'+dirPath+'/'+fileName
if True == os.path.exists(oldName):
shutil.move(oldName,newName)
print 'Moved ',oldName,' to ',newName
except:
msgLog = 'get %s failed!' % (i)
print msgLog
logFile.write(msgLog+'\n')
continue
logFile.close()
除了RFC文档,这个程序稍加修改也可以做其它事情:比如批量下载MP3、电子书等等。
好,就这些了,希望对你有帮助。
猜你喜欢
- 简介模拟登录淘宝已经不是一件新鲜的事情了,过去我曾经使用get/post方式进行爬虫,同时也加入IP代理池进行跳过检验,但随着大型网站的升级
- 这带来了很多好处,但是也要求学习一些新的概念、命令、使用和管理任务。所以在投入你的生产系统之前,看看它解决什么、管理什么,以及对它的正反面评
- 我们有理由相信采用新的内核版本(2.2.16-3 smp)也应该有性能的提升: OS2: Newer minor version kerne
- 官方网站:http://www.extjs.com/演示地址:http://www.yaohaixiao.com/effects/sampl
- response.getWriter().write() 功能:向前台页面显示一段信息。当在普通的url方式中,会生成一个新的页面来显示内容
- 过年这段时间由于线上数据库经常压力过大导致响应非常缓慢甚至死机,咬咬牙下大决心来解决效率不高的问题!首先是由于公司秉承快速开发原则,频繁上线
- 前言python数据类型是不允许改变的,这就意味着如果改变 Number 数据类型的值,将重新分配内存空间。下面话不多说,来看看详细的介绍吧
- PDOStatement::errorInfoPDOStatement::errorInfo — 获取跟上一次语句句柄操作相关的扩展错误信息
- 核心代码function convert2utf8($string) { return iconv(&
- 前言本文主要给大家介绍了关于golang解析网页利器goquery使用的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介
- 对于注入而言,错误提示是极其重要。所谓错误提示是指和正确页面不同的结果反馈,高手是很重视这个一点的,这对于注入点的精准判断至关重要。本问讨论
- PHP5.4才支持JSON_UNESCAPED_UNICODE这个参数,此参数是让中文字符在json_encode的时候不用转义,减少数据传
- 一. 元组元组是Python中的一个内置的数据结构,它是一个不可变的序列,所谓的不可变序列就是不可以进行增删改的操作。1.1 元组的创建元组
- 原始需求:例如有一个列表:l = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]希望把它转换成下面这种形式:[1, 2,
- 判断字符串长度函数:<SCRIPT LANGUAGE="JavaScript"><!--fu
- 如何验证日期输入是否正确?我们可以利用ASP 3.0里的On Error Resume Next来完成这项功能:<%Option&nb
- 前言前几天逛github发现了一个有趣的并发库-conc,其目标是:更难出现goroutine泄漏处理panic更友好并发代码可读性高从简介
- 代码如下:'个人代码风格注释(变量名中第一个小写字母表表示变量类型) 'i:为Integer型; 's:为Strin
- 我用FSO生成了unicode的文件,但这不是我想要的。FSO可以生成utf-8格式编码的html文件吗?用什么办法才能生成?FSO的编码问
- 阅读上一篇:AJAX的jQuery实现入门(一)要写入数据库,我们知道的最简单的就是注册了, 就做个最简单的注册表单, 看看是如何提交数据的