python使用tornado实现简单爬虫
作者:WangF0 发布时间:2022-07-07 12:03:08
标签:python,tornado,爬虫
本文实例为大家分享了python使用tornado实现简单爬虫的具体代码,供大家参考,具体内容如下
代码在官方文档的示例代码中有,但是作为一个tornado新手来说阅读起来还是有点困难的,于是我在代码中添加了注释,方便理解,代码如下:
# coding=utf-8
#!/usr/bin/env python
import time
from datetime import timedelta
try:
from HTMLParser import HTMLParser
from urlparse import urljoin, urldefrag
except ImportError:
from html.parser import HTMLParser
from urllib.parse import urljoin, urldefrag
from tornado import httpclient, gen, ioloop, queues
# 设置要爬取的网址
base_url = 'http://www.baidu.com'
# 设置worker数量
concurrency = 10
# 此代码会获取base_url下的所有其他url
@gen.coroutine
def get_links_from_url(url):
try:
# 通过异步向url发起请求
response = yield httpclient.AsyncHTTPClient().fetch(url)
print('fetched %s' % url)
# 响应如果是字节类型 进行解码
html = response.body if isinstance(response.body, str) \
else response.body.decode(errors='ignore')
# 构建url列表
urls = [urljoin(url, remove_fragment(new_url))
for new_url in get_links(html)]
except Exception as e:
print('Exception: %s %s' % (e, url))
# 报错返回空列表
raise gen.Return([])
# 返回url列表
raise gen.Return(urls)
def remove_fragment(url):
#去除锚点
pure_url, frag = urldefrag(url)
return pure_url
def get_links(html):
#从html页面里提取url
class URLSeeker(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.urls = []
def handle_starttag(self, tag, attrs):
href = dict(attrs).get('href')
if href and tag == 'a':
self.urls.append(href)
url_seeker = URLSeeker()
url_seeker.feed(html)
return url_seeker.urls
@gen.coroutine
def main():
# 创建队列
q = queues.Queue()
# 记录开始时间戳
start = time.time()
# 构建两个集合
fetching, fetched = set(), set()
@gen.coroutine
def fetch_url():
# 从队列中取出数据
current_url = yield q.get()
try:
# 如果取出的数据在队列中已经存在 返回
if current_url in fetching:
return
print('fetching %s' % current_url)
# 如果不存在添加到集合当中
fetching.add(current_url)
# 从新放入的链接中继续获取链接
urls = yield get_links_from_url(current_url)
# 将已经请求玩的url放入第二个集合
fetched.add(current_url)
for new_url in urls:
# Only follow links beneath the base URL
# 如果链接是以传入的url开始则放入队列
if new_url.startswith(base_url):
yield q.put(new_url)
finally:
# 队列内数据减一
q.task_done()
@gen.coroutine
def worker():
while True:
# 保证程序持续运行
yield fetch_url()
# 将第一个url放入队列
q.put(base_url)
# Start workers, then wait for the work queue to be empty.
for _ in range(concurrency):
# 启动对应数量的worker
worker()
# 等待队列数据处理完成
yield q.join(timeout=timedelta(seconds=300))
# 如果两个集合不相等抛出异常
assert fetching == fetched
# 打印执行时间
print('Done in %d seconds, fetched %s URLs.' % (
time.time() - start, len(fetched)))
if __name__ == '__main__':
io_loop = ioloop.IOLoop.current()
io_loop.run_sync(main)
来源:https://blog.csdn.net/wf134/article/details/79900407


猜你喜欢
- import pyperclipimport pyautogui# PyAutoGUI中文输入需要用粘贴实现# Py
- 启动服务发生1067错误:1.删除datadir 下的用户数据库文件 和 日志文件 (ib_logfile0,ib_logfile1)。2.
- 为什么你写的sql查询慢?为什么你建的索引常失效?通过本章内容,你将学会MySQL性能下降的原因,索引的简介,索引创建的原则,explain
- PyQt5不规则窗口实现动画效果实例import sysfrom PyQt5.QtCore import *from PyQt5.QtGui
- 1. ADO.NET 方式连接Mysql数据库 经过在网上查找资料,在.net 上连接mysql 数据库有三种方式: 方法一: 使用Core
- 简介单例模式是创建型对象的一种,用于如何优雅的创建对象。让一个类最多产生一个对象。场景只需要一个对象就能解决并且要使用多次的场景,比如框架的
- 1.颜色空间转换(RGB转HSV)为了较准确的调红色和绿色的HSV,我使用cv2.createTrackbar()函数创建了六个滚动条#创建
- 我很想自己写一个这样的程序,不过wordpress是php的,我blog是ASP的,只好用ASP写代码了。经过一番折腾测试,终于让我的梦想变
- 前面一篇文章有说过,利用scrapy来爬取图片,是为了对图片数据进行分类而收集数据。本篇文章就是利用上次爬取的图片数据,根据图片的颜色特征来
- 本文实例讲述了php实现的简单日志写入函数。分享给大家供大家参考。具体实现方法如下:function log( $logthis ){fil
- 本文实例讲述了sql server实现在多个数据库间快速查询某个表信息的方法。分享给大家供大家参考,具体如下:最近出来实习,所在公司的服务器
- 在SQL语句优化过程中,我们经常会用到hint,现总结一下在SQL优化过程中常见Oracle HINT的用法:1. /*+ALL_ROWS*
- 平面设计 常用尺寸 三折页广告 标准尺寸: (A4)210mm x 285mm普通宣传册 标准尺寸: (A4)210mm x 285mm文件
- 网上学习了的两个新方法,代码非常之简洁。看来,不是只要实现了基本功能就能交差滴,想要真的学好python还有很长的一段路呀方法一:是利用ma
- 上节基本完成了SVM的理论推倒,寻找最大化间隔的目标最终转换成求解拉格朗日乘子变量alpha的求解问题,求出了alpha即可求解出SVM的权
- HTML文件 一、 设置编码UTF-8对于中文网页需要使用<meta charset="utf-8">声明编
- Windows下MySQL的安装和删除,供大家参考,具体内容如下安装Mysql1 下载mysql下载地址1;下载地址22 安装教程2.1配置
- Pandas库中有iloc和loc以及ix可以用来索引数据,抽取数据。但是方法一多也容易造成混淆。下面将一一来结合代码说清其中的区别。1.
- 1.安装pip我的个人桌面系统用的linuxmint,系统默认没有安装pip,考虑到后面安装requests模块使用pip,所以我这里第一步
- 问题描述当前使用的PyCharm社区版版本号2022.1.2,配置镜像源时,没有manage repositories解决方案:镜像源:清华