Python爬虫程序架构和运行流程原理解析
作者:躬耕南阳 发布时间:2023-10-04 16:04:24
1 前言
Python开发网络爬虫获取网页数据的基本流程为:
发起请求
通过URL向服务器发起request请求,请求可以包含额外的header信息。
获取响应内容
服务器正常响应,将会收到一个response,即为所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。
解析内容
如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件做进一步处理。
保存数据
可以保存到本地文件,也可以保存到数据库(MySQL,Redis,MongoDB等)。
2 爬虫程序架构及运行流程
网络爬虫程序框架主要包括以下五大模块:
爬虫调度器
URL管理器
HTML下载器
HTML解析器
数据存储器
五大模块功能如下所示:
爬虫调度器:主要负责统筹其它四个模块的协调工作。
URL管理器:负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。
HTML下载器:用于从URL管理器中获取未爬取的URL链接并下载HTML网页。
HTML解析器:用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
数据存储器:用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来。
网络爬虫程序框架的动态运行流程如下所示:
3 小结
本文简要介绍了Python开发网络爬虫的程序框架,将网络爬虫运行流程按照具体功能划分为不同模块,以便各司其职、协同运作。搭建好网络爬虫框架后,能够有效地提高我们开发网络爬虫项目的效率,避免一些重复造车轮的工作。
来源:https://www.cnblogs.com/yangmi511/p/12448067.html


猜你喜欢
- 因为我使用的是mmsql数据库,因为遇到一点坑,所以发布出来。准备工作:https://www.lfd.uci.edu/~gohlke/py
- 概述固定长度,数组声明后长度便不能再修改只能存储一种特定类型元素的序列语法编号方式代码示例1直接声明var arr [3]int2makea
- var getWindow = function(obj) { var&nbs
- 前些天用python处理xml的转换的一个小程序,用来把xml,xsl转换成html。用的libxml2,所以还要先安装了libxml2模块
- 前言本文主要介绍了关于利用python将图片转换成excel文档的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧。
- PHP5.4后新增traits实现代码复用机制,Trait和类相似,但不能被实例化,无需继承,只需要在类中使用关键词use引入即可,可引入多
- 最近做百度地图的模拟数据,需要获取某条公交线路沿途站点的坐标信息,貌似百度没有现成的API,因此做了一个模拟页面,工具而已,IE6/7/8不
- <?php // fix 404 pages: header('HTTP/1.1 200 OK'); // set 4
- 一、基本思想本文思想是基于用asp和DOM来读取和存储XML数据,并利用XML数据来存储留言信息,达到同用数据库存储数据的功能。二、XML留
- 这篇文章主要介绍了Python和Sublime整合过程图示,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要
- 下面的查询选择所有 date_col 值在最后 30 天内的记录。 mysql> SELECT something FROM tbl_
- 1、if条件选择# coding:utf-8num = 23if num>2:print("dayu")if nu
- 背景MySQL在命令行输入密码时会提示mysql: [Warning] Using a password on the command li
- 1. 命令行不知道大家在日常操作redis时用什么可视化工具呢?以前总觉得没有什么太好的可视化工具,于是问了一个业内朋友。对方回:你还用可视
- 视频地址我用20行代码,帮女神破解相册密码一、事情是这样的今早上班,公司女神小姐姐说,她去年去三亚旅游的照片打不开了好奇问了一下才知道。原来
- redis-pyredis-py是Python操作Redis的第三方库,它提供了与Redis服务器交互的API。GitHub地址:https
- 我就废话不多说了,大家还是直接看代码吧!import requests, jsonr = requests.get('http://
- center()方法返回集中在长度宽度的字符串。填充是通过使用specifiedfillchar。默认填充字符是一个空格。语法以
- 1.不装入数据库而启动事例 可以不装入数据库而启动事例,一般是在数据库才创建时才可以这样做:STARTUP NOMOUNT2.启动事例并装入
- 在继承的使用上,我们最早接触的是父类和子类的继承。不过Flask框架中的继承要简单一些,只要有一个原文件,便可以对其进行继承和修改的操作了。