位置：首页>> 网络编程>> Python编程>> Python爬虫程序架构和运行流程原理解析

Python爬虫程序架构和运行流程原理解析

作者：躬耕南阳　　发布时间：2023-10-04 16:04:24　

标签：Python,爬虫,架构,流程

1 前言

Python开发网络爬虫获取网页数据的基本流程为：

发起请求

通过URL向服务器发起request请求，请求可以包含额外的header信息。

获取响应内容

服务器正常响应，将会收到一个response，即为所请求的网页内容，或许包含HTML，Json字符串或者二进制的数据（视频、图片）等。

解析内容

如果是HTML代码，则可以使用网页解析器进行解析，如果是Json数据，则可以转换成Json对象进行解析，如果是二进制的数据，则可以保存到文件做进一步处理。

保存数据

可以保存到本地文件，也可以保存到数据库（MySQL，Redis，MongoDB等）。

2 爬虫程序架构及运行流程

网络爬虫程序框架主要包括以下五大模块：

爬虫调度器
URL管理器
HTML下载器
HTML解析器
数据存储器

五大模块功能如下所示：

爬虫调度器：主要负责统筹其它四个模块的协调工作。
URL管理器：负责管理URL链接，维护已经爬取的URL集合和未爬取的URL集合，提供获取新URL链接的接口。
HTML下载器：用于从URL管理器中获取未爬取的URL链接并下载HTML网页。
HTML解析器：用于从HTML下载器中获取已经下载的HTML网页，并从中解析出新的URL链接交给URL管理器，解析出有效数据交给数据存储器。
数据存储器：用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来。

网络爬虫程序框架的动态运行流程如下所示：

3 小结

本文简要介绍了Python开发网络爬虫的程序框架，将网络爬虫运行流程按照具体功能划分为不同模块，以便各司其职、协同运作。搭建好网络爬虫框架后，能够有效地提高我们开发网络爬虫项目的效率，避免一些重复造车轮的工作。

来源：https://www.cnblogs.com/yangmi511/p/12448067.html

0

投稿

猜你喜欢

python配置mssql连接的方法
因为我使用的是mmsql数据库，因为遇到一点坑，所以发布出来。准备工作:https://www.lfd.uci.edu/~gohlke/py
Go语言基础数组用法及示例详解
概述固定长度，数组声明后长度便不能再修改只能存储一种特定类型元素的序列语法编号方式代码示例1直接声明var arr [3]int2makea
getWindow与isWindow
var getWindow = function(obj) { var&nbs
Python实现把xml或xsl转换为html格式
前些天用python处理xml的转换的一个小程序，用来把xml,xsl转换成html。用的libxml2，所以还要先安装了libxml2模块
利用python将图片转换成excel文档格式
前言本文主要介绍了关于利用python将图片转换成excel文档的相关内容，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧。
PHP中的traits实现代码复用使用实例
PHP5.4后新增traits实现代码复用机制，Trait和类相似，但不能被实例化，无需继承，只需要在类中使用关键词use引入即可，可引入多
通过百度地图获取公交线路的站点坐标的js代码
最近做百度地图的模拟数据，需要获取某条公交线路沿途站点的坐标信息，貌似百度没有现成的API，因此做了一个模拟页面，工具而已，IE6/7/8不
分享PHP header函数使用教程
<?php // fix 404 pages: header('HTTP/1.1 200 OK'); // set 4
XML编程实例: ASP+XML打造留言本
一、基本思想本文思想是基于用asp和DOM来读取和存储XML数据，并利用XML数据来存储留言信息，达到同用数据库存储数据的功能。二、XML留
Python和Sublime整合过程图示
这篇文章主要介绍了Python和Sublime整合过程图示,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要
mysql的日期和时间函数
下面的查询选择所有 date_col 值在最后 30 天内的记录。 mysql> SELECT something FROM tbl_
Python流程控制if条件选择与for循环
1、if条件选择# coding:utf-8num = 23if num>2:print("dayu")if nu
解决MySQL去除密码登录告警的问题
背景MySQL在命令行输入密码时会提示mysql: [Warning] Using a password on the command li
推荐几款 Redis 可视化工具(太厉害了)
1. 命令行不知道大家在日常操作redis时用什么可视化工具呢？以前总觉得没有什么太好的可视化工具，于是问了一个业内朋友。对方回：你还用可视
女神相册密码忘记了我只用Python写了20行代码
视频地址我用20行代码，帮女神破解相册密码一、事情是这样的今早上班，公司女神小姐姐说，她去年去三亚旅游的照片打不开了好奇问了一下才知道。原来
Python实现操作Redis的高级用法分享
redis-pyredis-py是Python操作Redis的第三方库，它提供了与Redis服务器交互的API。GitHub地址：https
python:解析requests返回的response(json格式)说明
我就废话不多说了，大家还是直接看代码吧！import requests, jsonr = requests.get('http://
简介Python中用于处理字符串的center()方法
center()方法返回集中在长度宽度的字符串。填充是通过使用specifiedfillchar。默认填充字符是一个空格。语法以
Oracle 启动例程 STARTUP参数说明
1．不装入数据库而启动事例可以不装入数据库而启动事例，一般是在数据库才创建时才可以这样做：STARTUP NOMOUNT2.启动事例并装入
Flask中jinja2的继承实现方法及实例
在继承的使用上，我们最早接触的是父类和子类的继承。不过Flask框架中的继承要简单一些，只要有一个原文件，便可以对其进行继承和修改的操作了。

python二叉树类以及其4种遍历方法实例

python障碍式期权定价公式

如何基于Python按行合并两个txt

OpenCV半小时掌握基本操作之分水岭算法

Keras 使用 Lambda层详解

可视化工具PyVista多线程显示多窗口的实例代码

如何安装多版本python python2和python3共存以及pip共存

python 日志模块logging的使用场景及示例

python操作xlsx格式文件并读取

Python人工智能之波士顿房价数据分析

这几个稍有难度的Word技巧，有必要学一下，其实方法很简单

Win10系统默认网关是什么?Win10默认网关详细介绍

让Win2000达到最佳性能

奶牛镇的小时光工厂水域在什么地方？工厂水域位置介绍

魔兽世界怀旧服WLK牧师宝石怎么选择

游戏王决斗链接冰火双重卡盒性价比怎么样

怎样用u盘安装win10系统?u盘安装win10教程

怎么去掉word页眉下划线？

Win10专业版如何安装dll文件？DLL文件的安装方法

凹凸世界嘉德罗斯技能是什么？

手机版 网络编程 asp之家 www.aspxhome.com