Python实现简易Web爬虫详解
作者:洛荷 发布时间:2021-12-11 01:29:16
简介:
网络爬虫(又被称为网页蜘蛛),网络机器人,是一种按照一定的规则,自动地抓信息的程序或者脚本。假设互联网是一张很大的蜘蛛网,每个页面之间都通过超链接这根线相互连接,那么我们的爬虫小程序就能够通过这些线不断的搜寻到新的网页。
Python作为一种代表简单主义思想的解释型、面向对象、功能强大的高级编程语言。它语法简洁并且具有动态数据类型和高层次的抽象数据结构,这使得它具有良好的跨平台特性,特别适用于爬虫等程序的实现,此外Python还提供了例如Spyder这样的爬虫框架,BeautifulSoup这样的解析框架,能够轻松的开发出各种复杂的爬虫程序。
在这篇文章中,使用Python自带的urllib和BeautifulSoup库实现了一个简单的web爬虫,用来爬取每个URL地址及其对应的标题内容。
流程:
爬虫算法从输入中读取的一个URL作为初始地址,向该地址发出一个Request请求。
请求的地址返回一个包含所有内容的,将其存入一个String变量,使用该变量实例化一个BeautifulSoup对象,该对象能够将内容并且将其解析为一个DOM树。
根据自己的需要建立正则表达式,最后借助HTML标签从中解析出需要的内容和新的URL,将新的放入队列中。
对于目前所处的URL地址与爬去的内容,在进行一定的过滤、整理后会建立索引,这是一个单词-页面的存储结构。当用户输入搜索语句后,相应的分词函数会对语句进行分解获得关键词,然后再根据每个关键词查找到相应的URL。通过这种结构,可以快速的获取这个单词所对应的地址列表。在这里使用树形结构的存储方式,Python的字典和列表类型能够较好的构建出单词词典树。
从队列中弹出目前的URL地址,在爬取队列不为空的条件下,算法不断从队列中获取到新的网页地址,并重复上述过程。
实现:
环境:
Python3.5orAnaconda3
BeautifulSoup4
可以使用下面的指令安装BeautifulSoup4,如果你是Ubuntu用户,记得在命令前面加上sudo:
pip install beautifulsoup4
程序分别实现了几个类,分别用于URL地址管理,Html内容请求、Html内容解析、索引建立以及爬虫主进程。我将整个程序按照每个Class分开解释,最后只要将他们放在一起就可以执行代码了。
UrlManager类
这个类用来管理URL地址,new_urls用来保存还未爬取的URL地址,old_urls保存了已经爬取过的地址,两个变量都使用set类型保证其中内容的唯一性。每次循环时,add_new_urls()向外提供了向new_urls变量中添加新urls的方法;add_new_url()方法,对每个url地址进行重复性检查,符合条件的才进行添加操作;get_urls()向外提供了获取新的url地址的方法;has_new_url()方法用来检查爬取队列是否为空。
import re
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup
class UrlManager(object):
def __init__(self):
self.new_urls = set()
self.old_urls = set()
def add_new_url(self, url):
if url is None:
return
if url not in self.new_urls and url not in self.old_urls:
self.new_urls.add(url)
def add_new_urls(self, urls):
if urls is None or len(urls) == 0:
return
for url in urls:
self.add_new_url(url)
def has_new_url(self):
return len(self.new_urls) != 0
def get_new_url(self):
new_url = self.new_urls.pop()
self.old_urls.add(new_url)
return new_url
HtmlDownloader类
这个类实现了向url地址发送Request请求,并获取其回应的方法,调用类内的download()方法就可实现。这里要注意的是页面的编码问题,这里我使用的是UTF-8来进行decode解码,有的网页可能使用的是GBK编码,要根据实际情况进行修改。
class HtmlDownloader(object):
def download(self, url):
if url is None:
return None
try:
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8').encode('utf-8')
if content is None:
return None
if response.getcode() != 200:
return None
except urllib.request.URLError as e:
print(e)
return None
return content
HtmlParser类
这个类通过实例化一个BeautifulSoup对象来进行页面的解析。它是一个使用Python编写的HTML/XML文档解析器。它通过将文档解析为DOM树的方式为用户提供需要抓取的数据,并且提供一些简单的函数用来处理导航、搜索、修改分析树等功能。
该类的关键是_get_new_urls()、_get_new_content()、get_url_title()三个方法。第一个方法用来解析出页面包含的超链接,最为重要的选择要解析的标签并为其构造合适的正则表达式。这里我为a标签定义了一个匹配正则,用来获取所有的站内链接,如下:
links = soup.find_all('a', href=re.compile(r'^(%s).*(/|html)$' % self.domain))`
后面的两个类都是通过解析Html标签来获取title的方法,最终在parse()中通过调取_get_new_content()来获得title内容。具体的标签访问方法不细谈了,读者可以自己翻阅BeautifulSoup的官方文档。
class HtmlParser(object):
def __init__(self, domain_url):
self.domain = domain_url
self.res = HtmlDownloader()
def _get_new_urls(self, page_url, soup):
new_urls = set()
links = soup.find_all('a', href=re.compile(r'^(%s).*(/|html)$' % self.domain))
try:
for link in links:
new_url = link['href']
new_full_url = urllib.parse.urljoin(self.domain, new_url)
new_urls.add(new_full_url)
new_urls = list(new_urls)
return new_urls
except AttributeError as e:
print(e)
return None
def _get_new_content(self, page_url, soup):
try:
title_name = soup.title.string
return title_name
except AttributeError as e:
print(e)
return None
def get_url_title(self):
content = self.res.download(self.domain)
try:
soup = BeautifulSoup(content, 'html.parser', from_encoding='utf-8')
title_name = soup.title.string
return title_name
except:
title_name = 'None Title'
return title_name
def parse(self, page_url, html_cont):
if page_url is None or html_cont is None:
return None
soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')
new_data = self._get_new_content(page_url, soup)
new_urls = self._get_new_urls(page_url, soup)
return new_urls, new_data
BuildIndex
该类为每个URL地址与他的标题包含的关键词建立了一个索引关系并保存在一个Dict变量中,每个标题对应多个关键词,每个标题也对应多个url地址,因此每个关键词也对应了多个url地址,具体的形式如下:
index={'keyword':[url1,url2,...,urln],...}
其中,add_page_index()方法对每个标题进行了分词处理,并且调用了add_key_index()方法将keyword-url的对应关系存到索引中,这其中也进行了重复检查。主意,这个分词方法仅限于英文句子,中文的话需要用到特定的分词工具。
class BuildIndex(object):
def add_page_index(self, index, url, content):
words = content.split()
for word in words:
index = self.add_key_index(index, url, word)
return index
def add_key_index(self, index, url, keyword):
if keyword in index:
if url not in index[keyword]:
index[keyword].append(url)
else:
temp = []
index[keyword] = temp
index[keyword].append(url)
return index
SpiderMain
这是爬虫的主题类,它通过调用其他几个类生成的对象来实现爬虫的运行。该类实例化的时候会永久生成上面几个类的对象,当通过craw()方法获取到用户提供的url地址时,就会依次进行请求、下载、解析、建立索引的工作。最后该方法会返回index,graph两个变量,他们分别是:
每个关键词集齐对应的地址,keyword-urls索引,如下
index={'keyword':[url1,url2,...,urln],...}
每个url及其页面中包含的urls,url-suburls索引,如下
graph={'url':[url1,url2,...,urln],...}
class SpiderMain(object):
def __init__(self, root_url):
self.root_url = root_url
self.urls = UrlManager()
self.downloader = HtmlDownloader()
self.parser = HtmlParser(self.root_url)
self.build = BuildIndex()
def craw(self):
index = graph = {}
self.urls.add_new_url(self.root_url)
while self.urls.has_new_url():
try:
new_url = self.urls.get_new_url()
html_cont = self.downloader.download(new_url)
new_urls, new_title = self.parser.parse(new_url, html_cont)
index = self.build.add_page_index(index, new_url, new_title)
graph[new_url] = list(new_urls)
self.urls.add_new_urls(new_urls)
except Exception as e:
print(e)
return None
return index, graph
最后,我们在程序中添加下面的代码,就可以成功的执行我们的爬虫了
if __name__ == '__main__':
spider = SpiderMain('http://www.xael.org/')
index, graph = spider.craw()
print(index)
print(graph)
来源:https://www.jianshu.com/p/4231173ccc83
猜你喜欢
- 前言由于总是出错,记录一下连接MySQL数据库的过程。连接过程1.下载MySQL并安装,这里的版本是8.0.182.下载MySQL的jdbc
- 问题说明(环境:windows7,MySql8.0)今天安装好MySql后启动MySql服务-->启动服务都失败的就不要往下看了,自行
- 背景最近尝试了解Django中ORM实现的原理,发现其用到了metaclass(元类)这一技术,进一步又涉及到Python class中有两
- 日期包常用函数time.Now(): 获取当前时间package mainimport ( "fmt&q
- 每次的大版本更新为全世界的摄影、影视、设计师提供了一系列生产力工具电脑配置符合要求的小伙伴可以尝鲜啦。软件版本越高对电脑的配置要求就越高。目
- 目录背景法1,不适用法2,已不能用法3:Appnium法4:模拟操作整体代码后续工作及扩展总结背景由于课题需要爬取朋友圈的内容作为研究数据,
- 编写Python代码,大家都需要遵循PEP8,因此在pycharm中,如何设置每行最大长度限制,成为了一个小的知识盲点,在这里做一下记录,方
- 1.简介Psycopg是一种用于执行SQL语句的PythonAPI,可以为PostgreSQL、openGauss数据库提供统一访问接口,应
- 目录过程拍照用到的Python 操作库Python遍历文件夹获取图片旋转图片展示方向并压缩像素整体代码整体代码将脚本打包成exe安装&nbs
- 打桩测试当我们在编写单元测试的时候,有时我们非常想 mock 掉其中一个方法,但是这个方法又没有接口去定义和实现(无法用 gith
- python解释器有好多版本,Anaconda里面包含了python解释器,并且包含了很多其他的工具包,所以我们只安装1个Anaconda即
- 层次分析法(The analytic hierarchy process)简称AHP,在20世纪70年代中期由美国运筹学家托马斯.塞蒂(T.
- 在vue中使用ant-design-vue组件官方地址:Ant Design Vue1. 安装首先使用vue-cli创建项目,然后进入项目,
- Ubuntu Server 16.04下mysql8.0安装配置图文教程1.从Mysql官网上下载安装文件。有两种方式可供选择:使用APT安
- 07年,我是极力推崇网站规范制作,好处很多,对商业,对用户,对设计师。我们走了两年,现在有了一定的成效,我们也看到了规范所带来的好处和便利。
- 搞了一上午,头都大了!最终解决问题。其实这问题老早就遇上了,但是比较懒,三下两下没整好便推开了搜索了一下,产生< msxml3.dll
- 生成静态页的方法有很多种,我比较喜欢用xmlhttp的方法生成,因为我不用考虑很多东西,我只要把动态的asp页面编写好就行了。<% s
- 由于网上关于Timestamp类的资料比较少,而且官网上面介绍的很模糊,本文只是对如何创建Timestamp类对象进行简要介绍,详情请读者自
- 1:构图图形的层次感图形和元素之间的层次感,可以在干扰视觉的同时,突出自身所想体现的主题,这种表现方式往往是比较直接而且有效的方式。我们所说
- 这篇文章主要介绍了python主线程与子线程的结束顺序实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,