Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析
作者:Summer哥 发布时间:2023-10-13 08:08:24
前言
要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。
什么是Beautiful Soup
Beautiful Soup是一款高效的Python网页解析分析工具,可以用于解析HTL和XML文件并从中提取数据。
Beautiful Soup输入文件的默认编码是Unicode,输出文件的编码是UTF-8。
Beautiful Soup具有将输入文件自动补全的功能,如果输入的HTML文件的title标签没有闭合,则在输出的文件中会自动补全</title>,并且还可以将格式混乱的输入文件按照标准的缩进格式输出。
Beautiful Soup要和其他的解析器搭配使用,例如Python标准库中的HTML解析器和其他第三方的lxml解析器,由于lxml解析器速度快、容错能力强,因此一般和Beautiful Soup搭配使用。
初始化Beautiful Soup对象的代码:
html =
'''
<html><title>Hello Beautiful Soup</title><p>Hello</p></html>
'''
soup = BeautifulSoup(html,'lxml')
只需把第二个参数写成”lxml”即可使用lxml解析器初始化Beautiful Soup对象。
Beautiful Soup提供了三种选择器用去爬取节点中的数据,分别是节点选择器、方法选择器和CSS选择器。下面分别介绍着三个选择器的用法。
节点选择器:
HTML网页有title、p、a、head、tr、td等节点。通过Beautiful Soup对象+”.”+节点即可直接访问到节点。 Beautiful Soup对象+”.”+节点+”.”+string即可提取到节点的文本信息。
用法 | 描述 |
---|---|
soup.title | 选择第一个title节点 |
soup.title.string | 提取第一个title节点的文本信息 |
soup.title.attrs | 获取第一个title节点的所有属性,返回的结果的词典。 如果有class属性,则class属性返回的是list,class属性之间以空格当做分隔符 |
soup.p.contents | 获取第一个p节点的所有直接子节点。 该方法返回的是第一个p节点中包含的所有直接子字节点和文本, 不包含孙节点,两个节点之间的文本也当做是一个节点返回。 返回的结果是列表 |
soup.p.children | 返回第一个p节点的所有直接子节点,返回的结果是list_iterator对象 |
soup.p.descendants | 获取第一个p节点的所有子孙节点 |
soup.a.parent | 获取第一个a节点的父节点 |
soup.a.parents | 获取第一个a节点的所有祖先节点 |
soup.p.next_siblings | 获取第一个p节点的下一个兄弟节点 |
soup.p.previous_siblings | 获取第一个p节点的上一个兄弟节点 |
方法选择器:
根据传入的参数查找符合条件的节点。 下面是方法选择器提供的方法:
方法 | 描述 |
---|---|
find_all(name,attrs,recursive,text,**kwargs) | 根据传入参数查找所有符合条件的节点, name是节点名,attrs属性值,text文本内容等。 text参数可以是字符串,也可以是正则表达式: soup.find_all(text=re.compile(‘test')) |
find(name,attrs,recursive,text,**kwargs) | 返回第一个符合条件的节点 |
find_parents() | 返回所有祖先节点 |
find_parent() | 返回父节点 |
find_next_siblings() | 往后查找,所有兄弟节点 |
find_next_sibling() | 往后查找,返回第一个兄弟节点 |
find_previous_siblings() | 往前查找,返回所有兄弟节点 |
find_previous_sibling() | 往前查找,返回第一个兄弟节点 |
在使用上面的方法时,如果参数中有Python的关键字,则需要在参数下面加一个下划线,例如下面的代码,class是Python的关键字,必须在class后加下划线class_=”title_class”:
from bs4 import BeautifulSoup
html = '''
<html>
<body>
<title id="title_id" class="title_class" name="title name">Test BeautifulSoup</title>
<p>
<a href = "./test_beautifulsoup.html">test beautifulsoup link<a>
</p>
<ul>
<li class="animal">cat</li>
<li class="animal">dog</li>
</ul>
</body>
</html>
'''
soup = BeautifulSoup(html,'lxml')
print(soup.find_all(name='title',class_='title_class'))
CSS选择器:
BeautifulSoup还支持获取css元素,例如ul、div、li等元素。CSS选择器主要提供select()方法获取符合条件的节点(Tag对象),然后通过节点的get_text()方法和text属性可以获取该节点的文本值。
select方法还可以根据css的样式规则选择相应的节点:
from bs4 import BeautifulSoup
html = '''
<html>
<body>
<title id="title_id" class="title_class" name="title name">Test BeautifulSoup</title>
<p>
<a href = "./test_beautifulsoup.html">test beautifulsoup link<a>
</p>
<ul class="animal" id="aninal_id">
<li class="cat">cat</li>
<li class="animal dog">dog</li>
</ul>
<ul class="fruit" id = "fruit_id">
<li class="apple">apple</li>
<li class="banana">banana</li>
</ul>
</body>
</html>
'''
soup = BeautifulSoup(html,'lxml')
print('获取id为title_的所有节点')
print(soup.select('#title_id'))
print('获取class为title_的所有节点')
print(soup.select('.title_class'))
print('获取所有ul节点下面的所有li节点')
print(soup.select('ul li'))
print('获取所有class为fruit节点下的所有li节点')
print(soup.select('.fruit li'))
print('获取所有class为fruit节点下的第一个li节点的文本值')
print(soup.select('.fruit li')[0].string)
print('获取所有class为fruit节点下的第一个li节点的文本值')
print(soup.select('.fruit li')[0].get_text())
print('获取所有class为fruit节点下的第一个li节点的class属性值,注意class属性返回的是list列表,属性之间用空格分隔')
print(soup.select('.fruit li')[0].attrs['class'])
print(soup.select('.animal li')[1].attrs['class'])
print('循环迭代所有ul下面的所有li节点的文本值')
for li in soup.select('ul li'):
print(li.text)
下面使用Beautiful Soup爬取豆瓣音乐排行榜。 在浏览器中打开豆瓣音乐排行榜,打开浏览器,输入网址:https://music.douban.com/chart,我们要抓取的是每首歌曲的排名、歌曲名、演唱者、播放次数、上榜天数等数据。
下面分析怎么通过beautiful soup抓取到我们的数据。 通过开发者工具,我们可以看到所有歌曲是在class为article的div中,然后每首个在class为clearfix的li中。
因此首先使用css选择器获取到class为article下面的所有li节点:
soup.select(".article li")
然后查看每首歌曲的html代码:
红色框部分是一首歌的html代码。 歌曲排名在class为“gree-num-box”的span节点中,因为span节点是<li class="clearfix">节点的子节点,获取排名的代码为:li.span.text
绿色框中A节点中是歌曲的链接和图片链接,获取歌曲链接的代码为:li.a['href']
蓝色框中是歌曲的名字、演唱者和播放次数,歌曲名是在class=”icon-play”的H3节点中,因此可以使用方法选择器中的find()方法获取到H3节点,然后获取H3节点下面a节点中的文本信息就是歌曲的名字,代码为:li.find(class_="icon-play").a.text
获取演唱者和播放次数的代码为: li.find(class_="intro").p.text.strip()
获取上榜天数的代码为:
li.find(class_="days").text.strip()
在豆瓣音乐排行榜的页面一个现实20首歌曲,前面10首歌曲会有图片,后面10首歌曲是没有图片的,因此后面10首歌曲将不获取图片的地址。
另外还有一点需要注意的是,后面10首歌曲的演唱者和播放次数是在class=”icon-play”的p节点中:
而该节点中有a节点,要想获取a节点外的信息,必须使用节点选择器的contents方法: li.find(class_="intro").p.contents[2].strip() contents返回的是p节点的直接子节点,以列表的形式返回,这里返回列表中有3个元素,分别是<p>后的字符串,a节点、演唱者/播次数。contents会将直接子节点之间的换行符也当做一个元素。 代码整理后如下:
# coding:utf-8
from bs4 import BeautifulSoup
import requests
def parseHtml(url):
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}
response = requests.get(url,headers=headers)
soup = BeautifulSoup(response.text,'lxml')
#使用css选择器获取class="article"的节点下面的所有li节点
for index,li in enumerate(soup.select(".article li")):
if(index <10):
print('歌曲排名:' + li.span.text)
print('歌曲链接:' + li.a['href'])
print('歌曲名:' + li.find(class_="icon-play").a.text)#使用方法选择器
print('演唱者/播放次数:' + li.find(class_="intro").p.text.strip())
print('上榜时间:'+li.find(class_="days").text.strip())
else:
print('歌曲排名:' + li.span.text)
print('歌曲名:' + li.find(class_="icon-play").a.text)
print('演唱者/播放次数:' + li.find(class_="intro").p.contents[2].strip())#方法选择器和节点选择器搭配使用
print('上榜时间:' + li.find(class_="days").text.strip())
print('—————————————————强力分隔符———————————————————')
def main():
url = "https://music.douban.com/chart"
parseHtml(url)
if __name__ == '__main__':
main()
本文通过爬取豆瓣音乐排行榜的小项目学习了如何使用Beautiful Soup的节点选择器、方法选择器、CSS选择器来爬取一个网页。这三个选择器可以混合搭配使用。
来源:http://www.bigdata17.com/2018/11/26/pythonbeautifulsoap.html


猜你喜欢
- 1. 简介本文介绍使用sync.Once来实现单例模式,包括单例模式的定义,以及使用sync.Once实现单例模式的示例,同时也比较了其他单
- mysql 下载安装配置 5.7.20 / 5.7.21,供大家参考,具体内容如下1、下载mysql,下载地址选择操作系统和版本,我是64位
- 如下所示:# -*- coding=utf-8 -*- import urllib2import socketimport timeurls
- Django视图函数执行,不在主线程中,直接loop = asyncio.new_event_loop() # 不能loop = async
- 网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket,一般在配置部署mysql环境时都会在mysql的m
- 一、条件语句条件语句能够改变Python程序的执行流程,是执行这个代码块还是另一个代码块。凡是需要判断来确定下一步如何执行的程序都要使用条件
- 前言:在生活中工作中,我们经常使用Excel用于储存数据,Tableau等BI程序处理数据并进行可视化。我们也经常使用R、Python编程进
- 金额大小写转换的asp完全无错版本, 这个版本解决了小数位不能到分的问题,处理方式符合会计方式,值得推荐!<!--#inc
- 一、背景:在平时工作中有遇到端口检测,查看服务端特定端口是否对外开放,常用nmap,tcping,telnet等,同时也可以利用站长工具等w
- 1. 使用 fileinput 进行迭代fileinput 模块可以对一个或多个文件中的内容进行迭代、遍历等操作。该模块的 input()
- 数据库中内置函数的使用该篇主要介绍数据库中内置函数的使用,主要有日期函数,字符串函数,数学函数。(一)日期函数select current_
- hmac模块hmac模块用于生成HMAC码。这个HMAC码可以用于验证消息的完整性,其原理也很简单,就是一种加入了密钥的消息摘要,相比起MA
- 本地路径的创建在做下载操作时,我们一般先把文件下载到本地指定的路径下,然后再做其他使用。为了防止程序出现异常,我们通常需要先判断本地是否存在
- 前言在此之前,我认为 Python 的类型提示就是一个花瓶,看起来好看,但并没有实质的作用,因为即使类型写错了,或者传错了,程序仍然可以运行
- 一、编写Python脚本[root@lidabai ~]# vim harbor_clearimage.py# -*- coding:utf
- 在Golang中,如何将一个结构体转成map? 本文介绍两种方法。第一种是是使用json包解析解码编码。第二种是使用反射,使用反射的效率比较
- 一、 腐蚀与膨胀1.1 腐蚀操作import cv2import numpy as npimg = cv2.imread('Data
- 目录实践步骤完整代码参考实践步骤1.寻找合适的Python库(安装是否麻烦、使用是否简便、执行会不会太久)moviepy 音视频库。分析需要
- 本文用纯js代码手写一个瀑布流网页效果,初步实现一个基本的瀑布流布局,以及滚动到底部后模拟ajax数据加载新图片功能。缺点:1. 程序不是响
- 在使用Ajax过程中,有时候总会遇到一些难题,浏览器兼容、编码、IE下的特殊处理等等,偶尔会搞的人头昏脑胀哭笑不得,这里列一些小贴士,或许有