Python的爬虫包Beautiful Soup中用正则表达式来搜索
作者:crifan 发布时间:2022-12-29 07:15:34
标签:Python,BeautifulSoup
Beautiful Soup使用时,一般可以通过指定对应的name和attrs去搜索,特定的名字和属性,以找到所需要的部分的html代码。
但是,有时候,会遇到,对于要处理的内容中,其name或attr的值,有多种可能,尤其是符合某一规律,此时,就无法写成固定的值了。
所以,就可以借助正则表达式来解决此问题。
比如,
<div class="icon_col">
<h1 class="h1user">crifan</h1>
</div>
对应的BeautifulSoup代码如下:
h1userSoup = soup.find(name="h1", attrs={"class":"h1user"});
而如果html是这种:
<div class="icon_col">
<h1 class="h1user">crifan</h1>
<h1 class="h1user test1">crifan 123</h1>
<h1 class="h1user test2">crifan 456</h1>
</div>
那么想要一次性地找到所有的,符合条件的h1的部分的代码,则之前的写法,就只能找到单个的class="h1user"的部分,剩下的两个
class="h1user test1"
和
class="h1user test2"
就找不到了。
那么,此时,就可以用到,BeautifulSoup中非常好用的,非常强大的功能:
attrs中支持正则表达式的写法
了。
就可以写成:
h1userSoupList = soup.findAll(name="h1", attrs={"class":re.compile(r"h1user(\s\w+)?")});
就可以一次性地,找到:
class="h1user"
class="h1user test1"
class="h1user test2"
了。
<div aria-lable="xxx">
之类的标签,xxx的内容未知(可变)的前提下
想要查找到对应的此div标签,之前不知道如何实现。
如果写成:
sopu.findAll("div", attrs={"aria-lable": "xxx"});
则xxx必须写出来,如果不写出来属性值,也就没法用上attrs了,就没法实现此处查找特性属性值的标签了。
所以针对:
<div aria-label="5星, 747 份评分" class="rating" role="img" tabindex="-1">
<div>
<span class="rating-star">
</span>
<span class="rating-star">
</span>
<span class="rating-star">
</span>
<span class="rating-star">
</span>
<span class="rating-star">
</span>
</div>
<span class="rating-count">
747 份评分
</span>
</div>
可以通过:
soup.findAll("div", attrs={"aria-lable": True});
去查找到属性包含aria-lable的div标签的。
所以,对于上面的,之前不知道如何处理:
用BeautifulSoup查找未知属性值,但是已知属性的名字的标签
则此处,就可以针对:
<div aria-lable="xxx">
去用:
sopu.findAll("div", attrs={"aria-lable": True});
就可以查找到对应的包含属性aria-lable的div标签了。


猜你喜欢
- javascript 数组Array(list)添加/删除unshift:将参数添加到原数组开头,并返回数组的长度pop:删除原数组最后一项
- 一、JavaScript中创建数组的方式(1)使用 Array 构造函数:var arr1 = new Array(); //创建
- Python是一门清晰简洁的语言,如果你对一些细节不了解的话,就会掉入到那些深不见底的“坑”里,下面,我就来总结一些Python里常见的坑。
- 本文实例讲述了MySQL 事务概念与用法。分享给大家供大家参考,具体如下:事务的概念MySQL事务是一个或者多个的数据库操作,要么全部执行成
- 1. 安装 Git在 Windows 系统中安装Git非常简单,只需要下载Git的安装包,然后安装引导点击安装即可:Git下载地址:http
- MySQL数据库恢复到指定时间点时,我们必须通过MySQL全备+MySQL增量备份(可选)+MySQL的二进制日志(binlog)进行重放来
- 函数名:FenYe(url,pageCount,recordCount,curPage,cssstyle)  
- get_template()中使用子目录把所有的模板都存放在一个目录下可能会让事情变得难以掌控。 你可能会考虑把模板存放在你模板目录的子目录
- 1.建表代码如下:-- Create table create table test ( dm1 char(3), dm2 char(3),
- 一般来说,通过c.Request.FormFile()获取文件的时候,所有内容都全部读到了内存。如果是个巨大的文件,则可能内存会爆掉;且,有
- 一:安装Anaconda和Tensorflow步骤:1:从官方网站下载Anacondahttps://www.anaconda.com/do
- Python 爬虫包含两个重要的部分:正则表达式和Scrapy框架的运用, 正则表达式对于所有语言都是通用的,网络上可以找到各种资源。如下是
- 第一步——安装MySQL 到http://dev.mysql.com/downloads/ 下载这个服务器、MySQL GUI工具和MySQ
- 在大多数语音识别任务中,我们都缺少文本和音频特征的alignment,Connectionist Temporal Classificati
- 这个javascript划词搜索功能,在很多地方我们都会看到,特别是装了浏览器插件的时候,当我们用鼠标选择一段文字的时候,就会出现搜索提示,
- 对于手动管理内存的语言,比如 C/C++,调用著名的malloc和new函数可以在堆上分配一块内存,这块内存的使用和销毁的责任都在程序员。一
- 1、返回json响应结果在struct的字段后面加入json:"key"可以进行json格式输出,其中key为json的
- 视频才用流媒体,有后台实时返回数据, 要支持flash播放, 所以需安装对应的flash插件。当视频播放时,每间隔3秒向后台发送请求供检测心
- MySQL是一个关系型数据库管理系统,官方网站是http://www.mysql.com/,分为MySQL Enterprise Editi
- 最常用的数值类型是int,但是它未必是最佳选择。bigint,smallint,tinyint可以应用在特殊场合。他们的特性如下表所示:Da