python 如何使用find和find_all爬虫、找文本的实现
作者:狗风暴 发布时间:2023-09-30 02:01:46
这篇文章我们来讲讲如何在python使用bs4模块返回值中正确使用find和find_all来取值。
我们先来看看find函数在两种场景使用: 一、 find在字符串(str)时可以查找使用。
在字符串(str)是怎么来使用find函数,find函数就是找到的意思。
我们来看看下面案例
#---------案例1-----------
a='0123456789'#因为我们电脑中的字节都是从0开始算第一个位置
b=a.find('0')#这行代码的意思就是我要查找a中0的位置
print(b)
>>0
#这里就是打印出来的内容
应为0在a中的第0个位置
在来试试第二个案例
#---------案例2-----------
a='0123456789'
b=a.find('5')#我要查找a中5的位置
print(b)
>>5
其中你要查找的内容不在a中,则会返回 -1 。在str中的使用方法说到这里。
二、 find在bs4模块返回值中怎么使用
我们在课堂上学过,bs4返回的值是 <class 'bs4.BeautifulSoup'>
假设我把把bs4返回的值赋值给 bs
这时我们就要用 bs.find(class_=‘one')
这个代码就是在bs值中从上往下找,找到第一个类等于one的值。
如果下图
从上到下找是不是我标出来蓝色区域是我要找的类,对的我们把他赋值给one,我们把他打印出来
print('one')
这时候系统就会返回这样一个值给我们,如下图
大家看,他返回的是从 class='one
'开始到这个类标签ul结束,对的,他不会返回其他值,他只会返回这个类的标签开始到结束。
所以当bs4返回值时,第一步使用find找打包含自己要找的所有值中第一个父类,再赋值给函数,这样这个函数就是我们进行下一步查找的对象。
接下俩我们就还可以使用find
(找到)或者find_all(
找到全部一样的),来定位函数位置,像图中:
class="navbar-branding
"就只有一个,我们像打印出 开发者的网上家园 怎么写
这时候我们假设,上面bs.find(class_='one')
赋值给one函数那么我们就从one开始查找one.find(class="navbar-branding")
这样查找出来的内哦让那个就会返回给我们这个区域内容
然后这个区域的文字再title值里面,我们就没办法直接用 .text 取值了,所以我们要接着查找
将one.find(class="navbar-branding")
赋值给 one_1
然后用 one_1.find('a')
来查找到a标签
后面加一个中括号取值[‘title']这样打印出来内容就是“开发者的网上家园”了。
连起来就是这样写
print(one_1.find('a') ['title'])
下面我们把代码连起来打一遍看图
看代码
one=bs.find(class_='one')
one_1=one.find(class="navbar-branding")
print(one_1.find('a') ['title'])
>>开发者的网上家园
#这就是最后返回的值
就这么简单。
三、 find_all在bs4模块返回值中怎么使用
还是用上图举例
我们可以看到如果我要取下面的 li 标签中的值怎么办
这时候我们就得用到find_al了(查找全部一样的)
先补充代码到这个li标签的父类
one=bs.find(class_='one')
one_1=one.find(class="navbar-branding")
然后我们用one_1来取值如下代码
one_1.find_all('li')#这时候我们取值了再one_1区域中所有有li便签的内容
他会返回给我们一个列表
列表时这样的
<li>…</li>,<li>…</li>,<li>…</li>,<li>…</li>,<li>…</li>,<li>…</li>
每一个区域就是一个内容,中间的。。。我时为了图省事,其实都是内容。
竟然得到这样的一个列表我们就可以使用for I in one_1.find_all('li')
这样取遍历出这个列表的东西,然后取值,
或者我只要其中一个就是ne_1.find_all('li')[2]
后面加一个数字,
列表取值大家应该都会把,这样就可以定位到我们想要的东西了。
总结一下find就是查找某一项的第一个数据,find_all就是找所有数据,然后用for遍历就能取出
来源:https://blog.csdn.net/weixin_50123771/article/details/109077446


猜你喜欢
- 本文实例讲述了php替换字符串中间字符为省略号的方法。分享给大家供大家参考。具体分析如下:对于一个长字符串,如果你只希望用户看到头尾的部分内
- 本文主要介绍了用OpenCV进行年龄和性别检测的实现示例,分享给大家,具体如下:在本文中,我将带您完成用 Python 进行机器学习的年龄和
- 发现pyautocad模块:可以用python控制autocad的包。今天把文档中的重点内容摘录出来,以后绘图、计算大工程量、或者识别施工图
- 在学习Python的过程中,一直没有找到比较趁手的第三方编辑器,用的最多的还是Python自带的编辑器。由于本人用惯了宇宙第一IDE(Vis
- 第一步、导入需要的包import osimport scipy.io as sioimport numpy as npimport torc
- 本文实例讲述了Python多线程编程之多线程加锁操作。分享给大家供大家参考,具体如下:Python语言本身是支持多线程的,不像PHP语言。下
- 这些日子一直在简书上使用markdown写作,已经渐渐的痴迷于这种简洁纯粹的写作方式了。不过就我逐渐入门markdown的写作过程来看,目前
- 业务场景:关联不同数据库中的表的查询比如说,要关联的表是:机器A上的数据库A中的表A && 机器B上的数据库B中的表B。这种
- 目录解决方案:1. IGNORE2. REPLACE3. ON DUPLICATE KEY UPDATE我们插入数据的时候,有可能碰到重复数
- 本文实例讲述了python常见字符串处理函数与用法。分享给大家供大家参考,具体如下:1、find 作用:在一个较长字符串中查找子串。返回子串
- IE 浏览器中 CSS Expression 特性的最大的问题:会反复执行,每秒钟可能执行了成百上千次,有严重的性能问题。如何对 CSS E
- 如果按本文操作遇到一些问题报错,如C:\Users\milyyy\AppData\Roaming\npm-cache\_logs\2018-
- 前几天同学要我帮他做个国际聊天室,要求能够将聊天的内容自动翻译成多国语言.本来想用worldlink的翻译服务,但是用ajax很难获得结果,
- 一、题目内容给定一个非负整数 num。对于 0 ≤ i ≤ num 范围中的每个数字 i ,计算其二进制数中的
- 起因很单纯,就是给我1年级小豆包的女儿标注三国和西游章节的汉语拼音,我女儿每天
- 本文实例为大家分享了js选项卡切换的具体代码,可以手动切换,另设置定时器可使其自动切换,供大家参考,具体内容如下效果如图:具体代码:<
- 我就废话不多说了,大家还是直接看代码吧~# 导入pptx包from pptx import Presentationprs = Presen
- 本文介绍了pandas中的series数据类型详解,分享给大家,具体如下:import pandas as pdimport numpy a
- 1.如何定位并优化慢查询sqla.根据慢日志定位慢查询sqlSHOW VARIABLES LIKE '%query%' &
- 基于之前的文章方法,加入批处理命令即可实现自动备份。只是由于批处理命令中对于备份文件的名字按照时间命名比较特别,所以特别整理一文。1、复制d