Python使用BeautifulSoup4修改网页内容的实战记录
作者:XieJava's?blog 发布时间:2023-04-10 15:59:56
标签:python,beautifulsoup4,使用
最近有个小项目,需要爬取页面上相应的资源数据后,保存到本地,然后将原始的HTML源文件保存下来,对HTML页面的内容进行修改将某些标签整个给替换掉。
对于这类需要对HTML进行操作的需求,最方便的莫过于 BeautifulSoup4 的库了。
样例的HTML代码如下:
<html>
<body>
<a class="videoslide" href="http://www.test.com/wp-content/uploads/1020/1381824922.JPG" rel="external nofollow" rel="external nofollow" >
<img src="http://www.test.com/wp-content/uploads/1020/1381824922_zy_compress.JPG" data-zy-media-id="zy_location_201310151613422786"/>
</a>
<a href="http://www.test.com/wp-content/uploads/1020/第一张_1381824798.JPG" rel="external nofollow" rel="external nofollow" >
<img data-zy-media-id="zy_image_201310151613169945" src="http://www.test.com/wp-content/uploads/1020/第一张_1381824798_zy_compress.JPG"/></a>
<a href="http://www.test.com/wp-content/uploads/1020/第二张_1381824796.jpg" rel="external nofollow" rel="external nofollow" >
<img data-zy-media-id="zy_image_201310151613163009" src="http://www.test.com/wp-content/uploads/1020/第二张_1381824796_zy_compress.jpg"/>
</a>
<a href="http://www.test.com/wp-content/uploads/1020/第三张.jpg" rel="external nofollow" rel="external nofollow" >
<img data-zy-media-id="zy_image_201312311838584446" src="http://www.test.com/wp-content/uploads/1020/第三张_zy_compress.jpg"/>
</a>
</body>
</html>
这里主要包括了 <a >
标签, <a >
标签里面嵌入了 <img >
标签,其中有 <a class="videoslide">
的标识该标签实际是可以播放动画的。需要根据 class="videoslide"
来判断将整个 <a >
标签换成播放器的 <video >
标签,将没有 class="videoslide"
的 <a >
标签换成 <figure>
标签。
也就是将带有的 <a class="videoslide" ...><img ... /></a>
标签换成
<div class="video">
<video controls width="100%" poster="视频链接的图片地址.jpg">
<source src="视频文件的静态地址.mp4" type="video/mp4" />
您的浏览器不支持H5视频,请使用Chrome/Firefox/Edge浏览器。
</video>
</div>
将 <a ....><img .../></a>
标签换成
<figure>
< img src="图片地址_compressed.jpg" data-zy-media-id="图片地址.jpg">
<figcaption>文字说明(如果有)</figcaption>
</figure>
这里通过BeautifulSoup4 的select()方法找到标签,通过get()方法获取标签及标签属性值,通过replaceWith来替换标签,具体代码如下:
首先安装BeautifulSoup4的库,BeautifulSoup4库依赖于lxml库,所以也需要安装lxml库。
pip install bs4
pip install lxml
具体代码实现如下:
import os
from bs4 import BeautifulSoup
htmlstr='<html><body>' \
'<a class="videoslide" href="http://www.test.com/wp-content/uploads/1020/1381824922.JPG" rel="external nofollow" rel="external nofollow" >' \
'<img src="http://www.test.com/wp-content/uploads/1020/1381824922_zy_compress.JPG" data-zy-media-id="zy_location_201310151613422786"/></a>' \
'<a href="http://www.test.com/wp-content/uploads/1020/第一张_1381824798.JPG" rel="external nofollow" rel="external nofollow" >' \
'<img data-zy-media-id="zy_image_201310151613169945" src="http://www.test.com/wp-content/uploads/1020/第一张_1381824798_zy_compress.JPG"/></a>' \
'<a href="http://www.test.com/wp-content/uploads/1020/第二张_1381824796.jpg" rel="external nofollow" rel="external nofollow" >' \
'<img data-zy-media-id="zy_image_201310151613163009" src="http://www.test.com/wp-content/uploads/1020/第二张_1381824796_zy_compress.jpg"/></a>' \
'<a href="http://www.test.com/wp-content/uploads/1020/第三张.jpg" rel="external nofollow" rel="external nofollow" >' \
'<img data-zy-media-id="zy_image_201312311838584446" src="http://www.test.com/wp-content/uploads/1020/第三张_zy_compress.jpg"/></a>' \
'</body></html>'
def procHtml(htmlstr):
soup = BeautifulSoup(htmlstr, 'lxml')
a_tags=soup.select('a')
for a_tag in a_tags:
a_tag_src = a_tag.get('href')
a_tag_filename = os.path.basename(a_tag_src)
a_tag_path = os.path.join('src', a_tag_filename)
a_tag['href']=a_tag_path
next_tag=a_tag.next
#判断是视频还是图片,如果a标签带了class="videoslide" 是视频否则是图片
if a_tag.get('class') and 'videoslide'==a_tag.get('class')[0]:
# 处理视频文件
media_id = next_tag.get('data-zy-media-id')
if media_id:
media_url = 'http://www.test.com/travel/show_media/' + str(media_id)+'.mp4'
media_filename = os.path.basename(media_url)
media_path = os.path.join('src', media_filename)
# 将div.video标签替换a标签
video_html = '<div class=\"video\"><video controls width = \"100%\" poster = \"' + a_tag_path + '\" ><source src = \"' + media_path + '\" type = \"video/mp4\" /> 您的浏览器不支持H5视频,请使用Chrome / Firefox / Edge浏览器。 </video></div>'
video_soup = BeautifulSoup(video_html, 'lxml')
a_tag.replaceWith(video_soup.div)
else:
#获取图片信息
if 'img'==next_tag.name:
img_src=next_tag.get('src')
# 判断是否路径是否为本地资源 data:image和file:
if img_src.find('data:image') == -1 and img_src.find('file:') == -1:
img_filename = os.path.basename(img_src)
img_path = os.path.join('src', img_filename)
# 将<figure><img>标签替换a标签
figcaption=''
figure_html='<figure><img src=\"'+img_path+'\" data-zy-media-id=\"'+a_tag_path+'\"><figcaption>'+figcaption+'</figcaption></figure>'
figure_soup = BeautifulSoup(figure_html, 'lxml')
a_tag.replaceWith(figure_soup.figure)
html_content = soup.contents[0]
return html_content
if __name__ == '__main__':
pro_html_str=procHtml(htmlstr)
print(pro_html_str)
结果:
<html>
<body>
<div class="video">
<video controls="" poster="src\1381824922.JPG" width="100%">
<source src="src\zy_location_201310151613422786.mp4" type="video/mp4"/> 您的浏览器不支持H5视频,请使用Chrome / Firefox / Edge浏览器。
</video>
</div>
<figure>
<img data-zy-media-id="src\第一张_1381824798.JPG" src="src\第一张_1381824798_zy_compress.JPG"/>
<figcaption></figcaption>
</figure>
<figure>
<img data-zy-media-id="src\第二张_1381824796.jpg" src="src\第二张_1381824796_zy_compress.jpg"/>
<figcaption></figcaption></figure>
<figure>
<img data-zy-media-id="src\第三张.jpg" src="src\第三张_zy_compress.jpg"/>
<figcaption></figcaption>
</figure>
</body>
</html>
总结
来源:https://xiejava.gitee.io/posts/1ca32c3a/


猜你喜欢
- 随着国家发展,中国很多城市的空气质量其实并不好,国家气象局会有实时统计,但是要去写爬虫爬取是十分麻烦的事情,并且官方网站也会做一些反爬虫措施
- DataFrame对象本质上是带有行列索引的二维矩阵,所以欲对DataFrame对象进行转置操作,需要交换行列索引,同时使二维矩阵转置。首先
- 最近的项目中大量涉及数据的预处理工作,对于ndarray的使用非常频繁。其中ndarray如何进行数值筛选,总结了几种方法。1.按某些固定值
- 最新的支持IE、firefox、chrome有提示信息的代码:<script type="text/javascript&q
- 由MySQL支持的列类型列在下面。下列代码字母用于描述中: M 指出最大的显示尺寸。最大的合法的显示尺寸是 255 。 D 适用于浮点类型并
- 本文实例讲述了php中使用key,value,current,next和prev函数遍历数组的方法。分享给大家供大家参考。具体分析如下:ph
- 一、使用ImageFolder读取数据集时忽略特定文件如果事先知道需要忽略哪些文件,当然直接从数据集里删除就行了。但如果需要在程序运行时动态
- 本文实例讲述了Python 网络编程之TCP客户端/服务端功能。分享给大家供大家参考,具体如下:demo.py(TCP客户端):import
- 前言MySQL8.0 开始支持不可见索引。 优化器根本不使用不可见索引,但会以其他的方式正常维护。默认情况下 索引是可见的。 通过不可见索引
- 虽然熟练掌握SQL的人对于Null不会有什么疑问,但总结得很全的文章还是很难找,看到一篇英文版的, 感觉还不错。Tony Hoare 在19
- 如果不用类库(如jquery)来写,往往很多时候,都需要通过id或tag来获取html里的某一对象,然后对其进行操作。为了节省代码,把常用的
- 在数据处理的时候,尤其在搞大数据竞赛的时候经常会遇到一个问题就是,多个表单的合并问题,比如一个表单有user_id和age这两个字段,另一个
- 本文实例讲述了Python基础之循环语句用法。分享给大家供大家参考,具体如下:while 循环Python中while语句的一般形式:whi
- 问题记录一下出现的问题, 数据翻倍这是复现问题的代码data() { return { space: "
- 前言:1、gevent库可以轻松实现并发同步或异步编程。gevent中使用的主要模式是Greenlet,它是以C扩展模块的形式访问Pytho
- 前言使用np.savetxt()方法可以将数据保存为txt文件或者是csv文件。1 np.savetxt()存储txt文件1-1 基础参数n
- 本文所述为Python3的基本运算符,是学习Python必须掌握的,共享给大家参考一下。具体如下:首先Python中的运算符大部分与C语言的
- 学习了Go语言后,打算利用最近比较空一点,写一个前端部署工具,不需要每次都复制粘贴的麻烦,需要完成部署的第一步就需要连接远程服务器打开 ss
- Python 内置的 itertools 模块包含了一系列用来产生不同类型迭代器的函数或类,这些函数的返回都是一个迭代器,我们可以通过 fo
- 一、获取文件路径实现1.1 获取当前文件路径import oscurrent_file_path = __file__print(f&quo