Python实现批量下载音效素材详解
作者:嗨学编程 发布时间:2021-09-19 02:08:27
序言
作为当代新青年,应该多少会点短视频制作吧?
哈哈,那当代自媒体创作者好了~
制作视频的时候,多少需要一些搞怪的声音?或者奇怪的声音?音乐等等~
一个个下载多慢,我们今天就用python实现批量下载~
环境/模块/目标
1、目标
2、开发环境
兄弟们,刚学Python的话,不要安装一些其它的软件,就装这两个就可以了~
Python 环境
Pycharm 编辑器
3、模块
本次使用的模块主要是这两个
requests # 数据请求模块
re # 正则表达式模块
流程讲解
这次我详细写流程,小白都能看懂的那种,看完大家记得三连,给我一点创作的动力吧 ,嘿嘿~
首先我们打开网址后右键选择检查
选择network ,刷新页面往下滑,会出现一个 page-4 和 page-5 的页面。
这两个页面很多数据是直接在这里有的,我们随便找一个点击播放,然后点击media ,在headers里面会有一个音频文件,就是我标注的下载地址。
可以直接播放也可以直接下载
那想获得这个这个地址怎么搞呢?
我们直接复制这串数字,比如32716 ,然后点击左上角的这个搜索框,搜索一下。
搜索之后我们可以看到page-5这里就有音频的声音链接地址。
音频标题也在这里可以找到
然后我们点击headers,直接对于这个url地址发送请求。
首先导入requests模块
import requests
url就是刚刚的链接
url = 'https://手动替换一下/search/word-/page-5'
然后我们加一个headers进行伪装
这里直接复制 headers 下面的 user-agent 里面的内容就好了
记得加上引号
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
然后发送请求,打印一下看看结果
response = requests.get(url=url, headers=headers)
print(response.text)
打印出来的内容太多了,我们直接在上面搜索MP3,精准定位,它的标题就在mp3文件下面那个链接那里。
然后我们把它复制过来,用正则去匹配中间这段内容,中间的url用(.*?)代替。
首先导入re模块
import re
刚刚那段内容复制过来,.*?用括号括起来。
从 response.text 里面去匹配,匹配到的内容用play_url_list这个变量接收。
play_url_list = re.findall('<div class="ui360 ui360-vis"><a href="(.*?)"></a></div>', response.text)
然后打印一下看看有没有匹配到内容
print(play_url_list)
可以看到直接匹配到了mp3文件,它包含在一个列表里面。
那我们还需要它的标题名字,同样的复制过来。
还是一样的操作,url和名字都替换为 .*?
从 response.text 里面去匹配,匹配到的内容用name_list这个变量接收。
name_list = re.findall('<a class="h6 text-white font-weight-bold" target="_blank" href=".*?" title="(.*?)">.*?</a>', response.text)
打印一下
print(name_list)
可以看到名字这些数据,都已经获取到了。
遍历一下,把获取到的数据打包到一起,然后一个个提取出来,获取它的一个二进制数据内容,用mp3_content 这个变量接收一下
for play_url, name in zip(play_url_list, name_list):
mp3_content = requests.get(url=play_url, headers=headers).content
然后直接保存,with open 给它一个文件夹的名字,加上名字,加上 .mp3的后缀,保存方式 mode = wb , 用 f.write 这个变量接收一下 mp3_content
with open('音效\\' + name + '.mp3', mode='wb') as f:
f.write(mp3_content)
这里咱们没有写自动创建文件夹, 所以需要手动创建一下文件夹,然后把你命名的名字写入进来。
然后我们打印一下,看看结果。
print(name)
相关的数据内容就保存在你创建的文件夹了
注:所有的url大家自己手动替换一下,我这里把它们删了,不然会误杀
全部代码
import requests
import re
url = 'https://这里大家自己替换一下/search/word-/page-5'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
# print(response.text)
play_url_list = re.findall('<div class="ui360 ui360-vis"><a href="(.*?)"></a></div>', response.text)
name_list = re.findall('<a class="h6 text-white font-weight-bold" target="_blank" href=".*?" title="(.*?)">.*?</a>', response.text)
print(play_url_list)
print(name_list)
for play_url, name in zip(play_url_list, name_list):
mp3_content = requests.get(url=play_url, headers=headers).content
with open('音效\\' + name + '.mp3', mode='wb') as f:
f.write(mp3_content)
print(name)
来源:https://blog.csdn.net/fei347795790/article/details/123094211


猜你喜欢
- 通过变量ID得到变量的值已知获得变量的id用函数id(),那么它的反函数是什么?答案是:PyObj_FromPtr,据此,写了一个函数di(
- 在前面的博文中,我们介绍了如何通过软件模拟实现共享磁盘(https://www.jb51.net/network/592807.html),
- 问题一:将u'\u810f\u4e71'转换为'\u810f\u4e71'方法:s_unicode = u&
- 人体的视觉系统是一个相当神奇的存在,对于下面的一串手写图像,可以毫不费力的识别出他们是504192,轻松到让人都忘记了其实这是一个复杂的工作
- 表结构的修改1、表结构修改后,原来表中已存在的数据,就会出现结构混乱,makemigrations更新表的时候就会出错比如第一次建模型,漏了
- 内置函数常用函数1.数学相关•abs(x)abs()返回一个数字的绝对值。如果给出复数,返回值就是该复数的模。>>>pri
- Linux系统中的信号类型各操作系统的信号定义或许有些不同。下面列出了POSIX中定义的信号。在linux中使用34-64信号用作实时系统中
- 我一直建议每个开发者都要有写博客记笔记的习惯,一来可以沉淀知识,二来可以帮助别人,我使用过很多博客平台,也用Python开发过博客系统,就这
- 将ASCII字符转换为对应的数值即‘a'-->65,使用ord函数,ord('a')反之,使用chr函数,将数
- Silverlight也算一个比较开放的技术。Button控件其实也是一些标准的Grid、Canvas、Rectangle、TextBloc
- 本文主要介绍了ASP连接11种数据库的常用语法,详细内容请参考下文:1.Access数据库的DSN-less连接方法:set adocon=
- python以下是个人学习 python 研究判断ip连通性方法的集合。 缺点可能有办法解决,如有错误,欢迎矫正。方法一import osr
- 一 什么是WebsocketWebSocket是一种在单个TCP连接上进行全双工通信的协议WebSocket使得客户端和服务器之间的数据交换
- 摘要:python的设计核心原则就是简洁——在这种原则的指导下,诞生了lambda表达式和偏函数:二者都让函数调用变得简洁。本文主要为你介绍
- import socketimport re'''广东省 * 厅出入境政务服务网护照,通行证办理进度查询。分析网址格式
- 什么是 NFT?NFT英文全称为Non-Fungible Token,翻译成中文就是:非同质化代币,具有不可分割、不可替代、独一无二等特点。
- 如何做一个分页程序? 这在ASP中确实容易实现,但需要技巧,看看下面的分页代码和说明: <angu
- 1.当前时间戳转换为指定格式的日期# -*- coding: utf-8 -*-# @Time : 2019/5/31 10:5
- 需求描述:平台中需要编写接口供第三方调用,需要控制调用频率,需求为5s内调用一次后不得再次调用。解决思路1.Django官方插件库中有个dj
- 一、数据引擎简介在MySQL 5.1中,MySQL AB引入了新的插件式存储引擎体系结构,允许将存储引擎加载到正在运新的MySQL