如何用Python一次性下载抖音上音乐
作者:华为云开发者社区 发布时间:2022-10-31 04:14:09
Python 链接抖音
python下载抖音内容的帖子网上有一些,但都比较麻烦,需要通过adb连接安卓手机后,模拟操作。我这么懒,这种事儿玩不来…那么,该如何获取抖音内容呢?网上搜了下大概有两种方式,一个是浏览器插件快抖,另外一个是我今天要说的抖音网页版。其实这两者差别不是很大,都是先将抖音内容下载至服务器后,通过开发简单网站配置域名后,让大家访问。让我们来看看抖音网页版:
爬虫实现分析
热歌榜内容
大家先开看看这个抖音热歌榜歌曲,每页20首歌曲,一个55页。但细不细心大家都能发现,很多歌曲存在重复的问题。所以,等下爬虫的时候,我们需要先准备一个music_list,用来识别这首歌曲是否已经下载过了…
网页解析
网页比较简单,一个div中包裹了一个ul>li*20,我们是不是该这样获取:
soup.find('div',{"class":"pull-left"}).find('ul').findAll('a')
如果你说是,那么一定没有好好看我前天整理的文章通过哪吒豆瓣影评,带你分析python爬虫快速入门:https://www.jianshu.com/p/ae38f7607902,我在文章中专门提到了一个小技巧,通过使用attr的属性进行快速解析,那么最快速的获取方式是:
soup.findAll('a', attrs={'onclick': True})
我们只需要获取所有的a标签,切这些标签中包含onclick这个属性即可。
巧用eval
我们解析到的内容通过attr[‘onclick'],可以得到他的属性open1(‘夜','http://p9-dy.byteimg.com/obj/61a20007a98954b0831d),如何能快速获取歌曲名字和url呢?这里我们需要用到一个eval的小技巧:
index = "open1('夜','http://p9-dy.byteimg.com/obj/61a20007a98954b0831d','')"
index[5:]
"('夜','http://p9-dy.byteimg.com/obj/61a20007a98954b0831d','')"
index_tuple = eval(index[5:])
print(index_tuple, type(index_tuple))
('夜', 'http://p9-dy.byteimg.com/obj/61a20007a98954b0831d', '') <class 'tuple'>
index_tuple[0]
'夜'
index_tuple[1]
'http://p9-dy.byteimg.com/obj/61a20007a98954b0831d'
ps:今天一个朋友说我写代码没注释,我这是现身说法的告诉你,如何能写出让别人压根看不懂的代码,就是不写注释啊,哈哈!其实,代码我都在文章中一点一点的讲解了,所以没有写,但秉承着害怕大佬们取关的心态,我还是把注释加上吧…
代码实现
总体来说实现比较简单,全部代码如下:
import os
import requests
from bs4 import BeautifulSoup
import threading
import time
class DouYinMusic:
def __init__(self):
self.music_list = []
self.path = self.download_path()
@staticmethod
def download_path():
"""
获取代码执行目录,并在目录下创建Music文件夹
:return Music文件夹全路径
"""
base_dir = os.path.dirname(os.path.abspath(__file__))
_path = os.path.join(base_dir, "Music")
if not os.path.exists(_path):
os.mkdir(_path)
return _path
def get_request(self, url):
"""
封装requests.get方法
如果为网页请求,返回网页内容
否则,解析音乐地址,并返回音乐二进制文件
:param url: 请求url(分网页、音乐两类)
:return: 网页内容 & 音乐二进制文件
"""
r = requests.get(url, timeout=5)
if url.endswith('html'):
return r.text
else:
return r.content
def analysis_html(self, html):
"""
根据获取的网页内容,解析音乐名称、下载地址
调用音乐下载方法
:param html: 网页内容
"""
soup = BeautifulSoup(html, 'lxml')
# 根据关键字onclick查找每个下载地址
for tag_a in soup.findAll('a', attrs={'onclick': True}):
# 下载格式'("name","link","")',通过eval将str转化为tuple类型
link_list = eval(tag_a['onclick'][5:])
music_name, music_link = link_list[:2]
# 因为存在部分重复音乐,故设置判断下载过的音乐跳过
if music_name in self.music_list:
continue
self.music_list.append(music_name)
t = threading.Thread(target=self.download_music, args=(music_name, music_link))
time.sleep(0.5)
t.start()
def download_music(self, music_name, music_link):
"""
解析音乐文件,完成音乐下载
:param music_name: 音乐名称
:param music_link: 下载地址
"""
_full_name = os.path.join(self.path, music_name)
with open(_full_name + '.mp3', 'wb') as f:
f.write(self.get_request(music_link))
print("抖音音乐:{} 下载完成".format(music_name))
def run(self):
"""
主方法,用于批量生成url
"""
for page in range(1,55):
url = "http://douyin.bm8.com.cn/t_{}.html".format(page)
html = self.get_request(url)
self.analysis_html(html)
if __name__ == '__main__':
main = DouYinMusic()
main.run()
来让我们看看效果吧:
网站是通过nginx负载均衡搭建的,有一些链接已经失效了。最终下载了不重复的592首抖音音乐。
同样的,大家喜欢可以按照这种方法,尝试下载一下网站的抖音视频。
来源:https://www.cnblogs.com/huaweiyun/p/13220145.html
猜你喜欢
- 代码中用到了nextpow2,其中n = nextpow2(x) 表示最接近x的2的n次幂。#!/usr/bin/env pythonimp
- 工作中偶尔需要做客流分析,用pyplot 库绘图。一般情况下, x 轴刻度默认显示为数字。例如:我希望x 轴刻度显示为星期日期。查询pypl
- 安装npm install --save reduxnpm install --save redux-saga配置actionactionT
- 在内容为主的网站中,搜索框往往是最常用的设计元素之一。从可用性的角度来看,搜索功能是用户有了明确的内容想看的时候最后使用的功能。如果一个网站
- 本文中介绍的系统优化,主要针对前端和后台这两方面(后台方面主要对SQL语句和数据存储进行了优化),下文中我们将介绍一些优化技巧和经验。技巧:
- <?php /** * 单例模式 * * 保证一个类仅有一个实例,并提供一个访问它的全局访问点 * */ class Singleto
- 前几天,为了增强本站的SEO,着手把另一个域名:www.aspxhome.com下的所有页面301转向到www.cidianwang.com
- --语 句 功 能 --数据操作 SELECT --从数据库表中检索数据行和列 INSERT --向数据库表添加新数据行 DELETE --
- 似乎讨论分页的人很少,难道大家都沉迷于limit m,n?在有索引的情况下,limit m,n速度足够,可是在复杂条件搜索时,where s
- reader.html<html><head><meta http-equiv=&quo
- 最近自己很关注文档的撰写,包括如何制作PPT。因为发现自己在表达想法和观点的时候,从自己的语言到文字都异常的欠缺。常常需要“高人”帮忙翻译。
- 下面通过实例代码给大家分享Python切片操作去除字符串首尾的空格的方法,具体内容如下所示:#利用切片操作,实现一个trim()函数,去除字
- 可控制的滚动新闻不同于自动的滚动条,它是通过按钮控制移动的,当你把鼠标放在按钮上时,新闻内容就会向上或
- 看新闻说Chrome的Javascript引擎很强大,执行速度很快。就随便写了一个1,000,000次的累加放到IE和Chrome下测试,效
- 问题你有50枚金币,需要分配给以下几个人:Matthew,Sarah,Augustus,Heidi,Emilie,Peter,Giana,A
- 先给大家介绍下Python读取文件夹按数字排序的代码,内容如下所示:python中 os.listdir()方法用于返回指定的文件夹包含的文
- ASP与存储过程(Stored Procedures)的文章不少,但是我怀疑作者们是否真正实践过。我在初学时查阅过大量相关资料,发现其中提供
- SHA (Secure Hash Algorithm,译作安全散列算法) 是美国国家安全局 (NSA) 设计,美国国家标准与技术研
- 支持聚合函数的方法:提到聚合函数,首先我们要知道的就是这些聚合函数是不能在django中单独使用的,要想在django中使用这些聚合函数,就
- 自己搭建IP数据库占资源,而且更新不便,何不使用现成的IP查询呢?下面自己写了个获取IP物理地址的PHP代码(有一定的瑕疵,请高手不吝赐教)