Python反爬实战掌握酷狗音乐排行榜加密规则
作者:五包辣条! 发布时间:2021-05-29 08:05:57
标签:Python,反爬,酷狗,排行榜
效果展示
爬取目标
网址:酷我音乐
工具使用
开发工具:pycharm
开发环境:python3.7, Windows10
使用工具包:requests,re
项目思路解析
找到需要解析的榜单数据
随意点击一个歌曲获取到音乐的详情数据 通过抓包的方式获取到音乐播放数据
找到MP3的数据提交地址 mp3数据来自于这个url地址
提交数据的网址:
https://wwwapi.kugou.com/yy/index.php?r=play/getdata&callback=jQuery19102816534571347611_1626783818555&hash=A38449E76C74D45825F565C1FDB825C0&dfid=3dKstH1sJdRa44o6Vj0ZIryF&mid=4458f6d567640b39de367a394d69879e&platid=4&album_id=40437970&_=1626783818556
将多个网址数据进行对比看看哪些参数是需要自行修改的
变化的url数据有3个
hash
album_id
_
_ 可以明显看出来是时间戳 需要获取到对应的hash以及album_id的值 来到主页找寻对应的歌曲id数据 发现数据来自网页源代码
歌曲的数据都是来自网页源代码
梳理整体思路:
从首页源码里提取出对应的hash、album_id值
组合成新的url地址
获取到json数据总的歌曲播放地址
简易源码分享
本章内容只限学习,切勿用作其他用途!!!!!
import requests
import re
import time
def Tools(url):
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.70'
}
response = requests.get(url, headers=headers)
return response
def Save(name, url):
mp3 = Tools(url).content # 请求mp3地址链接 返回格式是16进制
f = open('./kugou/{}.mp3'.format(name), 'wb') # w 文件存在就写入 不存在就会创建 b进制读写
f.write(mp3)
f.close()
print('{}下载完成....'.format(name))
url = 'https://www.kugou.com/yy/html/rank.html'
response = Tools(url).text
album_id = re.findall(r'"album_id":(\d*?),', response) # id
Hash = re.findall(r'"Hash":"(.*?)",', response) # hash
for a, h in zip(album_id, Hash):
# 生成时间戳
time1 = int(time.time() * 1000)
# 包含歌曲下载地址的url
urls = 'https://wwwapi.kugou.com/yy/index.php?r=play/getdata&hash={}&dfid=0zlWqK0UWNFa0weUnX0hjlFa&mid=f79511e2e86914b99e351c42ba1f8bc7&platid=4&album_id={}&_={}'.format(h, a, time1)
response1 = Tools(urls).json()
audio_name = response1['data']['audio_name'].split('-')[1]
play_url = response1['data']['play_url']
Save(audio_name, play_url)
来源:https://blog.csdn.net/AI19970205/article/details/118944328
0
投稿
猜你喜欢
- 一个小的解决方法分享:正常安装的情况下,你所需要的包都能在python文件夹下找到,找到你所需要的包 ,把它复制到Python35\Lib\
- 一、算术运算符算术运算符是大部分情况下是实现对数值的运算,少部分可以实现对字符的操作运算符符号描述+加(可对字符进行拼接操作)-减*乘(可对
- 在程序的开发过程中,处理分页是大家接触比较频繁的事件,因为现在软件基本上都是与数据库进行挂钩的。但效率又是我们所追求的,如果是像原来那样把所
- 导言:本文一步一步手把手教你打造一个极酷的三层分离的标准滑动门导航菜单,从思路、原理、步骤,手段可谓“无所不用其极”,即便你是菜鸟,相信你看
- mysql允许在相同列上创建多个索引,无论是有意还是无意,mysql需要单独维护重复的索引,并且优化器在优化查询的时候也需要逐个地进行考虑,
- 由于这个数据库服务器存放的数据库比较多且都是小数据库,所以最初的时候是运行在windows服务器上的。前一段时间由于机房服务器要做调整,于是
- 函数是一组可重用的代码,可以在程序的任何地方被调用。这消除了一次又一次地写入相同的代码的需要。这将帮助程序员编写模块化代码。您可
- Django处理Ajax发送的Get请求实例,Ajax优点在一是异步请求,无需等待响应就可以再次发起请求,而是局部刷新,避免整个页面刷新的网
- 在mysql中limit可以实现快速分页,但是如果数据到了几百万时我们的limit必须优化才能有效的合理的实现分页了,否则可能卡死你的服务器
- 起由:前一阵子想要刷一刷国二Python的题库,千方百计找到题库之后,打开一个个word文档,发现一题一题阅读很麻烦,而且答案就在题目的下面
- 安装pip install faker使用简单使用本库可生成姓名、地址、电话、邮箱、公司等等一系列数据。首先导入库,实例化:from fak
- 在IE进行文档链接时,如果遇到OLE支持的文档,IE会自动调用相应程序打开它,有时候这种功能并不是我们所需的,虽然我们可以提醒用户用鼠标右键
- 首先此问题来自向这个帖子http://hi.baidu.com/fire_love_live/item/247276cfda421217b6
- js中应用正则表达式转换大小写,代码很简单,看代码:以下首字母大写,其它字母小写<script type="text/jav
- 对于任何JavaScript程序,当程序开始运行时,JavaScript解释器都会初始化一个全局对象以供程序使用。这个JavaScript自
- 原理:建立一个任务队列,然多个线程都从这个任务队列中取出任务然后执行,当然任务队列要加锁,详细请看代码import threadingimp
- 1、从Kmeans说起Kmeans是一个非常基础的聚类算法,使用了迭代的思想,关于其原理这里不说了。下面说一下如何在matlab中使用kme
- # -*- coding: utf-8 -*- #mysqldb &nb
- 一.什么是Vuex? Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式。它采用集中式存储管理应用的所有组件的状态,并以相应的规
- 数据加载、存储与文件格式pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。其中read_csv和read_talbe