Python无损音乐搜索引擎实现代码
作者:mrr 发布时间:2021-01-28 19:19:02
研究了一段时间酷狗音乐的接口,完美破解了其vip音乐下载方式,想着能更好的追求开源,故写下此篇文章,本文仅供学习参考。虽然没什么技术含量,但都是自己一点一点码出来,一点一点抓出来的。
一、综述:
根据酷狗的搜索接口以及无损音乐下载接口,做出爬虫系统。采用flask框架,前端提取搜索关键字,后端调用爬虫系统采集数据,并将数据前端呈现;
运行环境:windows/linux python2.7
二、爬虫开发:
通过抓包的方式对酷狗客户端进行抓包,抓到两个接口:
1、搜索接口:
http://songsearch.kugou.com/song_search_v2?keyword={关键字}page=1
这个接口通过传递关键字,其返回的是一段json数据,数据包含音乐名称、歌手、专辑、总数据量等信息,当然最重要的是数据包含音乐各个品质的hash。
默认接口返回的数据只包含30首音乐,为了能拿到所有的数据,只需要把pagesize更改就可以,所以我提取了总数据数量,然后再次发动一次数据请求,拿到全部的数据。当然,这个总数据量也就是json中的total也是作为搜索结果的依据,如果total == 0 则判断无法搜索到数据。
搜索到数据后,我就要提取无损音乐的hash,这个hash是音乐下载的关键,无损音乐hash键名:SQFileHash,提取到无损hash(如果是32个0就表示None),我把他的名称、歌手、hash以字典形式传递给下一个模块。
代码实现:
a.请求模块(复用率高):
# coding=utf-8
import requests
import json
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/63.0.3239.132 Safari/537.36',
}
def parse(url):
ret = json.loads(requests.get(url, headers=headers, timeout=5).text)
# 返回的是已经转换过后的字典数据
return ret
if __name__ == '__main__':
parse()
b.搜索模块
# coding=utf-8
import copy
import MusicParse
def search(keyword):
search_url = 'http://songsearch.kugou.com/song_search_v2?keyword={}page=1'.format(keyword)
# 这里需要判断一下,ip与搜索字段可能会限制搜索,total进行判断
total = MusicParse.parse(search_url)['data']['total']
if total != 0:
search_total_url = search_url + '&pagesize=%d' % total
music_list = MusicParse.parse(search_total_url)['data']['lists']
item, items = {}, []
for music in music_list:
if music['SQFileHash'] != '0'*32:
item['Song'] = music['SongName'] # 歌名
item['Singer'] = music['SingerName'] # 歌手
item['Hash'] = music['SQFileHash'] # 歌曲无损hash
items.append(copy.deepcopy(item))
return items
else:
return None
if __name__ == '__main__':
search()
到这步,音乐搜索接口以及利用完了,下面就是无损音乐搜索了。
2、音乐下载接口:
# V2版系统,pc版
Music_api_1 = 'http://trackercdnbj.kugou.com/i/v2/?cmd=23&pid=1&behavior=download'
# V2版系统,手机版(备用)
Music_api_2 = 'http://trackercdn.kugou.com/i/v2/?appid=1005&pid=2&cmd=25&behavior=play'
# 老版系统(备用)
Music_api_3 = 'http://trackercdn.kugou.com/i/?cmd=4&pid=1&forceDown=0&vip=1'
我这里准备三个接口,根据酷狗系统版本不同,采用不同加密方式,酷狗音乐下载的关键就是音乐接口处提交的key的加密方式,key是由hash加密生成的,不同的酷狗版本,加密方式不同:
酷狗v2版key的生成:md5(hash +”kgcloudv2″)
酷狗老版key的生成:md5(hash +”kgcloud”)
只要将音乐的hash+key添加到api_url ,get提交过去,就能返回一段json数据,数据中就包括了音乐的下载链接,然后在提取其download_url。下面我将采用酷狗的第一个接口完成代码的实现,当然,酷狗存在地区的限制,接口有效性也带检测,如果第一个不行就换一个,你懂得!!!然后我把数据做成字典进行传递。
代码实现:
# coding=utf-8
import copy
import hashlib
import MusicParse
import MusicSearch
# V2版系统,pc版,加密方式为md5(hash +"kgcloudv2")
Music_api_1 = 'http://trackercdnbj.kugou.com/i/v2/?cmd=23&pid=1&behavior=download'
# V2版系统,手机版,加密方式为md5(hash +"kgcloudv2") (备用)
Music_api_2 = 'http://trackercdn.kugou.com/i/v2/?appid=1005&pid=2&cmd=25&behavior=play'
# 老版系统,加密方式为md5(hash +"kgcloud")(备用)
Music_api_3 = 'http://trackercdn.kugou.com/i/?cmd=4&pid=1&forceDown=0&vip=1'
def V2Md5(Hash): # 用于生成key,适用于V2版酷狗系统
return hashlib.md5((Hash + 'kgcloudv2').encode('utf-8')).hexdigest()
def Md5(Hash): # 用于老版酷狗系统
return hashlib.md5((Hash + 'kgcloud').encode('utf-8')).hexdigest()
def HighSearch(keyword):
music_list = MusicSearch.search(keyword)
if music_list is not None:
item, items = {}, []
for music in music_list:
Hash = str.lower(music['Hash'].encode('utf-8'))
key_new = V2Md5(Hash) # 生成v2系统key
try:
DownUrl = MusicParse.parse(Music_api_1 + '&hash=%s&key=%s' % (Hash, key_new))['url']
item['Song'] = music['Song'].encode('utf-8') # 歌名
item['Singer'] = music['Singer'].encode('utf-8') # 歌手
item['url'] = DownUrl
items.append(copy.deepcopy(item))
except KeyError:
pass
return items
if __name__ == '__main__':
HighSearch()
酷狗的爬虫系统就设计完毕了,下面开始使用flask框架搭建前后端了。
三、引擎搭建
这个搜索引擎是基于flask框架的,设计思路比较简单,就是前端传递post数据(keyword)传递到后端,后端拿着这个keyword传递给爬虫,爬虫把数据返回给系统,系统在前端渲染出来。
代码实现:
# coding=utf-8
import sys
from flask import Flask
from flask import request, render_template
from KgSpider import HighMusicSearch
reload(sys)
sys.setdefaultencoding('utf-8')
app = Flask(__name__)
@app.route('/', methods=['GET', 'POST'])
def search():
if request.method == 'GET':
return render_template('index.html')
elif request.method == 'POST':
keyword = request.form.get('keyword')
items = HighMusicSearch.HighSearch(keyword)
if items != None:
return render_template('list.html', list=items)
else:
return '找不到!!!不支持英文'
else:
return render_template('404.html')
if __name__ == '__main__':
app.run(debug=True)
四、调试
整改引擎系统,也就设计完毕,然我们试试效果:
1.启动脚本:python run.py
2.输入关键字进行搜索
五、总结
引擎搭建完毕,也能正常的运行了,但是这只是一个模型,完全没有考虑,多用户访问带来的压力,很容易崩溃,当然经过我的测试,发现只能搜索中文,英文完全无效,why?别问我,我也不知道!!!当然在这里我也想说一下,请尊重版权!!!虽然我是口是心非!!!!!
项目地址: 码云项目地址
总结
以上所述是小编给大家介绍的Python无损音乐搜索引擎实现代码网站的支持!


猜你喜欢
- 本文实例讲述了Python PyQt5实现的简易计算器功能。分享给大家供大家参考,具体如下:这里剩下计算函数(self.calculator
- python代码生成API接口如果要将我们写好的Python代码生成API接口时,我们需要借助Flask框架1. 安装Flaskpip in
- 昨天晚上跑起来一个classification实验,今天发现训练loss在降,然而accuracy永远是0 。。。直觉告诉我evaluati
- 在本节中,您将添加一些类,这些类用于管理数据库中的电影。这些类是ASP.NET MVC 应用程序中的"模型(Model)"
- 1.依次安装python2和python3,并添加到系统环境变量中2.找到python3的安装目录,一般在C:\Users\Administ
- 根据“廖雪峰”的教程进行python学习,计划每天抽出1-2个小时的时间进行充电。Python是著名的“龟叔”Guido van Rossu
- 本文实例讲述了Python3访问并下载网页内容的方法。分享给大家供大家参考。具体如下:#!/usr/local/bin/python3.2i
- 输出电脑上所有的串口名:import serialimport serial.tools.list_portsfrom easygui im
- 题目描述原题链接 :496. 下一个更大元素 I - 力扣(LeetCode) (leetcode-cn.com)nums1 中数
- 借助map实现golang中没有set数据结构,一般是通过map实现,因为map的key值是不能重复的示例type empty struct
- 带你了解CGO编程大学时最开始学的语言莫过于C/C++,C/C++经过几十年的发展,已经积累了庞大的软件资产,它们很多久经考验而且性能已经足
- 一、功能分析简单分析一下网站的功能,大致如下:需要用户在地址栏中提交参数,根据参数中的id查询对应的用户信息。如果id存在,则显示查询成功,
- (下面的代码原来我想用折叠的代码的,但是在google里面老是添加不了折叠的代码,所以就整屏的贴出来了,望大家不要见外。) 朋友的比较好的存
- 为什页面刷新会出现404因为vue项目中路由hash模式改为了history模式,由于hash模式时url带的#号后面是哈希值不会作为url
- 前言本博客默认读者对神经网络与Tensorflow有一定了解,对其中的一些术语不再做具体解释。并且本博客主要以图片数据为例进行介绍,如有错误
- <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
- SQLAlchemy是Python编程语言下的一款开源软件,提供了SQL工具包及对象关系映射(ORM)工具,使用MIT许可证发行。SQLAl
- 比如,我要建立一个1,000,000行的数字表: CREATE TABLE dbo.Nums(n INT NOT NULL PRIMARY
- 1、冒泡排序法让列表中的一项和下一项作比较,若前一项大于后一项则交换两者位置(升序)。方法一:直接使用for循环L=[8,2,50,3]fo
- Intro项目中遇到需要 导出统计报表 等业务时,通常需要 pdf 格式。python 中比较有名的就是 reportlab 。这边通过几个