Python多线程结合队列下载百度音乐的方法
作者:御寒 发布时间:2022-12-01 11:43:18
标签:Python,多线程,队列,下载
本文实例讲述了Python多线程结合队列下载百度音乐的方法。分享给大家供大家参考。具体如下:
一直想做个下载音乐的脚本,后来决定就拿百度音乐开刀,经过多次分析,终于制作了一个下载百度音乐的脚本,目前只默认下载第一页,童鞋们可以自由拓展。
适用Windows和Linux平台、依赖BeautifulSoup这个库,主要对HTML进行解析
#!/usr/bin/python
# -*- coding: utf-8 -*-
'''
百度中批量下载某歌手的歌(目前只下载第一页,可以自行拓展)
@author:admin
@qq: 1243385033
'''
import threading, urllib2, os,re,sys
from bs4 import BeautifulSoup
from Queue import Queue
'''目标歌手'''
SINGER = u'亚东'
'''保存路径'''
SAVE_FOLDER = 'F:/music/'
# 查询url
search_url = "http://music.baidu.com/search/song?key=%s&s=1"
# 百度音乐播放盒url
song_url = "http://box.zhangmen.baidu.com/x?op=12&count=1&mtype=1&title="
class Downloader(threading.Thread):
def __init__(self, task):
threading.Thread.__init__(self)
self.task = task
def run(self):
'''覆盖父类的run方法'''
while True:
url = self.task.get()
self.download(url)
self.task.task_done()
def build_path(self, filename):
join = os.path.join
parentPath=join(SAVE_FOLDER,SINGER)
filename = filename + '.mp3'
myPath = join(parentPath, filename)
return myPath
def download(self, url):
'''下载文件'''
sub_url = url.items()
f_name = sub_url[0][0]
req_url = sub_url[0][1]
handle = urllib2.urlopen(req_url)
# 保存路径
save_path = self.build_path(f_name)
with open(save_path, "wb") as handler:
while True:
chunk = handle.read(1024)
if not chunk:
break
handler.write(chunk)
msg = u"已经从 %s下载完成" % req_url
sys.stdout.write(msg)
sys.stdout.flush()
class HttpRequest:
def __init__(self):
self.task = []
self.reg_decode = re.compile('<decode>.*?CDATA\[(.*?)\]].*?</decode>')
self.reg_encode = re.compile('<encode>.*?CDATA\[(.*?)\]].*?</encode>')
self.init()
self.target_url = search_url % urllib2.quote(self.encode2utf8(SINGER))
def encode2utf8(self,source):
if source and isinstance(source,(str,unicode)):
source=source.encode("utf8")
return source
return source
def mkDir(self, dir_name):
if not os.path.exists(dir_name):
os.mkdir(dir_name)
def init(self):
self.mkDir(SAVE_FOLDER)
subPath = os.path.join(SAVE_FOLDER, SINGER)
self.mkDir(subPath)
def http_request(self):
global song_url
'''发起请求'''
response=urllib2.urlopen(self.target_url)
# 获取头信息
content = response.read()
response.close()
# 使用BeautifulSoup
html = BeautifulSoup(content, from_encoding="utf8")
# 提取HTML标签
span_tag = html.find_all('div', {"monkey":"song-list"})[0].find_all('span', class_='song-title')
# 遍历List
for a_tag in span_tag:
song_name = unicode(a_tag.find_all("a")[0].get_text())
song_url = song_url + urllib2.quote(self.encode2utf8(song_name))
song_url = song_url + '$$' + urllib2.quote(self.encode2utf8(SINGER)) + '$$$$&url=&listenreelect=0&.r=0.1696378872729838'
xmlfile = urllib2.urlopen(song_url)
xml_content = xmlfile.read()
xmlfile.close()
url1 = re.findall(self.reg_encode, xml_content)
url2 = re.findall(self.reg_decode, xml_content)
if not url1 or not url2:
continue
url = url1[0][:url1[0].rindex('/') + 1] + url2[0]
self.task.append({song_name:url})
return self.task
def start_download(urls):
#创建一个队列
quene=Queue()
#获取list的大小
size=len(urls)
#开启线程
for _ in xrange(size):
t=Downloader(quene)
t.setDaemon(True)
t.start()
#入队列
for url in urls:
quene.put(url)
quene.join()
if __name__=='__main__':
http=HttpRequest()
urls=http.http_request()
start_download(urls)
希望本文所述对大家的Python程序设计有所帮助。


猜你喜欢
- 格式: SELECT column FROM table_name START WITH column=value CONNECT BY P
- Python 提供了多个图形开发界面的库。Tkinter就是其中之一。 Tkinter 模块(Tk 接口)是 Python 的标准 Tk G
- 1. 标签{% 标签 %}1.1 for循环标签<ul><!-- 可迭代对象都可以用循环 --><!-- 循环
- matplotlib官网matplotlib库默认英文字体添加黑体(‘SimHei')为绘图字体代码:plt.rcParams[
- 1 数据概览学生课程成绩:studentID、name、english、chinese、math,存在一定缺失值2 任务定义基于学生课程成绩
- 1、什么是双向数据绑定Vue.js是一个MV VM框架, 即数据双向绑定, 即当数据发生变化的时候, 视图也就发生变化, 当视图发生变化的时
- 本文实例讲述了PHP使用PHPexcel导入导出数据的方法。分享给大家供大家参考,具体如下:导入数据:<?phperror_repor
- 前言 在tensorflow的官方文档中得卷积神经网络一章,有一个使用cifar-10图片数据集的实验,搭建卷积神经网络倒不难,但是那个ci
- TensorFlow的日志级别分为以下三种:TF_CPP_MIN_LOG_LEVEL = 1 //默认设置,为显示所有信息TF_CPP_MI
- 列表有自己的sort方法,其对列表进行原址排序,既然是原址排序,那显然元组不可能拥有这种方法,因为元组是不可修改的。排序,数字、字符串按照A
- 阅读上一节:美化段落文本 Ⅰweb标准知识——美化段落文本 Ⅱ懒,可能是唯一解释为什么这么长时间才写这一篇的主要原因。不述详情,以此责心。上
- 本文实例讲述了python基于右递归解决八皇后问题的方法。分享给大家供大家参考。具体分析如下:凡是线性回溯都可以归结为右递归的形式,也即是二
- TEMPLATESDjango 1.8的新特性一个列表,包含所有在Django中使用的模板引擎的设置。列表中的每一项都是一个字典,包含某个引
- 就像我的日志中的地址路径一样,让 index.php?action=one&do=two 变成: ?
- 在SQL Server 2008里安装审计,步骤如下:1. 给每个SQL Server 2008具体实例创建一个SQL Server审计2.
- 使用layui的文件上传组件,可以方便的弹出文件上传界面。效果如下:点击【批量导入】按钮调用js脚本importData(config)就可
- 本文实例为大家分享了JDBC建立数据库连接的具体代码,供大家参考,具体内容如下import java.sql.DriverManager;i
- mysql复制表中的一列到另一个表中有时候,我们需要复制某个字段一整列的数据到另外一个新的字段中,这很简单,SQL可以这么写:UPDATE
- 寻找含有关键字文件和删除文件夹我们往往在操作文件时,会不知道文件具体的路径。一般如果只是处理一个文件的话我们可以在文件所在的文件夹下运行py
- 本篇博客主要介绍的是pyinstaller在windows下的基本使用和基础避坑在windows中使用pyinstaller工具打包时会出现