python 多线程爬取壁纸网站的示例
作者:Martina_oh 发布时间:2023-11-14 21:45:30
标签:python,多线程,爬虫,壁纸网站
基本开发环境
· Python 3.6
· Pycharm
需要导入的库
目标网页分析
网站是静态网站,没有加密,可以直接爬取
整体思路:
1、先在列表页面获取每张壁纸的详情页地址
2、在壁纸详情页面获取壁纸真实高清url地址
3、保存地址
代码实现
模拟浏览器请请求网页,获取网页数据
这里只选择爬取前10页的数据
代码如下
import threading
import parsel
import requests
def get_html(html_url):
'''
获取网页源代码
:param html_url: 网页url
:return:
'''
response = requests.get(url=html_url, headers=headers)
return response
def get_par(html_data):
'''
把 response.text 转换成 selector 对象 解析提取数据
:param html_data: response.text
:return: selector 对象
'''
selector = parsel.Selector(html_data)
return selector
def download(img_url, title):
'''
保存数据
:param img_url: 图片地址
:param title: 图片标题
:return:
'''
content = get_html(img_url).content
path = '壁纸\\' + title + '.jpg'
with open(path, mode='wb') as f:
f.write(content)
print('正在保存', title)
def main(url):
'''
主函数
:param url: 列表页面 url
:return:
'''
html_data = get_html(url).text
selector = get_par(html_data)
lis = selector.css('.wb_listbox div dl dd a::attr(href)').getall()
for li in lis:
img_data = get_html(li).text
img_selector = get_par(img_data)
img_url = img_selector.css('.wb_showpic_main img::attr(src)').get()
title = img_selector.css('.wb_pictitle::text').get().strip()
download(img_url, title)
end_time = time.time() - s_time
print(end_time)
if __name__ == '__main__':
for page in range(1, 11):
url = 'http://www.deskbizhi.com/min/list-{}.html'.format(page)
main_thread = threading.Thread(target=main, args=(url,))
main_thread.start()
来源:https://www.cnblogs.com/Martinaoh/p/14321201.html


猜你喜欢
- 这里我们采用的是使用Oracle数据库进行相关操作在连接数据库之间,应下载相应的工具包cx_Oracle,在你安装的Python文件夹中找到
- 来自Usability Post的Categories vs Tags作者认为“就博客而言,标签没有太大意义。”I don’t think
- 常规的异常捕获方式在 Promise 提供了一个 .catch 方法用来捕获异常,假设有很多异步请求,通常会把 .catch 方法放在链式调
- html的标签的属性,比如id、class、href需要动态传递参数,拼接字符串,查了一些资料,并没有找到合适的解决方法,琢磨了一上午,终于
- BIT[(M)]位字段类型。M表示每个值的位数,范围为从1到64。如果M被省略, 默认为1。TINYINT[(M)] [UNSIGNED]
- 数独规则数独游戏,经典的为9×9=81个单元格组成的九宫格,同时也形成了3×3=9个小九宫格,要求在81个小单元格中填入数字1~9,并且数字
- python常见的错误有1.NameError变量名错误2.IndentationError代码缩进错误3.AttributeError对象
- 一、新手常犯的错误在论坛看到很多帖子代码中都有一个共同的基本错误,字段类型错误。程序和数据库是紧紧相连的,数据库字段文本型或时间型的都使用单
- 一、Beautiful Soup的安装Beautiful Soup是Python的一个HTML或XML的解析库,使用它可以很方便地从网页中提
- 本文实例讲述了mysql中各种常见join连表查询。分享给大家供大家参考,具体如下:通常我们需要连接多个表查询数据,以获取想要的结果。一、连
- 现在向大家介绍mysql命令行下,从数据库的建立到表数据的删除全过程,希望对大家有所帮助。登陆mysql打cmd命令终端,如果已经添加了my
- 查看Django版本检查是否安装成功,可以在dos下查看Django版本。1.输入python 2.输入import django3.输入d
- 最近看到大家都练习写树,偶也学习学习写了一个,大家多多批评,我好进步。不过我看了一些树的xml文档都是在xml中就已经有了树的结构,所以我写
- 新版的path 虽然 取代了 之前的url,但是在写路由的时候不能在路由中直接写正则表达式,不然会找不到页面。解决方法使用re_pathfr
- 我就废话不多说了,直接上代码吧!import turtlet=turtle.Turtle()turtle.Turtle().screen.d
- 图形由json格式加载,可以灵活配置。下一步是完善用户的操作,做这个感觉还是蛮有意思的。呵呵。截图:部分源码:<script type
- 前文学习:python数据类型: python数据结构:数据类型.python的输入输出: python数据结构输入输出及控制和异常.pyt
- 什么是seleniumselenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样
- jupyter notebookjupyter不被识别为内部或外部命令,可操作程序或批处理文件'上次 jupyter noteboo
- 昨天在这个上面找了好久的错,嘤嘤嘤~很多时候我们在爬取数据存储的时候都需要将当前时间作为一个依据,在python里面没有时间类型可以直接拿来