python 爬取知乎回答下的微信8.0状态视频
作者:somenzz 发布时间:2022-09-11 15:17:57
目录
寻找 url
下载视频
执行代码下载:
最后的话
回答来源
微信 8.0 版本更新后,可以设置个人状态,状态里面可以添加火录制视频,很快状态视频就火了,可以看下知乎热榜有没有微信8.0状态沙雕又可爱的视频或图片?[1]。比如我也设置了一个:
于是我就想把这些视频下载下来,也玩一玩。本文讲述如何使用 Python 一键下载知乎某个回答下的所有视频。
思路:分析知乎回答页面 -> 定位视频 -> 寻找视频播放的 url -> 下载。其实就两步:找到 url,然后下载。
寻找 url
一个回答下面可能有多个视频,先分析一个视频,打开谷歌浏览器的开发者工具窗口,找到 network,勾选 preserve log、disable cache,选择 xhr,刷新,很容易找到如下图所示的接口:
从上图接口返回的数据就可以获取视频播放的 url、标题、格式等信息,这就够了,复制 play_url,放在浏览器上看一下,发现可以直接下载,说明那么这个 url 就是我们需要的。
接下来,写代码,获取接口返回的数据:
def get(url: str) -> list:
"""
获取知乎视频的 url
返回格式
[{'url':'', 'title','format':'',},{}]
"""
data = []
headers = {
"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
}
with requests.get(url, headers=headers, timeout=10) as rep:
if rep.status_code == 200:
ids = re.findall(r"www.zhihu.com/zvideo/(\d{1,})", rep.text)
ids = list(set(ids)) # 去掉重复元素
else:
print(f"网络连接失败,状态码 { rep.status_code }")
return []
if not ids:
print("视频获取失败,可能是这个页面没有视频")
return []
for id in ids:
print(id)
with requests.get(
f"https://www.zhihu.com/api/v4/zvideos/{id}/card",
headers=headers,
timeout=10,
) as rep:
if rep.status_code == 200:
ret_data = rep.json()
playlist = ret_data["video"]["playlist"]
title = ret_data.get("title")
temp = playlist.get("ld") or playlist.get("sd")
if temp:
sigle_video = {}
sigle_video["url"] = temp.get("play_url")
sigle_video["title"] = title
sigle_video["format"] = temp.get("format")
data.append(sigle_video)
else:
print(f"网络连接失败,状态码 { rep.status_code }")
return []
return data
下载视频
这个比较简单了,直接请求视频播放的 url,将流式的内容保存到文件中,最多再加个进度条的展示。部分视频获取的 title 为空,这时就使用时间戳来命名文件。
请看代码:
def download( file_url, file_name=None, file_type=None, save_path="download", headers=None, timeout=15,):
"""
:param file_url: 下载资源链接
:param file_name: 保存文件名,默认为当前日期时间
:param file_type: 文件类型(扩展名)
:param save_path: 保存路径,默认为download,后面不要"/"
:param headers: http请求头
"""
if file_name is None or file_name == "":
file_name = str(datetime.now())
if file_type is None:
if "." in file_url:
file_type = file_url.split(".")[-1]
else:
file_type = "uknown"
file_name = file_name + "." + file_type
if headers is None:
headers = {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B137 Safari/601.1"
}
if os.path.exists(save_path):
pass
else:
os.mkdir(save_path)
# 下载提示
if os.path.exists(f"{save_path}/{file_name}"):
print(f"\033[33m{file_name}已存在,不再下载!\033[0m")
return True
print(f"Downloading {file_name}")
try:
with requests.get(
file_url, headers=headers, stream=True, timeout=timeout
) as rep:
file_size = int(rep.headers["Content-Length"])
if rep.status_code != 200:
print("\033[31m下载失败\033[0m")
return False
label = "{:.2f}MB".format(file_size / (1024 * 1024))
with click.progressbar(length=file_size, label=label) as progressbar:
with open(f"{save_path}/{file_name}", "wb") as f:
for chunk in rep.iter_content(chunk_size=1024):
if chunk:
f.write(chunk)
progressbar.update(1024)
print(f"\033[32m{file_name}下载成功\033[0m")
except Exception as e:
print("下载失败: ", e)
return True
执行代码下载:
import os, sys
import re
import click
import requests
from datetime import datetime
def get(url: str) -> list:
#见上文
...
def download( file_url, file_name=None, file_type=None, save_path="download", headers=None, timeout=15,):
#见上文
...
if __name__ == "__main__":
videos = get(sys.argv[1])
for video in videos:
download(file_url = video['url'],file_name= video['title'] ,file_type= video['format'],save_path='./download')
执行结果如下图所示:
最后的话
网站可能会发生变更,因此本文的代码可能随着时间变化而无法使用,请自行调节一些正则表达式和参数。爬取的思路是通用的,无非就是找到视频的流式数据,进行保存。思路有了,编写代码就是体力活了。
此外,如果你只是想要一些酷炫、搞笑、可爱的视频资源,玩一下微信 8.0 的状态,请在公众号「Python七号」回复「视频」,即可获取微信 8.0 的状态视频合集的下载链接:
回答来源
有没有微信8.0状态沙雕又可爱的视频或图片?: https://www.zhihu.com/question/441253090
来源:https://cloud.tencent.com/developer/article/1786524


猜你喜欢
- zip通常用于将两个列表合并在一起以同时进行迭代遍历注意:直接使用zip输出结果为<zip at 0x1d72cf30bc8>,
- 前言:整型是MySQL中最常用的字段类型之一,通常用于存储整数,其中int是整型中最常用的,对于int类型你是否真正了解呢?本文会带你熟悉i
- 这里提供三种方法:1,使用正则表达式Function regKillHTML(str) &nb
- 这个需求是有个表结构,本身设计为 但现在需要将blob里地17、18、19三个字段里的数据作为数字保存在blob外新增的三个字段Gem1 G
- tensor计算三通道均值今天用pytorch处理图像时,涉及到了计算均值的问题,整理一下解决思路。第一种思路tensor转换为numpy再
- 概论在讨论ECMAScript闭包之前,先来介绍下函数式编程(与ECMA-262-3 标准无关)中一些基本定义。 然而,为了更好的解释这些定
- <html><head><meta http-equiv="Content-Type" c
- 本文实例为大家分享了python实现随机漫步的具体代码,供大家参考,具体内容如下编写randomwalk类from random impor
- 识别发票录入发票是一件繁琐的工作,如果可以自动识别并且录入系统,那可真是太好了。今天我们就来学习一下,如何自动识别增值税发票并且录入系统~识
- 起步在 《分布式任务队列Celery使用说明》 中介绍了在 Python 中使用 Celery 来实验异步任务和定时任务功能。本文介绍如何在
- tbody 标签表格主体(正文)。该标签用于组合 HTML 表格的主体内容。tbody 元素应该与&
- 目录技术背景打格点算法实现打格点算法加速总结概要技术背景在数学和物理学领域,总是充满了各种连续的函数模型。而当我们用现代计算机的技术去处理这
- 本文针对ThinkPHP中pathinfo的两种模式、四种路径访问模式和URL重写相关知识进行了总结归纳,分享给大家便于查询和借鉴。具体归纳
- 在上一期python numpy 模块中对概述介绍了numpy 模块安装、使用方法、特点等入门知识。numpy 模块是一个开源的第三方Pyt
- 列表解析——用来动态地创建列表[expr for iter_var in iterable if cond_expr]例子一:map(lam
- 函数的基本结构Python中的函数基本结构:def 函数名([参数列表]): 语句 几点说明:
- Matplotlib官网 如果想了解更多可查看官网。import numpy as np import matplotlib.py
- 代码如下: Function closeHTML(strContent) Dim arrTags, i, OpenPos, ClosePos
- 概述在进行网站爬取数据的时候,会发现很多网站都进行了反爬虫的处理,如JS加密,Ajax加密,反Debug等方法,通过请求获取数据和页面展示的
- 前言本文主要介绍了关于Python+selenium自动化环境搭建的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧