基于python对B站收藏夹按照视频发布时间进行排序的问题
作者:Chant_Mee 发布时间:2022-01-02 11:11:31
标签:python,时间,排序
前言
在最一开始,我的B站收藏一直是存放在默认收藏夹中,但是随着视频收藏的越来越多,没有分类的视频放在一起,想在众多视频中找到想要的视频非常困难,因此就对收藏夹里面的视频进行了分类。但是分类之后紧接着又出现了一个新的问题:原来存放在默认收藏夹里面视频的相对顺序被打乱了——明明前几天刚收藏的视频却要翻很多很多页才能找到,因此有了这个程序。
程序的作用
因为我们看到的视频大部分都是通过推荐得到的,而推荐的视频大部分都是刚发布不久,因此大部分收藏的视频的顺序也基本是按照视频发布的顺序来的。那么通过程序对收藏夹中的视频按照发布时间重新排序,那么就和我们收藏视频的顺序几乎一致了。
机理
利用b站的API获取收藏夹中视频的视频的编号,用python中的request库获得视频对应网页的html,之后利用正则表达式得到视频发布的时间。将发布时间和视频的编号绑定,按照视频发布时间从小到大排序,再次利用b站的API将视频收藏到指定收藏夹。
出现的问题
b站视频的av号在八位以下的时候是按照视频发布顺序编排的,但是当到达九位的时候就不是按照发布顺序编排的了,因此只能通过访问视频主页来得到视频发布时间。
b站的API如果长时间比较高频率的访问会出现错误码,因此每次调用API之后都sleep了一下。
中间程序可能因为各种原因挂掉,因此在中间加入了储存中间状态的功能,否则每次挂掉都要重新爬速度非常慢。
使用方法
在创建Sort
类对象时,将userAgent
,cookie
,fid
,toFid
,csrf
传入类的构造函数中,之后调用类中的sortVideos()
方法即可完成排序。
import requests, json, time, re, datetime, random
class WriteLog(object):
def __getCurrentTime(self):
return str(time.ctime(time.time()))
def writeFile(self, fileName, l):
with open(self.__getCurrentTime() + fileName, 'w') as f:
for i in l:
f.write(str(i) + '\n')
class Sort(WriteLog):
def __init__(self, fid, toFid, csrf, userAgent, cookie, MinSleepTime=5, MaxSleepTime=10):
self.MinSleepTime = MinSleepTime
self.MaxSleepTime = MaxSleepTime
self.fid = str(fid)
self.toFid = str(toFid)
self.csrf = csrf
self.DeadVideo = []
self.headers = {'User-Agent': userAgent, 'cookie': cookie}
def __Sleep(self):
sleepTime = random.randint(self.MinSleepTime, self.MaxSleepTime)
time.sleep(sleepTime)
def __getAllVideoId(self):
print('Start get all video ID')
fid = self.fid
res = []
cnt = 0
for i in range(100):
if i == 0:
continue
url = 'https://api.bilibili.com/x/v3/fav/resource/list?media_id=' + fid + '&pn=' + str(i) + '&ps=20&keyword=&order=mtime&type=0&tid=0&platform=web&jsonp=jsonp'
html = requests.get(url=url, headers=self.headers)
te = json.loads(html.text)
te = te['data']['medias']
if te != None:
for j in te:
res.append(j['id'])
print('num: ', cnt, '\tvideoID: ', j['id'])
cnt = cnt + 1
self.__Sleep()
else:
break
print('Finish get all video ID, in total %d' % (len(res)))
return res
def __addVideoToFavorite(self, vid):
fid = self.toFid
csrf = self.csrf
url = 'https://api.bilibili.com/x/v3/fav/resource/deal'
data = {
'rid': vid,
'type': '2',
'add_media_ids': fid,
'del_media_ids': '',
'jsonp': 'jsonp',
'csrf': csrf,
'platform': 'web',
}
requests.post(url=url, data=data, headers=self.headers)
print('finish add video %s to folder %s' % (vid, fid))
def __getVideoPostTime(self, vid):
vid = str(vid)
url = 'https://www.bilibili.com/video/av' + vid
text = requests.get(url).text
'''
data-vue-meta="true" itemprop="uploadDate" content="2021-04-07 23:29:21"><meta data-vue-meta="true" itemprop="datePublished" c
'''
reg = re.compile('content="([0-9]+)-([0-9]+)-([0-9]+)\s([0-9]+):([0-9]+):([0-9]+)"')
text = reg.findall(text)
if len(text) == 0:
return -1
text = text[0]
if len(text) < 6:
return -1
t = ""
for i in text:
t = t + str(i)
print('finish get video %s post time, it\'s post time is: %s' % (vid, t))
return int(t)
def __Unique(self, l):
size = len(l)
if size == 0:
return []
res = [l[0]]
for i in range(size):
if i == 0:
continue
if l[i] != l[i - 1]:
res.append(l[i])
return res
def __addVideo(self, res):
cnt = 0
for i in res:
self.__addVideoToFavorite(vid=i)
self.__Sleep()
cnt = cnt + 1
def __getVideosTime(self, res):
videos = []
cnt = 0
for i in res:
t = self.__getVideoPostTime(i)
if t == -1:
continue
item = {
'vid': str(i),
'postTime': t
}
videos.append(item)
cnt = cnt + 1
return videos
def sortVideos(self):
fid = self.fid
toFid = self.toFid
res = self.__getAllVideoId()
self.writeFile('getAllVideoId' + fid + 'to' + toFid, res)
videos = self.__getVideosTime(res)
videos = sorted(videos, key=lambda x: x['postTime'])
res = []
for i in videos:
res.append(i['vid'])
res = self.__Unique(res)
self.writeFile('getVideosTime' + fid + 'to' + toFid, res)
self.__addVideo(res)
self.writeFile('err' + fid + 'to' + toFid, self.DeadVideo)
if __name__=='__main__':
userAgent = ''
cookie = ''
fid = ''
toFid = ''
csrf = ''
sortVideo = Sort(fid=fid, toFid=toFid, csrf=csrf, userAgent=userAgent, cookie=cookie)
sortVideo.sortVideos()
来源:https://www.cnblogs.com/chantmee/p/14761690.html
0
投稿
猜你喜欢
- 前言在我们的日常开发中, 常用的中间件有很多, 今天来讲一下怎么集成限流中间件, 它可以很好地用限制并发访问数来保护系统服务, 避免系统服务
- 1、参数个数控制parser.add_argument('-i', '--integers', nargs=
- 如果没有设置分页,django-rest-framework 会将所有资源类表序列化后返回,如果资源很多,就会对网站性能造成影响。为此,我们
- 本人python新手小白,记录学习过程中遇到的一些小问题。python 爬虫获取网页资源之前,联网是必须的,作为 python 中最常用的
- 才发现做了这么多的博客和视频,居然从来没有系统地做过分类网络,做一个科学的分类网络,对身体好。源码下载分类网络的常见形式常见的分类网络都可以
- 本文实例讲述了PHP实现的AES加密、解密封装类与用法。分享给大家供大家参考,具体如下:<?php/** * Class AES *
- 前言我们这里主要是利用requests模块和bs4模块进行简单的爬虫的讲解,让大家可以对爬虫有了初步的认识,我们通过爬几个简单网站,让大家循
- 一.Orcal临时表分类1.会话级临时表1).保存一个会话Session的数据。2).当会话退出时,临时表数据自动清空。表结构与元数据还存储
- 1.open使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。fi
- 后台数据库: [Microsoft Access] 与 [Microsoft Sql Server] 更换之后,ASP代码应注意要修改的一些
- 【译者的话】 网页上的小广告(banner)已经成为一种宣传推广的重要形式,但这些小广告除了版面细小外,图象的表现还受到象素较低等其它因素影
- 可迭代(iterable)迭代(遍历)就是按照某种顺序逐个访问对象中的每一项。Python中有很多对象都是可以通过for语句来直接遍历的,例
- 游戏规则:双方轮流选择棋盘的列号放进自己的棋子,若棋盘上有四颗相同型号的棋子在一行、一列或一条斜线上连接起来,则使用该型号棋子的玩家就赢了!
- 本文实例讲述了python通过wxPython打开一个音频文件并播放的方法。分享给大家供大家参考。具体如下:这段代码片段使用wx.lib.f
- 几天前我在考虑使用 python 从 whatsapp 发送消息。和你们一样,我开始潜伏在互联网上寻找一些解决方案并找到了关于twilio.
- 今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助。1、Scrapy爬虫框架Scrapy是一个使用Python编程语言
- 前两天看的时候,所用的歌曲地址加密方式已变更。将以前的发出来供大家赏玩。解密函数是从flash里面反编译出来的,加密函数是自己根据解密函数写
- 本文实例讲述了python获取一组数据里最大值max函数用法。分享给大家供大家参考。具体如下:# 最简单的max(1, 2)max('
- 如何用HtmlEncode来显示Unicode? 见下:<%@ Language=VBS
- mssql的每个varchar、text字段都被自动插入一段js代码,即使删除这段代码,如果没有从源头上解决,几分钟后,js代码就又会自动插