位置：首页>> 网络编程>> Python编程>> 用python爬取今日说法每期数据

用python爬取今日说法每期数据

作者：Aaron_Yang.　　发布时间：2022-07-23 05:30:22　

标签：python,今日说法

实验目的

主要是获取2021年今日说法每期节目主要内容及时间
今日说法的网址为：http://tv.cctv.com/lm/jrsf/index.shtml
当时怎么写的思路有点不太记得了，先把代码贴上，后续有时间再补上。

代码

import xlwt
import re

import requests

# url = "https://tv.cctv.com/lm/jrsf/index.shtml"

def get_data(page):
url = 'https://api.cntv.cn/NewVideo/getVideoListByColumn?id=TOPC145146466500891' \
'4&n=1000&sort=desc&p={pageNo}&mode=0&serviceId=tvcctv&cb=Callback'.format(pageNo=page)
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
return response.text
# print(response.text)

if __name__ == "__main__":

headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}

book = xlwt.Workbook(encoding='utf-8', style_compression=0)
sheet = book.add_sheet('今日说法', cell_overwrite_ok=True)

count = 0
for page in range(1,5):
page_content = get_data(page)
obj = re.compile(r'url":"(.*?.shtml)"', re.S)
imgUrl = re.findall(obj, page_content.replace('\\', ''))
for i in range(len(imgUrl)):
resp = requests.get(url=imgUrl[i], headers=headers)
resp.encoding = 'utf-8'

obj2 = re.compile(r'更新时间：</em>(.*?)</p>', re.S)
time = re.findall(obj2, resp.text)
obj3 = re.compile(r'视频简介：</em>(.*?)</p>', re.S)
jianjie = re.findall(obj3, resp.text)
content = []
content.append(time)
content.append(jianjie)
for j in range(2):
sheet.write(count, j, content[j])
count+=1

book.save("./data_5.xls")

实验结果

来源：https://blog.csdn.net/Captain_Aaron/article/details/122833718

0

投稿

猜你喜欢

oracle12c安装报错：PRVF-0002的解决方法
./runInstaller 启动图形化报错 PRVF-0002 : Could not retrieve local nodename.
TensorFlow打印tensor值的实现方法
最近一直在用TF做CNN的图像分类，当softmax层得到预测结果后，我希望能够看到预测结果，以便和标签之间进行比较。特此补上，以便自己记忆
Python利用PyPDF2快速拆分PDF文档
目录安装PyPDF2模块创建文件，准备PDF文档万事俱备，准备开拆文档的拆分思路python拆分计算公式：具体怎么拆？完整拆分程序：列表拆分
Python中urllib+urllib2+cookielib模块编写爬虫实战
超文本传输协议http构成了万维网的基础，它利用URI（统一资源标识符）来识别Internet上的数据，而指定文档地址的URI被称为URL（
有关JS中Event对象的几点总结
JavaScript/Dom中有很多很零碎的东西，让人总是感觉理解的有些“朦胧”，因此，有时候还是应该总结一下，对于Event对象，前两天看
在pycharm中使用matplotlib.pyplot 绘图时报错的解决
This application failed to start because it could not find or load the
JS点击图片弹出文件选择框并覆盖原图功能的实现代码
简单说下原理，把显示的图片的<img>标签和上传文件的 <input> 标签放在同一个div下，设置<img
使用python实现http及ftp服务进行数据传输的方法
服务器之间的http数据传输直接使用python内置的http服务：python -m SimpleHTTPServer 8000此时，输入
MySQL从库维护经验分享
前言： MySQL 主从架构应该是最常用的一组架构了。从库会实时同步主库传输来的数据，一般从库可以作为备用节点或作查询使用。其实不只是主库需
Python ZipFile模块详解
Python zipfile模块用来做zip格式编码的压缩和解压缩的，zipfile里有两个非常重要的class, 分别是ZipFile和Z
MySql like模糊查询通配符使用详细介绍
一、SQL模式SQL的模式匹配允许你使用“_”匹配任何单个字符，而“％”匹配任意数目字符（包括零个字符）。在 MySQL中，SQL的模式缺省
SQL学习笔记八索引，表连接，子查询，ROW_NUMBER
索引经常要查询的语句，则给它建一个索引表连接 select T_Oders as o join T_Customers as C on
Python中super函数用法实例分析
本文实例讲述了Python中super函数用法。分享给大家供大家参考，具体如下：这是个高大上的函数,在python装13手册里面介绍过多使用
使用PyWeChatSpy自动回复微信拍一拍功能的实现代码
前不久微信上线了拍一拍功能，刚推出就被有才的网友玩坏了。还有更多没有节操的拍法这里就不展示了。但拍一拍属于弱提示，只有在聊天界面才能感受到。
漂亮的title提示信息
以前见过一个很漂亮的网页提示信息，就是把鼠标放到网页的文字或者图片上面就会有提示的那种透明的，还带个箭头，很漂亮，不知道谁在哪见过没有，感谢
用Python实现一个简单的能够发送带附件的邮件程序的教程
基本思路就是，使用MIMEMultipart来标示这个邮件是多个部分组成的，然后attach各个部分。如果是附件，则add_header加入
表格艺术经典回顾
本文旨在挖掘表格在艺术创意方面的一些功能效果。运行代码框<script language="JavaScript"
Python实现的几个常用排序算法实例
前段时间为准备百度面试恶补的东西，虽然最后还是被刷了，还是把那几天的“战利品”放点上来，算法一直是自己比较薄弱的地方，以后还要更加努力啊。下
CentOS中使用virtualenv搭建python3环境
问题描述环境： CentOS6.5想在此环境下使用python3进行开发，但CentOS6.5默认的python环境是2.6.6版本。之前
使用 Python 实现微信群友统计器的思路详解
基于微信可以做很多有意思的练手项目，看了这张速查表你就会发现，可以做的事情超过你的想象。有一次我想要统计微信群里哪些同学在北京，但发现直接问

Python中parsel两种获取数据方式小结

解决Django中多条件查询的问题

python通过pil模块获得图片exif信息的方法

python监控网站运行异常并发送邮件的方法

python 使用OpenCV进行简单的人像分割与合成

基于OpenCV python3实现证件照换背景的方法

python2.7 mayavi 安装图文教程(推荐)

浅谈Python浅拷贝、深拷贝及引用机制

JS设计模式之责任链模式实例详解

Python实现设置windows桌面壁纸代码分享

wps ppt如何制作时间倒计时

Win10在右键菜单中添加管理员身份运行命令提示符的方法

原神尘歌壶同伴怎么入驻

Win11如何恢复并使用经典音量混合器？

windows 下python+numpy安装实用教程

文字脑洞末班车如何过关

js实现固定区域内的不重叠随机圆

烟雨江湖白贯虹自传去哪里获取

Win10 1709如何禁止系统强制更新驱动程序？

python应用文件读取与登录注册功能

手机版 网络编程 asp之家 www.aspxhome.com