python爬取豆瓣电影排行榜(requests)的示例代码
作者:Alvin_轩 发布时间:2022-10-16 02:18:46
'''
爬取豆瓣电影排行榜
设计思路:
1、先获取电影类型的名字以及特有的编号
2、将编号向ajax发送get请求获取想要的数据
3、将数据存放进excel表格中
'''
环境部署:
软件安装:
Python 3.7.6
官网地址:https://www.python.org/
安装地址:https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe
PyCharm 2020.2.2 x64 位
官网地址:https://www.jetbrains.com/pycharm/download/#section=windows
参考教程:https://www.jb51.net/article/197466.htm
模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】):安装requests模块、lxml模块(发送请求,xpath获取数据)
pip install requests #(主要用来发送请求,获取响应)
pip install lxml #(主要引用里面的etree里面的xpath方法)
安装xpathhelper插件(可以在网页中复制相应的节点xpath路径并查看)
1、下载地址:
链接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg
提取码: fmsu
2、window平台下:
· 把文件的后缀名crx改为rar,然后解压到同名文件夹中
· 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中
· 打开开发者模式,通过加载已解压的扩展程序,将插件导入
3、ios平台下:
· 直接将crx文件拖进扩展程序中
安装xlwt模块(将数据存放进excel表格)
pip install xlwt
项目中需要引入的模块:
import requests
from lxml import etree
import xlwt
import time
使用流程:
在列表中填写所需要获取的电影类型名
输入开始时获取的start以及获取多少数据的limit
填写所要输出的excel表格的名字(代码中默认douban.xls)
程序运行结束后打开excel验证数据是否获取
观察自己所需的数据
完整代码:
# encoding=utf8
# 编程者 :Alvin
'''
爬取豆瓣电影排行榜
设计思路:
1、先获取电影类型的名字以及特有的编号
2、将编号向ajax发送get请求获取想要的数据
3、将数据存放进excel表格中
'''
import requests
from lxml import etree
import xlwt
import time
class DouBan():
# 初始化数据,获取最外层的数据
def __init__(self, name_list):
self.headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
"Connection": "close",
"Referer": "https://movie.douban.com/"
}
# 获取最外层的数据,并拿到url中的type中的name 和 类型
self.url = 'https://movie.douban.com/chart'
self.dydata_list = []
# 电影的类型名
self.name_list = name_list
# 实例化excel表格对象
self.wb = xlwt.Workbook()
# 通过电影的类型名字获取对应的类型号
def get_data_typenum(self, name):
for data in self.dydata_list:
if data['name'] == name:
typenum =data['dytype']
else:
continue
return typenum
# 获取数据
def get_data_p1(self):
response = requests.get(self.url , headers = self.headers)
# 判断长度是否足够大
# print(len(response.content.decode()))
return response.content.decode()
# 获取下一层的页面数据
def get_data_p2(self, typenum, num, limit):
url = 'https://movie.douban.com/j/chart/top_list'
params = {
'type': typenum,
'interval_id': '100:90',
'action':'',
'start': num*20,
'limit': limit
}
response = requests.get(url,params=params,headers=self.headers)
# print(response.json())
return response.json()
# 处理数据
def data_parse_p1(self, data):
html = etree.HTML(data)
data_list = html.xpath('//div[@class="types"]/span/a/@href')
# 用于收集类型名字
name_list = []
dytype_list = []
# 用于收集类型号
for data in data_list:
name = data.split('?')[-1].split('&')[0].split('=')[-1]
dytype = data.split('?')[-1].split('&')[1].split('=')[-1]
name_list.append(name)
dytype_list.append(dytype)
for (name,dytype) in zip(name_list,dytype_list):
dydict = {}
dydict['name'] = name
dydict['dytype'] = dytype
self.dydata_list.append(dydict)
# print(self.dydata_list)
return self.dydata_list
def data_parse_p2(self, data_list,name):
print(len(data_list))
douban = self.wb.add_sheet(name)
style = xlwt.XFStyle() # 初始化一个style对象,用来保存excel的样式
font = xlwt.Font() # 创建一个font对象,用来保存对字体进行的操作
font.name = '微软雅黑' # 字体设置为'微软雅黑'
font.bold = True # 字体加粗
al = xlwt.Alignment() # 创建一个对齐对啊想,用来改变文本内容的字体
style.font = font # 将字体信息保存到style对象中
style.alignment = al
# 水平对齐方式、水平居中
al.horz = 0x02
# 垂直对齐方式、垂直居中
al.vert = 0x01
# 电影的标题
douban.col(0).width = 256 * 25
# 电影演员的名字
douban.col(1).width = 256 * 50
# 电影上映的年份
douban.col(2).width = 256 * 15
# 电影上映的国家
douban.col(3).width = 256 * 15
# 电影的标签
douban.col(4).width = 256 * 20
# 电影的评分
douban.col(5).width = 256 * 8
# 豆瓣中该电影的页面链接
douban.col(6).width = 256 * 40
douban.write(0, 0, '电影标题', style)
douban.write(0, 1, '电影演员名字', style)
douban.write(0, 2, '电影上映年份', style)
douban.write(0, 3, '电影上映国家', style)
douban.write(0, 4, '电影标签', style)
douban.write(0, 5, '电影评分', style)
douban.write(0, 6, '豆瓣中该电影的页面链接', style)
row = 1
for data in data_list:
# 电影的标题
title = data['title']
# 电影演员的名字
actors = data['actors']
# 电影上映的年份
release_date = data['release_date']
# 电影上映的国家
regions = data['regions'][0]
# 电影的标签
types = data['types']
# 电影评分
score = data['score']
# 豆瓣查看的链接
link = data['url']
douban.write(row, 0, title)
douban.write(row, 1, actors)
douban.write(row, 2, release_date)
douban.write(row, 3, regions)
douban.write(row, 4, types)
douban.write(row, 5, score)
douban.write(row, 6, link)
row += 1
self.wb.save('douban.xls')
# 运行程序
def run(self, num, limit):
# 获取第一层中的所需要的类型名字和数字
self.data_parse_p1(self.get_data_p1())
for name in self.name_list:
typenum = self.get_data_typenum(name)
# 向指定的分类进行数据的访问
data_list = self.get_data_p2(typenum,num,limit)
# 对获取的数据进行解析保存
self.data_parse_p2(data_list,name)
if __name__ == '__main__':
# 需要查看的类型
douban = DouBan(['喜剧','悬疑','惊悚'])
# 需要查看的开始值start,以及需要查看的数量limit
douban.run(0,100)
time.sleep(2)
效果图pycharm 运行台
excel表格显示
本案例笔者的想法是打算先获取到每一个电影类型的前100个数据,然后在excel表格中进行评分的筛选,最后观察现阶段某个电影类型中哪些电影在豆瓣电影中评分较高的
来源:https://www.cnblogs.com/xuan68/p/14406321.html
猜你喜欢
- 使用 designer 进行开发首先要知道,使用 Qt designer 和 代码进行 Qt 开发实现页面跳转是不一样的,这里我们使用的是
- 当你连接一个MySQL服务器时,你通常应该使用一个口令。口令不以明文在连接上传输。所有其它信息作为能被任何人读懂的文本被传输。如果你担心这个
- 最近一直跟着廖大在学Python,关于分布式进程的小例子挺有趣的,这里做个记录。分布式进程Python的multiprocessing模块不
- 基本概述我们知道MySQL有2种方式指定复制同步的方式,分别为:基于binlog文件名及位点的指定方式 - 匿名事
- 八卦为先八卦是种优良品质,特别是用在技术上时。来看几个Reset CSS的八卦问题吧:你知道世界上第一份reset.css在哪么?* { m
- 春节休息了几天,今天上班第一天,最近混twitter混得比较多,经常要压缩URL,以前做了个书签用http://is.gd/压缩,后来发现了
- 本博客将为各位分享Python Helium库,其是在 Selenium库基础上封装的更加高级的 Web 自动化工具,它能够通过网页端可见的
- 用ASP编写虚拟社区、网上购物等程序时,Application和Session对象具有举足轻重的作用,能够灵活合理地运用这两个对
- 本文实例讲述了Python求解平方根的方法。分享给大家供大家参考。具体如下:主要通过SICP的内容改写而来。基于newton method求
- 【引自ideras.me的博客】前言随着wordpress和静态网站的流行,markdown被用的越来越多。markdown是一个面向写作的
- 不同于其他软件项目,互联网项目的开发有其独有的特性。互联网项目开发不同于传统软件项目开发不同于需求定制性的软件开发公司。客户的需求是明确的,
- 一、 在数据库排序查询优化上的差异。在讲解这个内容之前,为了读者能够清楚我讲的内容,我要先谈一个概念。命中率,它是指从内存中取得数据而不从磁
- 思维导图:效果(语句版):源码:# -*- coding: utf-8 -*-"""Created
- 前言今天继续为大家更新Go语言学习记录的文章。首先说明pointer指针和switch是两个并没有直接关系的知识点,放在一篇文章中将的原因是
- 本文实例讲述了Python实现繁體转为简体的方法。分享给大家供大家参考,具体如下:这里需要用到两个文件,可以点击此处本站下载源文件:zh_w
- 在说到什么是回表查询的时候,有两个概念需要先解释清楚:分别是聚集索引(聚簇索引)和非聚集索引(非聚簇索引)聚集索引和非聚集索引MySQL规定
- 前言在日常开发中,用mysql进行查询的时候,有一个比较少见的关键词exists,我们今天来学习了解一下这个exists这个sql关键词的用
- 近来在训练检测网络的时候会出现loss为nan的情况,需要中断重新训练,会很麻烦。因而选择使用PyTorch提供的梯度裁剪库来对模型训练过程
- 一般iis中比较简单,iis6如下图所示即可:很多购买虚拟主机空间的用户,如果空间商提供了在线管理程序,也可以实现。具体的看下帮助即可。需要
- Math.random()Math.random()是JavaScript默认提供的生成随机数的方法。该方法返回一个0到1之间的浮点数,其值