Python爬豆瓣电影实例
作者:laozhang 发布时间:2022-03-22 20:03:12
标签:Python,豆瓣电影
文件结构
html_downloader.py - 下载网页html内容
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
class HtmlDownloader(object):
def downlod(self, url):
if url is None:
return None
response = urllib2.urlopen(url)
if response.getcode() != 200:
return None
return response.read()
html_outputer.py - 输出结果到文件中
#!/usr/bin/python
# -*- coding: UTF-8 -*-
class HtmlOutputer(object):
def collect_data(self, movie_data):
if movie_data is None:
return
fout = open('output.html', 'a+')
for data in movie_data:
print data['name'] + '|', data['rate'] + '|', data['actor'], '\n'
fout.write('%s,' % data['name'].encode('utf-8'))
fout.write('%s,' % data['rate'])
fout.write('%s\n' % data['actor'].encode('utf-8'))
fout.close()
html_parser.py: 解析器:解析html的dom树
#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
class HtmlParser(object):
def __init__(self):
pass
def parser_html(self, cnt):
if cnt is None:
return
soup = BeautifulSoup(cnt, 'html.parser', from_encoding='utf-8')
# movie_name, movie_desc, movie_rate =
return self.get_movie_names(soup)
def get_movie_names(self, soup):
movie_data = []
movie_all = soup.find('div', class_='article').find_next('table').find_next_sibling('div').find_next_sibling('div').find_all('table')
count = 1
for movie_one in movie_all:
movie_data.append(self.get_movie_name(movie_one))
# if count > 2:
# break
count += 1
return movie_data
def get_movie_name(self, cnt):
info = {}
soup = BeautifulSoup(str(cnt), 'html.parser', from_encoding='utf-8')
movie_one = soup.find('tr', class_='item').find_next('td').find_next_sibling('td').find('div', class_='pl2')
info['name'] = movie_one.find('a').get_text().replace("\n", "").replace(" ", "")
info['actor'] = movie_one.find('p', class_='pl').get_text().replace("\n", "").replace(" ", "")
info['rate'] = movie_one.find('div', class_='star clearfix').find('span', class_='rating_nums').get_text()
return info
spider_main.py - 主函数
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import html_parser, html_outputer, html_downloader
class SpiderMain(object):
def __init__(self):
self.parser = html_parser.HtmlParser()
self.outputer = html_outputer.HtmlOutputer()
self.downloader = html_downloader.HtmlDownloader()
def craw(self, url):
html_cnt = self.downloader.downlod(url)
movie_data = self.parser.parser_html(html_cnt)
self.outputer.collect_data(movie_data)
if __name__ == '__main__':
url = 'https://movie.douban.com/tag/2017?start=100&type=T'
spider = SpiderMain()
spider.craw(url)
综述
其实就是使用了urllib2和BeautifulSoup库,没啥好说的,你也可以直接改url,然后更改html_parser.py文件来满足你自己的爬虫需求。当前也可以更改html_outputer.py来定义保存格式,目前是csv。


猜你喜欢
- 前言提起selenium想必大家都不陌生,作为一款知名的Web自动化测试框架,selenium支持多款主流浏览器,提供了功能丰富的API接口
- 1, see the slow log status;mysql> show variables like '%slow%
- 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名代码:#
- 今天不小心又点了收藏夹里Google的新首页风格的地址,赫然发现又变了!从这个页面上线以来,偶尔会去看看,短短一年的时间,已经变换了至少三次
- 一、介绍argparse 模块可以让人轻松编写用户友好的命令行接口。程序定义它需要的参数,然后 argparse 将弄清如何从 sys.ar
- 万众瞩目的 Firefox 3 从昨天开始可以下载了,用“铺天盖地”四个字来形容她的宣传一点都不为过。大多数的广告还是她的fans自发进行的
- 首先要兼容IE\FF滴然后有一个环境与条件:必须是使用em单位布局。因为这个是利用字号做缩放效果,并且兼容fontSize各项单位,例如px
- 1 Neural Networks 神经网络1.1 Visualizing the data 可视化数据这部分我们随机选取100个样本并可视
- 一、我的需求对于这样的一个 csv 表,需要将其(1)将营业部名称和日期和股票代码进行拼接(2)对于除了买入金额不同的的数据需要将它们的买入
- 关于混淆矩阵的概念,可参考此篇博文混淆矩阵1.混淆矩阵混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真
- 本文实例讲述了Python实现生成随机数据插入mysql数据库的方法。分享给大家供大家参考,具体如下:运行结果:实现代码:import ra
- lxml是Python中与XML及HTML相关功能中最丰富和最容易使用的库。lxml并不是Python自带的包,而是为libxml2和lib
- 我们很多时候,特别是在生成任务的时候,都需要一个唯一标识字符串来标识这个任务,比较常用的有生成uuid或者通过时间来生成。uuid的话可以直
- unsigned 既为非负数,用此类型可以增加数据长度! 例如如果 tinyint最大是127,那 tinyint unsigned 最大
- golang中的string是可以转换为byte数组或者rune数组但是其实byte对应的类型是uint8,而rune对应的数据类型就是in
- 前三篇文章中,明确了栅格系统的设计细节和适用范围。这一篇将集中讨论960栅格系统的技术实现。Blueprint的实现Blueprint是一个
- 前言turtle库是Python语言中一个很流行的绘制图像的函数库,可以轻松地绘制出精美的形状和图案,很适合用来引导孩子学习编程。turtl
- 项目输出项目先决条件要使用python构建井字游戏,我们需要tkinter模块和python的基本概念Tkinter模块是用于渲染图形的标准
- mssql 错误日志文件存放位置:C:\Program Files\Microsoft SQL Server\MSSQL\LOG 用记事本查
- Edit:2016-5-11 修正了代码里面一些明显的错误,并发布在 ajaxjs 库之中,源码在这里。Edit:2016-5-24 加入