Python抓取电影天堂电影信息的代码
作者:itjh 发布时间:2023-07-23 17:18:49
标签:Python,电影天堂
Python2.7Mac OS
抓取的是电影天堂里面最新电影的页面。链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html
获取页面的中电影详情页链接
import urllib2
import os
import re
import string
# 电影URL集合
movieUrls = []
# 获取电影列表
def queryMovieList():
url = 'http://www.dytt8.net/html/gndy/dyzz/index.html'
conent = urllib2.urlopen(url)
conent = conent.read()
conent = conent.decode('gb2312','ignore').encode('utf-8','ignore')
pattern = re.compile ('<div class="title_all"><h1><font color=#008800>.*?</a>></font></h1></div>'+
'(.*?)<td height="25" align="center" bgcolor="#F4FAE2"> ',re.S)
items = re.findall(pattern,conent)
str = ''.join(items)
pattern = re.compile ('<a href="(.*?)" class="ulink">(.*?)</a>.*?<td colspan.*?>(.*?)</td>',re.S)
news = re.findall(pattern, str)
for j in news:
movieUrls.append('http://www.dytt8.net'+j[0])
抓取详情页中的电影数据
def queryMovieInfo(movieUrls):
for index, item in enumerate(movieUrls):
print('电影URL: ' + item)
conent = urllib2.urlopen(item)
conent = conent.read()
conent = conent.decode('gb2312','ignore').encode('utf-8','ignore')
movieName = re.findall(r'<div class="title_all"><h1><font color=#07519a>(.*?)</font></h1></div>', conent, re.S)
if (len(movieName) > 0):
movieName = movieName[0] + ""
# 截取名称
movieName = movieName[movieName.find("《") + 3:movieName.find("》")]
else:
movieName = ""
print("电影名称: " + movieName.strip())
movieContent = re.findall(r'<div class="co_content8">(.*?)</tbody>',conent , re.S)
pattern = re.compile('<ul>(.*?)<tr>', re.S)
movieDate = re.findall(pattern,movieContent[0])
if (len(movieDate) > 0):
movieDate = movieDate[0].strip() + ''
else:
movieDate = ""
print("电影发布时间: " + movieDate[-10:])
pattern = re.compile('<br /><br />(.*?)<br /><br /><img')
movieInfo = re.findall(pattern, movieContent[0])
if (len(movieInfo) > 0):
movieInfo = movieInfo[0]+''
# 删除<br />标签
movieInfo = movieInfo.replace("<br />","")
# 根据 ◎ 符号拆分
movieInfo = movieInfo.split('◎')
else:
movieInfo = ""
print("电影基础信息: ")
for item in movieInfo:
print(item)
# 电影海报
pattern = re.compile('<img.*? src="(.*?)".*? />', re.S)
movieImg = re.findall(pattern,movieContent[0])
if (len(movieImg) > 0):
movieImg = movieImg[0]
else:
movieImg = ""
print("电影海报: " + movieImg)
pattern = re.compile('<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(.*?)">.*?</a></td>', re.S)
movieDownUrl = re.findall(pattern,movieContent[0])
if (len(movieDownUrl) > 0):
movieDownUrl = movieDownUrl[0]
else:
movieDownUrl = ""
print("电影下载地址:" + movieDownUrl + "")
print("------------------------------------------------\n\n\n")
执行抓取
if __name__=='__main__':
print("开始抓取电影数据");
queryMovieList()
print(len(movieUrls))
queryMovieInfo(movieUrls)
print("结束抓取电影数据")
总结
学好正则表达式很重要,很重要,很重要!!!! Python的语法好有感觉, 对比Java …


猜你喜欢
- 1.安装插件npm install jquery --save //jquery插件npm install bo
- 在Python中,函数本身也是对象,所以可以将函数作为参数传入另一函数并进行调用在旧版本中,可以使用apply(function, *arg
- 在将string类型的数据类型转换为spark rdd时,一直报这个错,StructType can not accept object %
- CentOS升级Python2.6到Pythno2.7最近在Linode上弄Python、出现ValueError: zero length
- 比如新浪微博发微博的输入框有一个已输入字数的统计,它的规则推测是:汉字和中文标点算 1 个字数,英文和其他符号算 0.5 个字数。不足 1
- 基于python的web项目,常见的部署方法有: fcgi:用spawn-fcg
- 本文实例讲述了MySQL数据库优化之分表分库操作。分享给大家供大家参考,具体如下:分表分库垂直拆分垂直拆分就是要把表按模块划分到不同数据库表
- 发现问题比解决问题重要,使用php集成开发环境Appserv网页会提示各种语法错误,但自己配置开发环境无法提示错误,特别当不是语法错误,比如
- 为什么要用flash呢?动画流畅,视觉效果好缓存能力强那使用flash有什么问题呢?需要Flash播放器在M$的补丁打遍天下之前IE有那神奇
- 1)首先注册一个邮箱,这里以163邮箱为例2)注册之后登录,进行如下修改找到设置,设置一个授权码,授权码的目的仅仅是让你有权限发邮件,但是不
- 判断缩进代替大括号。冒号(:)后换号缩进。iftest=100if test>50: print('OK')print
- 目录什么是预处理?那么预处理有啥好处?Go实现 MySQL 的事务sqlx使用gin + mysql + rest full api&nbs
- 本文实例讲述了C#窗体读取EXCEL并存入SQL数据库的方法。分享给大家供大家参考。具体实现方法如下:windows窗体上放了一个Textb
- aspjpeg组件实现加水印函数的调用方法: <%printwater "/images/水印图片.gif",&q
- 本文实例讲述了python使用reportlab实现图片转换成pdf的方法。分享给大家供大家参考。具体实现方法如下:#!/usr/bin/e
- 本文实例讲述了python数组过滤实现方法。分享给大家供大家参考。具体如下:这段代码可以按照指定的条件过滤数组内的元素,返回过滤后的数组li
- 更详细的信息可以去查msdn或者Navigator 2.0以后的说明文档,这里我们之做个简单的说明 包括一下几大属性: appCodeNam
- FTP一般流程FTP对应PASV和PORT两种访问方式,分别为被动和主动,是针对FTP服务器端进行区分的,正常传输过程中21号端口用于指令传
- MySQL 分区技术(是mysql 5.1以版本后开始用->是甲骨文mysql技术团队维护人员以插件形式插入到mysql里面的技术)1
- 在自动化测试过程中,有时后会遇到元素定位方式没有问题,但是依旧抛出无法找到元素的异常的问题,通常情况下,如果元素定位没有问题,但还是无法找到