位置：首页>> 网络编程>> Python编程>> python爬取豆瓣电影TOP250数据

python爬取豆瓣电影TOP250数据

作者：秋无之地　　发布时间：2021-12-27 12:50:17　

标签：python,豆瓣,爬虫

在执行程序前，先在MySQL中创建一个数据库"pachong"。

import pymysql
import requests
import re

#获取资源并下载
def resp(listURL):
#连接数据库
conn = pymysql.connect(
host = '127.0.0.1',
port = 3306,
user = 'root',
password = '******', #数据库密码请根据自身实际密码输入
database = 'pachong',
charset = 'utf8'
)

#创建数据库游标
cursor = conn.cursor()

#创建列表t_movieTOP250（执行sql语句）
cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL ,pictrue_address VARCHAR(100))')

try:
# 爬取数据
for urlPath in listURL:
# 获取网页源代码
response = requests.get(urlPath)
html = response.text

# 正则表达式
namePat = r'alt="(.*?)" src='
imgPat = r'src="(.*?)" class='

# 匹配正则（排名【用数据库中id代替，自动生成及排序】、电影名、电影海报（图片地址））
res2 = re.compile(namePat)
res3 = re.compile(imgPat)
textList2 = res2.findall(html)
textList3 = res3.findall(html)

# 遍历列表中元素,并将数据存入数据库
for i in range(len(textList3)):
cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) VALUES("％s","％s")' ％ (textList2[i],textList3[i]))

#从游标中获取结果
cursor.fetchall()

#提交结果
conn.commit()
print("结果已提交")

except Exception as e:
#数据回滚
conn.rollback()
print("数据已回滚")

#关闭数据库
conn.close()

#top250所有网页网址
def page(url):
urlList = []
for i in range(10):
num = str(25*i)
pagePat = r'?start=' + num + '&filter='
urL = url+pagePat
urlList.append(urL)
return urlList

if __name__ == '__main__':
url = r"https://movie.douban.com/top250"
listURL = page(url)
resp(listURL)

结果如下图：

来源：https://www.cnblogs.com/qiuwuzhidi/p/14784302.html

0

投稿

猜你喜欢

Python命令行解析器argparse详解
第1章 argparse简介1.1 解析argparse 模块是 Python 内置的一个用于命令项选项与参数解析的模块
网页对联广告代码效果大全
去过新浪或者搜狐吗？虽然我们都不愿意看广告，但是它们做广告的技术我们却应该学到手，这不，又一种很流行的做法儿，做成那种两边对称的对联式的广告
使用Spring.Net框架实现多数据库
一、建立一个空白的解决方案，名称为“SpringDotNot”二、新建一个类库项目：IBLL在IBL
Go语言中DateTime的用法介绍
一、基本使用①从属于time这个包②一般使用都是使用time.Time 这个类型表示时间，time包中还有一些常量，源码如下// Comm
Python利用matplotlib.pyplot绘图时如何设置坐标轴刻度
前言matplotlib.pyplot是一些命令行风格函数的集合，使matplotlib以类似于MATLAB的方式工作。每个pyplot函数
python中argparse模块用法实例详解
本文实例讲述了python中argparse模块用法。分享给大家供大家参考。具体分析如下：平常在写命令行工具的时候，经常会带参数，所以用py
python下函数参数的传递(参数带星号的说明)
函数参数的使用又有俩个方面值得注意：1.函数参数是如何定义的 2.在调用函数的过程中参数是如何被解析先看第一个问题，在python中函数参数
几个常用的js小函数
几个常用的js小函数，在表单验证时也许您用得到：一检查是否是email地址，二检查是否为数字，三检查是否为电话号码，四检查num是否是负数或
浅谈Python]程序的分支结构
单分支结构：if 语句Python 中 if 语句的语法格式如下:if <条件>： &emsp;
pytorch:model.train和model.eval用法及区别详解
使用PyTorch进行训练和测试时一定注意要把实例化的model指定train/eval，eval（）时，框架会自动把BN和DropOut固
Python正则表达式教程之一：基础篇
前言之前有人提了一个需求，我一看此需求用正则表达式最合适不过。考虑到之前每次使用正则表达式，都是临时抱佛脚，于是这次我就一边完成任务一边系统
python 服务器运行代码报错ModuleNotFoundError的解决办法
一、问题描述一段 Python 代码在本地的 IDE 上运行正常，部署到服务器运行后，出现了 ModuleNotFoundError: No
django中静态文件配置static的方法
环境centos7django 1.11nginx白话我们可以使用Template 设置我们的网页，同时，一个完美的网页需要css，js，i
SQL Server AlwaysOn读写分离配置图文教程
概述Alwayson相对于数据库镜像最大的优势就是可读副本，带来可读副本的同时还添加了一个新的功能就是配置只读路由实现读写分离；当然这里的读
python3中的函数与参数及空值问题
画星星程序2-7-7主要使用turtle.forward前进操作和turtle.left左转操作在屏幕上画星星。#!/usr/bin/env
Pytorch使用MNIST数据集实现基础GAN和DCGAN详解
原始生成对抗网络Generative Adversarial Networks GAN包含生成器Generator和判别器Discrimin
Python二进制串转换为通用字符串的方法
一个小问题今天在做一个实验时，需要对一个包含中英文词汇的TXT文件进行读入和整理。Python代码的编码规则为UTF-8。在读入时，文件的每
如何做迅雷电影提示效果
应该只是一个简单的层的定位及鼠标事件吧<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.
python条件变量之生产者与消费者操作实例分析
本文实例讲述了python条件变量之生产者与消费者操作。分享给大家供大家参考，具体如下：互斥锁是最简单的线程同步机制，面对复杂线程同步问题，
OpenCV 图像对比度的实践
本文主要介绍了OpenCV 图像对比度，具有一定的参考价值，感兴趣的可以了解一下实现原理图像对比度指的是一幅图像中明暗区域最亮的白和最暗的黑

在Matplotlib图中插入LaTex公式实例

python3.7调试的实例方法

python sort、sorted高级排序技巧

Python常用工具之音频调整音量

python编程学习使用管道Pipe编写优化代码

快速了解Python开发环境Spyder

Python如何生成exe文件?用Pycharm一步步带你学(超详细、超贴心)

30行Python代码实现高分辨率图像导航的方法

Python tkinter 树形列表控件(Treeview)的使用方法

Python 日志logging模块用法简单示例

V5shop网络联盟系统：网商应突破平台壁垒盈利为王

被称＂硬盘杀手＂的几个win7系统服务如何关闭

原神渌华景画奇怪的石头在哪

pr更新前的外部链接建设

Win11怎么设置任务栏大小？Win11设置任务栏教程

gigabyte主板uefi模式怎么进入bios设置u盘启动？

Win10怎么跳过自动修复？

如何在Python里使用ChatGPT及ChatGPT是什么?注册方式?

photoshop艺术效果

脑洞大师逃离密室第11关怎么过

手机版 网络编程 asp之家 www.aspxhome.com