位置：首页>> 网络编程>> Python编程>> Python使用requests及BeautifulSoup构建爬虫实例代码

Python使用requests及BeautifulSoup构建爬虫实例代码

作者：sober_qianyang　　发布时间：2021-08-13 11:33:13　

标签：python,requests,beautifulsoup,爬虫

本文研究的主要是Python使用requests及BeautifulSoup构建一个网络爬虫，具体步骤如下。

功能说明

在Python下面可使用requests模块请求某个url获取响应的html文件，接着使用BeautifulSoup解析某个html。

案例

假设我要http://maoyan.com/board/4猫眼电影的top100电影的相关信息，如下截图：

获取电影的标题及url。

安装requests和BeautifulSoup

使用pip工具安装这两个工具。

pip install requests

pip install beautifulsoup4

程序

__author__ = 'Qian Yang'
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
def get_one_page(url):
response= requests.get(url)
if response.status_code == 200:
return response.content.decode("utf8","ignore").encode("gbk","ignore")
#采用BeautifulSoup解析
def bs4_paraser(html):
all_value = []
value = {}
soup = BeautifulSoup(html,'html.parser')
# 获取每一个电影
all_div_item = soup.find_all('div', attrs={'class': 'movie-item-info'})
for r in all_div_item:
# 获取电影的名称和url
title = r.find_all(name="p",attrs={"class":"name"})[0].string
movie_url = r.find_all('p', attrs={'class': 'name'})[0].a['href']
value['title'] = title
value['movie_url'] = movie_url
all_value.append(value)
value = {}
return all_value

def main():
url = 'http://maoyan.com/board/4'
html = get_one_page(url)
all_value = bs4_paraser(html)
print(all_value)

if __name__ == '__main__':
main()

代码测试可用，实现效果：

来源：http://blog.csdn.net/qy20115549/article/details/78111615

0

投稿

猜你喜欢

Python计算机视觉里的IOU计算实例
其中x1,y1;x2,y2分别表示两个矩形框的中心点def calcIOU(x1, y1, w1, h1, x2, y2, w2, h2):
Python+Pygame实现简单的射击小游戏
前言哈喽！哈喽。栗子上线啦~要说什么游戏能够获得大家的喜爱？唯射击游戏莫属。此前大火手游的《刺激战场》当然现在是叫做《和平精英》啦，想当初我
用户研究中的人物角色
本文是关于人物角色的一些简单介绍，感谢瑶芝同学提供的大力帮助！人物角色（Personas）作为一种技术
python-pymysql获取字段名称-获取内容方式
python-pymysql获取字段名称-获取内容获取字段名称-获取内容import pymysql# 连接数据库db = pymysql.
Python中的内置函数isdigit()
Python内置函数isdigit()使用今天简单介绍一下Python中的isdigit()函数的用法：判断单个字符是否为数字判断字符串中是
Flask项目中实现短信验证码和邮箱验证码功能
Flask是一个用Python编写的Web应用程序框架，Flask是python的web框架，最大的特征是轻便，让开发者自由灵活的兼容要开发
Python使用ClickHouse的实践与踩坑记录
ClickHouse是近年来备受关注的开源列式数据库（DBMS），主要用于数据联机分析（OLAP）领域，于2016年开源。目前国内社区火热，
Go项目中添加生成时间与版本信息的方法
我们在编写软件时，一般会有版本号以及生成的时间，Go编译的程序中，如何添加当时的编译时间以及版本信息？C/C++语言，非常方便，可以直接使用
Python入门_浅谈数据结构的4种基本类型
数据结构：通俗点说，就是储存大量数据的容器。这里主要介绍Python的4种基本数据结构：列表、字典、元组、集合。格式如下：列表：list =
Eclipse配置python默认头过程图解
eclipse 配置 python 默认头打开eclipse 点窗口（Windows）->首选项（Preferences）Prefe
Python dict和defaultdict使用实例解析
先看一个需求from collections import defaultdict"""需求: 统计user_
Hibernate Oracle sequence的使用技巧
一、为表创建自增长自段有两种，一种是不同的表使用各自的Sequence，方法如下： 1、在Oracle sequence首先创建sequen
基于Python的自媒体小助手---登录页面的实现代码
核心技术：Python3.7GUI技术：Tkinter （Python已经内置）好多文章写Python GUI之tkinter窗口视窗教程大
python交换两个变量的值方法
大部分语言，例如c语言，交换两个变量的值需要使用中间变量。例如交换a,b伪代码：tmp = aa = bb = tmppython里面可以实
python对批量WAV音频进行等长分割的方法实现
对批量WAV音频进行等长分割对WAV格式的音频以相同长度进行分割。import osimport waveimport numpy as n
JavaScript 题型问答有答案参考
1．如何获取表单<select>域的选择部分的文本？ <form name="a"> <s
基于Python实现文件分类器的示例代码
本文实现文件分类器的目的主要是为了将办公过程中产生的各种格式的文件完成整理。通过自定义需要整理的文件目录，将该目录下面的全部文件按照文件格式
python腾讯语音合成实现过程解析
一、腾讯语音合成介绍腾讯云语音合成技术（TTS）可以将任意文本转化为语音，实现让机器和应用张口说话。腾讯TTS技术可以应用到很多场景，比如
SQLServer数据库中开启CDC导致事务日志空间被占满的原因
SQLServer中开启CDC之后，在某些情况下会导致事务日志空间被占满的现象为：在执行增删改语句（产生事务日志）的过程中提示，The tr
javascript中typeof操作符和constucor属性检测
*#type.jsfunction Person(name, age) { this.name = name; this

Python中如何将Tqdm与Asyncio结合使用呢

python绘制箱型图

python基于moviepy实现音视频剪辑

Python3实现发送QQ邮件功能（html）

python批量下载图片的三种方法

Python中urllib+urllib2+cookielib模块编写爬虫实战

Python编程生成随机用户名及密码的方法示例

将imagenet2012数据为tensorflow的tfrecords格式并跑验证的详细过程

利用python实现简单的邮件发送客户端示例

Python中的 pass 占位语句

wps表格如何隐藏一行数据

食物语离集烧鸡技能好用吗?离集烧鸡技能效果及用法介绍

爆梗找茬王我们的歌关卡怎么通关

英雄联盟手游攻速上限是多少

windows7系统下telnet命令失效提示不是内部或外部命的解决方法

excel的rank函数的使用方法

WPS表格怎么插入函数的方法

U盘怎么重装Win10系统？石大师U盘重装系统教程

Win11右下角不显示图标怎么办？Win11右下角不显示图标的解决方法

原神托马阵容怎么搭配

手机版 网络编程 asp之家 www.aspxhome.com