python构建基础的爬虫教学
作者:please1748 发布时间:2023-09-28 04:24:38
爬虫具有域名切换、信息收集以及信息存储功能。
这里讲述如何构建基础的爬虫架构。
1、
urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。
2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。
1、基础爬虫
爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。
2、使用print输出打开的网址的内容。
3、从输出中可以看出内容的结构为:
4、输出内容中的html-body-h1的内容可使用四种语句。
5、
BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。
1、Error
在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。
2、
在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在
。
3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。
当程序返回HTTPError错误代码时,会显示错误内容。
4、服务器不存在时,urlopen会返回None.
可使用判断语句进行检测。
调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。
总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对脚本之家的支持。
来源:https://jingyan.baidu.com/article/adc81513b31b36f722bf7360.html


猜你喜欢
- split()介绍函数:split()Python中有split()和os.path.split()两个函数,具体作用如下:split():
- 什么是SeleniumSelenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流
- 本文实例为大家分享了python使用Plotly绘图工具绘制柱状图的具体代码,供大家参考,具体内容如下使用Plotly绘制基本的柱状图,需要
- function ten2eight(x){ var s=[]; var r=''; while(x>0){ s.pu
- PHP页面中文乱码出现的原因有几种,一种是页面编码不统计一,二是数据库未设置编码,三是apache编码有问题,下面我来给大家介绍两种解决办法
- 本文实例为大家分享了windows下mysql 8.0.12安装步骤及使用教程,供大家参考,具体内容如下1.到官网下载下载SQL。(1.1)
- 1、概述在前面的文章中,我有分享了vue+drf+第三方滑动验证码接入的实现 (文中也留了分享图片验证码功能的实现),即本文将要分享的是基于
- pymysql 模块的使用一、pymysql的下载和使用(1)pymysql模块的下载pip3 install pymysql(2)pymy
- 最近发现了一个宝藏动态可视化库,非常简单,即使是小白也能轻松上手。这个库就是motionchart,它能够用 pandas 的 datafr
- 提示:以下是本篇文章正文内容,下面案例可供参考一、uni-app中自带的弹窗示例:在前端开发中,为了优化用户的交互体验,常需要用到弹窗来进行
- 关于 PHP 的文件操作,我们也将是通过一系列的文章来进行学习。今天我们先学习的是一个很少人使用过,甚至很多人根本不知道的扩展,它与我们日常
- 省市区县数据来源Google地图. (包括34个省 , 371个市, 2824个县区) /**********创建省级表**********
- php读写二进制文件可以使用pack和unpack函数。今天要处理一个二进制文件的问题,所以需要用一下,特意了解一下pack的用法,unpa
- Python是动态语言,在创建对象后,可以动态地绑定属性和方法定义类:class Student: #定义类 &nb
- 线程和进程1、线程共享创建它的进程的地址空间,进程有自己的地址空间2、线程可以访问进程所有的数据,线程可以相互访问3、线程之间的数据是独立的
- 在python中安装非自带python模块,有三种方式:1.easy_install2.pip3.下载压缩包(.zip, .tar, .ta
- 1、在MySQL中要修改全局(global)变量,有两种方法:方法一,修改my.ini配置文件,如果要设置全局变量最简单的方式是在my.in
- 前言首先需要知道的是,js中有6个值为false,分别是: 0, '', null, undefined, NaN 和 fa
- 比如:import linecacheprint linecache.getline('2.1_open.py&
- python 遍历字符串(含汉字)实例详解s = "中国china"for j in s: print j首