位置：首页>> 网络编程>> Python编程>> Python爬虫获取页面所有URL链接过程详解

Python爬虫获取页面所有URL链接过程详解

作者：程序员的人生A　　发布时间：2022-01-31 10:48:46　

标签：Python,爬虫,页面,URL,链接

如何获取一个页面内所有URL链接？在Python中可以使用urllib对网页进行爬取，然后利用Beautiful Soup对爬取的页面进行解析，提取出所有的URL。

什么是Beautiful Soup？

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快。

全部代码：

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
for links in pageurls:
if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
Upageurls[links.get("href")]=0
for links in Upageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print "connect failed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
print n,
print links,
print Upageurls[links]
t1=time.time()
print t1-t2
n+=1
print ("total is "+repr(n)+" links")
print time.time()-t
scanpage(http://news.163.com/)

利用BeautifulSoup还可以有针对性的获取网页链接：Python爬虫获取网页上的链接，通过beautifulsoup的findall()方法对匹配的标签进行查找。

来源：https://www.cnblogs.com/chengxuyuanaa/p/12986320.html

0

投稿

猜你喜欢

Python pass语句作用和Python assert断言函数的用法
一、Python pass语句在实际开发中，有时候我们会先搭建起程序的整体逻辑结构，但是暂时不去实现某些细节，而是在这些地方加一些注释，方面
Python GUI编程文本弹窗的实例
如下所示： out = subprocess.getstatusoutput('adb shell pm
Python获取指定文件夹下的文件名的方法
本文采用os.walk()和os.listdir()两种方法，获取指定文件夹下的文件名。一、os.walk()模块os中的walk()函数可
聊聊Python pandas 中loc函数的使用,及跟iloc的区别说明
loc和iloc的意思首先，loc是location的意思，和iloc中i的意思是指integer，所以它只接受整数作为参数，详情见下面。l
解决Django生产环境无法加载静态文件问题的解决
起步线上部署时因设置了 settings.DEBUG = False 会导致静态文件都是 404 的情况。主要原因是应为关闭DEBUG模式后
python数据分析之公交IC卡刷卡分析
一、背景交通大数据是由交通运行管理直接产生的数据（包括各类道路交通、公共交通、对外交通的刷卡、线圈、卡口、GPS、视频、图片等数据）、交通相
python的常见命令注入威胁
ah！其实没有标题说的那么严重！不过下面可是我们开发产品初期的一些血淋淋的案例，更多的安全威胁可以看看北北同学的《python hack》P
最新mysql-5.7.21安装和配置方法
1、将下载好的mysql压缩包解压到安装目录下2、新建文件 my.ini，放置到mysql安装目录下，内容如下：[mysql]# 设置mys
Python深度学习之Unet 语义分割模型(Keras)
前言最近由于在寻找方向上迷失自我，准备了解更多的计算机视觉任务重的模型。看到语义分割任务重Unet一个有意思的模型，我准备来复现一下它。一、
Django 实现xadmin后台菜单改为中文
应用目录下apps.pyclass OperationConfig(AppConfig): name = 'operat
用MyEclipse配置DataBase Explorer(图示)
本意是为了和手写jdbc对照，不过不要和原来的手写连接重名。打开cmd，直接输入notepad就打开了记事本。jdk1.5之后不必配置cla
CentOS7.8安装mysql 8.0.20的教程详解
一、安装mysql软件下载并安装MySQL官方的 Yum Repository,Mysql版本8.0.20wget -i -c h
Go语言配置数据库连接池的实现
目录配置连接池SetMaxOpenConns方法SetMaxIdleConns方法SetConnMaxLifetime方法SetConnMa
Python输出指定字符串的方法
问题描述输入一串字符，由字母、数字和空格组成，长度 < 1000, 判断其中是否存在日期格式的数据。日期格式的数据具有如下的特征，连续
python爬虫爬取股票的k线图
前言之前已经讲述了一些关于;python;获取基金的一些信息，最近又有了一些新发现，和大家分享一下，这个是非常重要的内容，非常重要的内容。这
python 对给定可迭代集合统计出现频率,并排序的方法
给定一个可迭代sequence，对其中的值进行出现次数统计：方法1：def get_counts(sequence): counts = {
FrontPage2003 中网页布局功能的应用
很多朋友对FrontPage2003中增加的网页布局功能很感兴趣，现在我们一起来深入了解这一实用功能。用FrontPage200
高考要来啦!用Python爬取历年高考数据并分析
开发工具**Python版本：**3.6.4相关模块：pyecharts模块；以及一些Python自带的模块。环境搭建安装Python并添加
详解PHP设计模式之桥接模式
简介桥接模式又叫桥梁模式，属于结构型模式。目的是将抽象与实现分离，使它们都可以独立的变化，解耦。继承有很多好处，但是会增加耦合，而桥接模式偏
python实现本地批量ping多个IP的方法示例
本文主要利用python的相关模块进行批量ping ，测试IP连通性。下面看具体代码（python3）：'''遇到问

python 实现任务管理清单案例

python中ASCII码字符与int之间的转换方法

Python中的Function定义方法第1/2页

对python中的os.getpid()和os.fork()函数详解

python pygame模块编写飞机大战

pytorch 常用函数 max ,eq说明

python 实现让字典的value 成为列表

Python实现根据IP地址和子网掩码算出网段的方法

python模拟鼠标点击和键盘输入的操作

python实现录音功能（可随时停止录音）

Android中NestedScrolling滑动机制详解

wps文字如何设置文档结构图

电脑出现“你的电脑遇到问题,需要重新启动,我们只收集”怎么办

Win10 2004蓝屏后如何让系统自动重启？蓝屏自动重

wps如何给图片添加外发光边框 wps给图片添加外发光边框的教程

深度帮你在Win8.1系统中设置登录密码

Microsoft Edge浏览器怎么设置主题？

Win10一周年更新预览版14352上手体验视频

Win10 Build 9901 泄露改进细节画廊

excel表格如何撤销输入值非法

手机版 网络编程 asp之家 www.aspxhome.com