位置：首页>> 网络编程>> Python编程>> python提取页面内url列表的方法

python提取页面内url列表的方法

作者：小萝莉　　发布时间：2022-12-26 15:29:27　

标签：python,url

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下：

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
for links in pageurls:
if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
Upageurls[links.get("href")]=0
for links in Upageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print "connect failed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
print n,
print links,
print Upageurls[links]
t1=time.time()
print t1-t2
n+=1
print ("total is "+repr(n)+" links")
print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

0

投稿

猜你喜欢

Python中三种时间格式转换的方法
一时间元组1. 时间元组和时间戳的互化import time,datetime# 获取当前时间的时间元组t = time.localtim
Python 统计列表中重复元素的个数并返回其索引值的实现方法
需求：统计列表list1中元素3的个数，并返回每个元素的索引list1 = [3, 3, 8, 9, 2, 10, 6, 2, 8, 3,
PHP count()函数讲解
PHP count() 函数实例计算 car 节点的子节点个数：<?php $xml=<<<XML<cars&
Python实现批量修改图片格式和大小的方法【opencv库与PIL库】
本文实例讲述了Python实现批量修改图片格式和大小的方法。分享给大家供大家参考，具体如下：第一种方法用到opencv库import osi
Python Django搭建文件下载服务器的实现
环境win10Python：3.6.7Django：2.2.7运行效果1、创建 Django 项目# 创建Download项目django-
Python Lambda函数使用总结详解
这篇文章主要介绍了Python Lambda函数使用总结详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需
合理利用页面标签元素有利用搜索引擎收录
搜索引擎是通过分析网页源代码来分析页面文本信息的逻辑性，所以在编写网页代码的时候一定要尽可能使用合适的标签来体现文本表达的层次感，也即是让搜
python有证书的加密解密实现方法
本文实例讲述了python有证书的加密解密实现方法。分享给大家供大家参考。具体实现方法如下：最近在做python的加解密工作，同时加完密的串
python中requests模块的使用方法
本文实例讲述了python中requests模块的使用方法。分享给大家供大家参考。具体分析如下：在HTTP相关处理中使用python是不必要
Pytorch中torch.cat()函数举例解析
一. torch.cat（）函数解析1. 函数说明1.1 官网：torch.cat()，函数定义及参数说明如下图所示：1.2 函数功能函数将
Sql server中时间查询的一个比较快的语句
在access中进行时间的比较sql语句很简单，如select * from table where thetime>#\"
8大措施帮你构筑Access安全防线
今天下午，低一度博客受到攻击了，出现了大约一个小时的访问异常。庆幸的是，这帮无耻歹徒没能成功获取我的Access数据库，而只是象征性地给我注
《色彩解答》系列之二色彩比例
《色彩解答》系列之一色彩层次这次我们将深入进去了解一下众多色彩在一起之后所存在的“比例”关系。我们在使用色彩的时候不可能把所有的色彩都做得
能介绍一下NameSpace常用的地方吗？
我们大致会在下列几种情况下用到：一、文件操作（FileSystemObject）<％@ IMPORT
关于jupyter lab安装及导入tensorflow找不到模块的问题
今天尝试了一下据说最好用的编译器Jupyter Lab，安装期间遇到了很多问题，以此为记录。1.安装jupyter labjupyter l
Python实现查找系统盘中需要找的字符
本文实例讲述了Python实现查找系统盘中需要找的字符。分享给大家供大家参考。具体如下：'''Created on
apache+mysql+php+ssl服务器之完全安装攻略
目的我们的目标是安装一个允许我们托管多个网站的web服务器，其中一些是针对电子商务的安全解决方案，而大部分网站是通过连接一个数据库服务器并且
python 多线程死锁问题的解决方案
死锁的原理非常简单，用一句话就可以描述完。就是当多线程访问多个锁的时候，不同的锁被不同的线程持有，它们都在等待其他线程释放出锁来，于是便陷入
Pandas时间数据处理详细教程
转化时间类型to_datetime()方法to_datetime()方法支持将 int, float, str, datetime, lis
Python+logging输出到屏幕将log日志写入文件
日志日志是跟踪软件运行时所发生的事件的一种方法。软件开发者在代码中调用日志函数，表明发生了特定的事件。事件由描述性消息描述，该描述性消息可以

学生如何免费使用Pycharm专业版学生认证教程

python移位运算的实现

Python中使用ConfigParser解析ini配置文件实例

python安装读取grib库总结(推荐)

Python爬虫爬取Bilibili弹幕过程解析

Python自动扫描出微信不是好友名单的方法

Python struct.unpack

python实现超市扫码仪计费

python进程池的简单实现

一篇文章弄懂Python关键字、标识符和变量

如何在Excel中填充空白单元格上一行的内容

Mac如何删除系统偏好中的第三方应用？如何快速启动Launchpad应用程序？

WPS2016如何快速输入各类横线?

容价比让SSD汗颜！希捷创纪录出货：机械硬盘重新复苏

腾讯文档怎么筛选数据？腾讯文档批量筛选内容教程

Win11怎么查看文件的后缀名？Win11显示文件后缀名的方法

新手如何重装系统Win11？系统之家一键重装Win11教程

Aimersoft Music Recorder for mac 如何录制在线音频

win10系统右键菜单没有新建选项该怎么办？

超简单的Win10镜像安装方法

手机版 网络编程 asp之家 www.aspxhome.com