python获取指定网页上所有超链接的方法
作者:令狐不聪 发布时间:2023-07-18 11:50:20
标签:python,获取,链接
本文实例讲述了python获取指定网页上所有超链接的方法。分享给大家供大家参考。具体如下:
这段python代码通过urllib2抓取网页,然后通过简单的正则表达式分析网页上的全部url地址
import urllib2
import re
#connect to a URL
website = urllib2.urlopen(url)
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://.*?)"', html)
print links
希望本文所述对大家的python程序设计有所帮助。


猜你喜欢
- 以下是它们的共同点: 1. 关于左右表的概念。左表指的是在SQL语句中排在left join左边的表,右表指的是排在left join右边的
- 控制的前提是已经运行Microsip.exe 首先选择文件,选择txt格式文件,一行一个手机号格式;如下点击拨打下一个
- 如果你有对触发器和事务的概念,有些了解,这篇文章,对你来说会是很简单,或能让你更进一步的了解触发器里面的一些故事,和触发器中事务个故事。在这
- 无图形界面的代码编写python代码作为脚本语言,其实最好直接使用vim在字符界面里面直接编写,这才是正道,但是作初学者,其实直接在服务器上
- 本文实例讲述了Python基于正则表达式实现文件内容替换的方法。分享给大家供大家参考,具体如下:最近因为有一个项目需要从普通的服务器移植到S
- Vue加载流程1.初始化的第一阶段是Vue实例也就是vm对象创建前后:首先Vue进行生命周期,事件初始化发生在beforeCreate生命周
- 如下所示:#!/usr/bin/env pythonimport serialimport timeimport threadclass M
- find()方法判断字符串str,如果起始索引beg和结束end索引能找到在字符串或字符串的一个子串中。语法以下是find()方
- Python docx module for Word or WPS processing本文是通过docx把word中的表格中的某些已填好
- 本文实例为大家分享了python生成验证码图片代码,分享给大家供大家参考,具体内容如下基本上大家使用每一种网络服务都会遇到验证码,一般是网站
- 数据准备ON DUPLICATE KEY UPDATEinsert into test_table(id,username)VALUES(4
- 时间序列是指在一段时间内发生的任何可量化的度量或事件。尽管这听起来微不足道,但几乎任何东西都可以被认为是时间序列。一个月里你每小时的平均心率
- 本文只是几年前学习的tkinter的时候写的测试程序,十分之简陋,只是学习用,没什么其他用处。学习一下莫烦Python的tkinter教程,
- 例子:def re_escape(fn): def arg_escaped(this, *args):&
- 本文基本使用谷歌翻译加上自己的理解,权当加深记忆。npm简介qs 是一个增加了一些安全性的查询字符串解析和序列化字符串的库。主要维护者:Jo
- 具体代码如下所示:import smtplib, email, os, timefrom email.mime.multipart impo
- 本文实例讲述了Python多进程multiprocessing、进程池用法。分享给大家供大家参考,具体如下:内容相关:multiproces
- 背景和目的:利用python request 编写脚本测试公司系统的文件上传接口。前端读取文件的大小然后文件分片传给后端,后端将每一片数据重
- Mysql Cluster概述 MySql Cluster最显著的优点就是高可用性,高实时性,高冗余,扩展性强。&n
- jQuery的选择器是CSS 1-3,XPath的结合物。jQuery提取这二种查询语言最好的部分,融合后创造出了最终的jQuery表达式查