php解析字符串里所有URL地址的方法
作者:不吃皮蛋 发布时间:2023-08-19 08:31:38
标签:php,字符串,URL
本文实例讲述了php解析字符串里所有URL地址的方法。分享给大家供大家参考。具体如下:
<?php
// $html = the html on the page
// $current_url = the full url that the html came from
//(only needed for $repath)
// $repath = converts ../ and / and // urls to full valid urls
function pageLinks($html, $current_url = "", $repath = false){
preg_match_all("/\<a.+?href=(\"|')(?!javascript:|#)(.+?)(\"|')/i", $html, $matches);
$links = array();
if(isset($matches[2])){
$links = $matches[2];
}
if($repath && count($links) > 0 && strlen($current_url) > 0){
$pathi = pathinfo($current_url);
$dir = $pathi["dirname"];
$base = parse_url($current_url);
$split_path = explode("/", $dir);
$url = "";
foreach($links as $k => $link){
if(preg_match("/^\.\./", $link)){
$total = substr_count($link, "../");
for($i = 0; $i < $total; $i++){
array_pop($split_path);
}
$url = implode("/", $split_path) . "/" . str_replace("../", "", $link);
}elseif(preg_match("/^\/\//", $link)){
$url = $base["scheme"] . ":" . $link;
}elseif(preg_match("/^\/|^.\//", $link)){
$url = $base["scheme"] . "://" . $base["host"] . $link;
}elseif(preg_match("/^[a-zA-Z0-9]/", $link)){
if(preg_match("/^http/", $link)){
$url = $link;
}else{
$url = $dir . "/" . $link;
}
}
$links[$k] = $url;
}
}
return $links;
}
header("content-type: text/plain");
$url = "https://www.aspxhome.com";
$html = file_get_contents($url);
// Gets links from the page:
print_r(pageLinks($html));
// Gets links from the page and formats them to a full valid url:
print_r(pageLinks($html, $url, true));
希望本文所述对大家的php程序设计有所帮助。
0
投稿
猜你喜欢
- 话不多说上代码!源代码from tkinter import *import pyttsx3class Application(Frame)
- 本文实例讲述了python动态参数用法。分享给大家供大家参考。具体分析如下:先来看一段代码:class Person: &nb
- 这个代表显示宽度整数列的显示宽度与mysql需要用多少个字符来显示该列数值,与该整数需要的存储空间的大小都没有关系
- 正在看的ORACLE教程是:常见数据库系统比较 Oracle数据库。提起数据库,第一个想到的公司,一般都会是Oracle。该公司
- 什么是yaml一种标记语言。yaml 是专门用来写配置文件的语言,非常简洁和强大更直观,更方便,有点类似于json格式yaml文件格式:te
- 前言快520了,咱们来玩玩五子棋陶冶情操。快拿这个和你女朋友去对线。(分了别来找我哇)。多的不说直接进入正题人人对战游戏规则:p1为黑子,p
- 1. 原地排序:采用sort()方法,按照指定的顺序排列数据后用排序后的数据替换原来的数据(原来的顺序丢失),如:>>>
- 一个假冒的序列号被用来注册Internet Download Manager。IDM正在退出...解决办法1.找到文件 C:\W
- 一、JS介绍  Javascript是一种由Netscape(网景)的LiveScript发展而来的原型
- 环境centos7django 1.11nginx白话我们可以使用Template 设置我们的网页,同时,一个完美的网页需要css,js,i
- 在上一篇文章中,简单介绍了下闭包(closure)和原型链,现在继续来研究闭包的内部机制。对了,所有的东西都参考自这篇文章:Javascri
- COALESCE是一个函数, (expression_1, expression_2, ...,expression_n)依次参考各参数表达
- SQLServer中的批量注释批量注释Ctrl + (K,C):按住Ctrl键不放,然后依次按下K和C批量取消注释Ctrl + (K,U):
- 本文实例讲述了python实现去除下载电影和电视剧文件名中的多余字符的方法,是一个非常实用的技巧,分享给大家供大家参考。具体如下:有时候我们
- 一、 模块1、模块的概念模块是 Python 程序架构的一个核心概念每一个以扩展名 py 结尾的 Python 源代码文件都是一个 模块模块
- 本文实例为大家分享了python实现多张图片垂直合并的具体代码,供大家参考,具体内容如下# coding: utf-8 # image_me
- 目录典型的函数装饰器叠放装饰器参数化装饰器标准库中的装饰器functools.wrapsfunctools.lru_cachefunctoo
- 制作文件备份打开原文件 old_f_name = input(“请输入备份的文件路径:”) old_f = open(old_f_name,
- 第一步:获取mysql YUM源进入mysql官网获取RPM包下载地址https://dev.mysql.com/downloads/rep
- 本文主要是利用Python的第三方库Pillow,实现单通道灰度图像的颜色翻转功能。# -*- encoding:utf-8 -*-impo