关于Jsoup将相对路径转为绝对路径的方法
作者:CrazyDragon_King 发布时间:2022-03-11 04:13:50
自从使用 HttpClient 和 Jsoup 配合编写了几个简单的入门爬虫之后,发现对于绝对路径的需求是很频繁的,因为大部分的网页都写相对路径,这样是有好处的,但是爬虫还是需要获取绝对的路径的。 通常我的处理方式是在获取的相对路径路径前面,拼接一个根路径。当是,这种方法只能适用于,相对路径是相对于当前路径的,如果相对路径是相对于当前路径的上一级或更上一级,那就不好处理了。
正好我昨天我碰到了这种相对路径。我无意间发现原来 Jsoup 本身就提供了这个功能,但是我发现很多其他人的博客,虽然介绍了 Jsoup 通过相对路径获取绝对路径的方法,但是都没有介绍完全,为此我也是走了几个坑,特意在此说明一下。
通过Jsoup将相对路径转为绝对路径的方法
如果想要通过 attr 方法获取到绝对路径,必须同时使用这两个方法。
Document org.jsoup.Jsoup.parse(String html, String baseUri);
String org.jsoup.nodes.Node.attr(String attributeKey);
必须使用Jsoup 带有 baseUri 参数的重载方法,如果只是用具有第一个参数的 方法,那么通过attr取绝对路径时,获取的内容为空!这是一个坑,但是其它人的博客都没有介绍这一点。
Parameters:
html HTML to parse
baseUri The URL where the HTML was
retrieved from. Used to resolve relative URLs to absolute URLs, that
occurbefore the HTML declares a <base href> tag.
这里列出参数的注释,第一个参数是需要解析的html文档,第二个参数是这个html的url。用于将相对url解析为绝对url,即在HTML声明标记之前发生。
注意: 这里的 baseUri 并不是网站的根路径,它是指当前的html路径。即当前相对路径所在的html文档的路径,是相对路径相对的那个路径。 所以,如果填写的是当前根路径,那么最后获取的绝对路径也是有问题的。(也许是可以使用的,但是格式可能有问题。) 下面第二点,依赖于当前这个给定的 baseUri 参数。
attr 方法里面的一句话:
To get an absolute URL from an attribute that may be a relative URL, prefix the key with abs,which is a shortcut to the absUrl method.
E.g.: String url = a.attr(“abs:href”);
这句话的意思是从一个相对路径种获取一个绝对路径,使用 abs 前缀,这是absUrl方法的快捷方式。
并且给了一个示例:
String url = a.attr("abs:href");
所以,如果想要获取到绝对路径的话,需要在参数前面加上 abs:
。 这里 abs 就是 absolute 的缩写,它的意思就是绝对的。
但是,如果不去使用带有上面第一点提到的那个重载的 parse 方法的话,这种方法是取不到绝对路径的,甚至是取不到路径。我在这里踩了一个坑。
示例
这里以一个简单的例子说明: 代码:
package ahnu.news;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class JsoupPathTest {
public static void main(String[] args) {
String html = "<html>"
+ "<head></head>"
+ "<body>"
+ "<a href=\"../dragon/love/you\"></a>"
+ "</body>"
+ "</html>";
System.out.println("正确的用法");
Document doc = Jsoup.parse(html, "http://example/index/loveyou/");
Element aTag = doc.getElementsByTag("a").first(); //获取 a 标签,只有一个,取第一个即可。
System.out.println(aTag);
String relativePath = aTag.attr("href"); //获取相对路径
String absolutePath = aTag.attr("abs:href"); //获取绝对路径
System.out.println("相对路径:" + relativePath);
System.out.println("绝对路径:" + absolutePath);
System.out.println("---------------------分割线---------------------");
System.out.println("错误的用法");
doc = Jsoup.parse(html);
aTag = doc.getElementsByTag("a").first(); //获取 a 标签,只有一个,取第一个即可。
System.out.println(aTag);
relativePath = aTag.attr("href"); //获取相对路径
absolutePath = aTag.attr("abs:href"); //获取绝对路径
System.out.println("相对路径:" + relativePath);
System.out.println("绝对路径:" + absolutePath);
}
}
运行结果:
注意: 1.在解析html的时候,必须添加 baseUri 参数,否则获取绝对路径时,反而什么都得不到,这是一个坑,注意防范。 2.希望其他人贴方法的时候,可以附带代码的执行结果,或者如果是转载的别人的博客,也可以运行一下代码,不然如果他错了,你也转载,那就是在传播错误了。 3.英语还是很重要的,关键时候可以帮助自己理解api的正确用法。
来源:https://blog.csdn.net/qq_40734247/article/details/106294290
猜你喜欢
- 一、导航栏UINavigationBar1、导航栏的使用在iOS开发中,我们通常会使用导航控制器,导航控制器中封装了一个UINavigati
- 您已经看到很多包含视频内容的应用程序,比如带有视频教程的食谱应用程序、电影应用程序和体育相关的应用程序。您是否想知道如何将视频内容添加到您的
- JVM 的主要作用是什么?JVM 就是 Java Virtual Machine(Java虚拟机)的缩写,JVM 屏蔽了与具体操作系统平台相
- 概念 在 HTML 中,<a>, <form>, <img>, <script>,
- Unsupported major.minor version 51.0解决办法今天偶然间同事遇到一个问题,也加深了自己对eclipse中b
- mybatis insert foreach循环插入@Insert("<script>" +
- 在第一次启动项目的时候,由于使用了RabbitMQ的默认guest账号,怎么也登不进去,后来还是在Admin重新创建了一个其他的账号,然后开
- 项目结构:运行效果:========================================================下面是代
- 前言SpringBoot是Spring的包装,通过自动配置使得SpringBoot可以做到开箱即用,上手成本非常低,但是学习其实现原理的成本
- 网页爬虫:其实就是一个程序用于在互联网中获取符合指定规则的数据。package day05; import java.io.Buffered
- 概述本文基于示例的方式解释控制反转,再看控制反转之前,我们先看下常规控制流程,以数据库访问为例示例并没有实际访问数据,而是基于service
- 引言设计: 嗯? 这个图片点击跳转进详情再返回图片怎么变白闪一下呢?产品: 是啊是啊! 一定是个bug开发: 囧囧囧在开发过程中, 也许你也
- 如下所示:Synchronized是内置的java关键字,Lock是一个java类。Synchronized无法判断是否获取到了锁,Lock
- 前言前面的篇幅里有提到通过InitializingBean和Disposable等接口可以对bean的初始化和销毁做一些自定义操作,那么有一
- springboot整合tkmapper1.导入pom依赖1.1 导入springboot的parent依赖<parent> &
- 本文实例讲述了Java设计模式之 * 模式。分享给大家供大家参考,具体如下:前面介绍了静态代理模式, * 比静态代理模式更加强大。它能在
- 新建一个类MyPageInterceptor.java(注意在springboot中要添加注解@Component)package com.
- 无论是用Eclipse还是用Android Studio做android开发,都会接触到jar包,全称应该是:Java Archive,即j
- 通过使用java mail来实现读取163邮箱,qq邮箱的邮件内容。1.代码实现创建springboot项目,引入依赖包<!--mai
- 异常的英文单词是exception,字面翻译就是“意外、例外”的意思,也就是非正常情况。事实上,异常本质上是程序上的错误,包括程序逻辑错误和