Jsoup 是一个 Java 库,用于解析 HTML 文档并提取数据。它提供了非常方便的 API 来处理 HTML,使得开发者能够轻松地从网页中提取所需的信息。
Jsoup 主要用于 HTML 解析和数据提取,它不直接获取域名,但可以通过解析 HTML 文档中的链接来间接获取域名。
虽然 Jsoup 本身不直接提供获取域名的功能,但可以通过解析 HTML 文档中的链接来间接获取域名。以下是一个示例代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Main {
public static void main(String[] args) {
try {
// 连接到目标网页
Document doc = Jsoup.connect("https://example.com").get();
// 获取所有链接
Elements links = doc.select("a[href]");
for (Element link : links) {
String href = link.attr("href");
String domain = getDomain(href);
System.out.println("链接: " + href + " -> 域名: " + domain);
}
} catch (Exception e) {
e.printStackTrace();
}
}
// 获取链接的域名
private static String getDomain(String url) {
try {
java.net.URL uri = new java.net.URL(url);
String host = uri.getHost();
if (host != null && !host.isEmpty()) {
return host.startsWith("www.") ? host.substring(4) : host;
}
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
}
Document doc = Jsoup.connect("https://example.com")
.timeout(10000) // 设置超时时间为10秒
.get();
try {
Document doc = Jsoup.connect("https://example.com").get();
// 处理文档
} catch (Exception e) {
e.printStackTrace();
// 处理解析错误
}
private static String getDomain(String url) {
try {
java.net.URL uri = new java.net.URL(url);
String host = uri.getHost();
if (host != null && !host.isEmpty()) {
return host.startsWith("www.") ? host.substring(4) : host;
}
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
通过以上方法,可以有效地使用 Jsoup 解析 HTML 文档并获取所需的域名信息。
领取专属 10元无门槛券
手把手带您无忧上云