HtmlAgilityPack
是一个用于解析 HTML 文档的 .NET 库。它提供了灵活且高效的 API,使得开发者可以轻松地从 HTML 文档中提取所需的信息。HtmlDocument
类是 HtmlAgilityPack
库中的一个核心类,它表示一个完整的 HTML 文档,并提供了加载、解析和查询 HTML 文档的方法。
HtmlAgilityPack
提供了丰富的 API,可以轻松处理各种复杂的 HTML 结构。HtmlAgilityPack.HtmlDocument
主要用于以下场景:
以下是一个简单的示例,演示如何在 VB.NET 中使用 HtmlAgilityPack.HtmlDocument
向下钻取 HTML 文档:
Imports HtmlAgilityPack
Module Module1
Sub Main()
' 创建 HtmlDocument 对象
Dim doc As New HtmlDocument()
' 加载 HTML 文档
doc.Load("https://example.com")
' 查询根节点下的所有 <div> 元素
Dim divNodes As HtmlNodeCollection = doc.DocumentNode.SelectNodes("//div")
' 遍历 <div> 元素并向下钻取
For Each divNode As HtmlNode In divNodes
' 获取 <div> 元素的类名
Dim className As String = divNode.Attributes("class")?.Value
' 获取 <div> 元素下的所有 <p> 元素
Dim pNodes As HtmlNodeCollection = divNode.SelectNodes(".//p")
' 遍历 <p> 元素并输出文本内容
For Each pNode As HtmlNode In pNodes
Console.WriteLine($"Class: {className}, Text: {pNode.InnerText}")
Next
Next
Console.ReadLine()
End Sub
End Module
请注意,以上示例代码和参考链接仅供参考,实际使用时可能需要根据具体情况进行调整。
领取专属 10元无门槛券
手把手带您无忧上云