DOMDocument
是一个用于处理 HTML 和 XML 文档的类,在 PHP 中通过 php-xml
扩展提供。它允许开发者将 HTML 或 XML 文档加载到内存中,然后对其进行各种操作,如查询、修改、添加或删除节点等。
以下是一个使用 DOMDocument
从 HTML 页面抓取数据的简单示例:
<?php
// 创建一个新的 DOMDocument 实例
$dom = new DOMDocument();
// 加载 HTML 内容(这里假设 $html 是从网页获取的 HTML 内容)
$dom->loadHTML($html);
// 使用 DOMXPath 查询特定的元素
$xpath = new DOMXPath($dom);
$elements = $xpath->query('//div[@class="example"]/a');
// 遍历并输出链接
foreach ($elements as $element) {
echo $element->getAttribute('href') . PHP_EOL;
}
?>
libxml_use_internal_errors(true)
来禁用错误报告,然后使用 libxml_clear_errors()
清除错误。DOMDocument
的 encoding
属性来解决这个问题。请注意,对于复杂的 HTML 解析任务,可能需要结合其他库或工具来提高效率和准确性。
领取专属 10元无门槛券
手把手带您无忧上云