抓取方法 | 速度 | 使用难度 | 备注 |
|---|---|---|---|
正则表达式 | 快 | 困难 | 常用正则表达式在线正则表达式测试 |
lxml | 快 | 一般 | 需要安装C语言依赖库唯一支持XML的解析器 |
Beautiful | 较快/较慢(取决于解析器) | 简单 | |
PyQuery | 较快 | 简单 | Python版的jQuery |
说明:Beautiful的解析器包括:Python标准库(html.parser)、lxml的HTML解析器、lxml的XML解析器和html5lib。
如果你对正则表达式没有任何的概念,那么推荐先阅读《正则表达式30分钟入门教程》,然后再阅读我们之前讲解在Python中如何使用正则表达式一文。
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。
说明:更多内容可以参考BeautifulSoup的官方文档。
pyquery相当于jQuery的Python实现,可以用于解析HTML网页。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。