可以通过以下步骤实现:
from lxml import etree
parser = etree.HTMLParser()
tree = etree.parse('your_html_file.html', parser)
或者,如果你已经有了HTML文档的字符串,可以使用以下代码:
tree = etree.fromstring(your_html_string, parser)
text = tree.xpath('//span/text()')
这将返回一个包含所有<span>标记中文本的列表。
XPath表达式解释:
//span
:选择文档中所有的<span>标记。/text()
:选择<span>标记中的文本。使用lxml库的优势:
应用场景:
推荐的腾讯云相关产品:
更多关于腾讯云产品的信息,请访问腾讯云官方网站:腾讯云。
领取专属 10元无门槛券
手把手带您无忧上云