python3使用lxml获取如下形式的文本时出现了问题。
例:
123
45
获取的内容为12345
最开始对html文本使用 etree.HTML(html)解析,得到Element对象。
from lxml import etree
str="""
123
45
""
root= etree.HTML(str)
root.xpath("//div//text()")
发现并没有直接获取12345文本方法
后来网上调查发现lxml操作html有一个专门的html模块html,然后找到了解决该问题的关键方法text_content(),这个方法在上面的写法中是不存在的于是解决方案如下。
from lxml import html
root = html.fromstring('''
12345
''')
root.xpath("//div").text_content()
ok,搞定!
领取专属 10元无门槛券
私享最新 技术干货