文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用xpath和lxml将div的所有内容解析为列表中的1元素而不是多个

问如何使用xpath和lxml将div的所有内容解析为列表中的1元素而不是多个
EN

Stack Overflow用户

提问于 2017-10-13 13:08:04

回答 2查看 89关注 0票数 1

我有多个div，在一个类似于这样的网站上有一个文本类：

<div class="text">
"test1"
<br>
"test2"
<br>
"test3"
<br>
</div>

当我使用下面的代码获得这些div中的文本时，我的列表中最后会有3个单独的元素，而我实际上只是想在我的列表中为每个div添加一个元素。

mytext = tree.xpath('//*[@class="text"]/text()')
print(mytext)

我得到：

['test1', 'test2', 'test3']

但我真的想：

['test1\ntest2\test3']

不管有没有换行符，我都可以接受，因为我可以把它们去掉。我认为必须有一种方法来使用xpath来完成这一任务。否则，我想我将不得不使用iterparse()吗？

html

parsing

xpath

lxml

python

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-10-13 15:52:11

它帮助您在div中获取文本，而<br/>的文本可以通过以下方式检索：

    //*[@class="text"]/text()[preceding-sibling::br]

从技术上讲，br标记之间意味着：

 //*[@class="text"]/text()[preceding-sibling::br and following-sibling::br]

票数 0

Stack Overflow用户

发布于 2017-10-13 14:26:40

我建议你加入Python的结果

mytext = tree.xpath('//*[@class="text"]/text()')
print('\n'.join(mytext))

或者，您可以在xpath表达式中应用函数，例如，正常化空间，它会给您一个字符串，但是您仍然需要将换行符放入字符串中.

tree.xpath('normalize-space(//*[@class="text"])')
-> '"test1""test2""test3"'

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46730732

复制

相似问题

问如何使用xpath和lxml将div的所有内容解析为列表中的1元素而不是多个
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用xpath和lxml将div的所有内容解析为列表中的1元素而不是多个EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用xpath和lxml将div的所有内容解析为列表中的1元素而不是多个
EN