首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用xpath和lxml将div的所有内容解析为列表中的1元素而不是多个

如何使用xpath和lxml将div的所有内容解析为列表中的1元素而不是多个
EN

Stack Overflow用户
提问于 2017-10-13 13:08:04
回答 2查看 89关注 0票数 1

我有多个div,在一个类似于这样的网站上有一个文本类:

代码语言:javascript
复制
<div class="text">
"test1"
<br>
"test2"
<br>
"test3"
<br>
</div>

当我使用下面的代码获得这些div中的文本时,我的列表中最后会有3个单独的元素,而我实际上只是想在我的列表中为每个div添加一个元素。

代码语言:javascript
复制
mytext = tree.xpath('//*[@class="text"]/text()')
print(mytext)

我得到:

代码语言:javascript
复制
['test1', 'test2', 'test3']

但我真的想:

代码语言:javascript
复制
['test1\ntest2\test3']     

不管有没有换行符,我都可以接受,因为我可以把它们去掉。我认为必须有一种方法来使用xpath来完成这一任务。否则,我想我将不得不使用iterparse()吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-10-13 15:52:11

它帮助您在div中获取文本,而<br/>的文本可以通过以下方式检索:

代码语言:javascript
复制
    //*[@class="text"]/text()[preceding-sibling::br]

从技术上讲,br标记之间意味着:

代码语言:javascript
复制
 //*[@class="text"]/text()[preceding-sibling::br and following-sibling::br]
票数 0
EN

Stack Overflow用户

发布于 2017-10-13 14:26:40

我建议你加入Python的结果

代码语言:javascript
复制
mytext = tree.xpath('//*[@class="text"]/text()')
print('\n'.join(mytext))

或者,您可以在xpath表达式中应用函数,例如,正常化空间,它会给您一个字符串,但是您仍然需要将换行符放入字符串中.

代码语言:javascript
复制
tree.xpath('normalize-space(//*[@class="text"])')
-> '"test1""test2""test3"'
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46730732

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档