我有多个div,在一个类似于这样的网站上有一个文本类:
<div class="text">
"test1"
<br>
"test2"
<br>
"test3"
<br>
</div>当我使用下面的代码获得这些div中的文本时,我的列表中最后会有3个单独的元素,而我实际上只是想在我的列表中为每个div添加一个元素。
mytext = tree.xpath('//*[@class="text"]/text()')
print(mytext)我得到:
['test1', 'test2', 'test3']但我真的想:
['test1\ntest2\test3'] 不管有没有换行符,我都可以接受,因为我可以把它们去掉。我认为必须有一种方法来使用xpath来完成这一任务。否则,我想我将不得不使用iterparse()吗?
发布于 2017-10-13 15:52:11
它帮助您在div中获取文本,而<br/>的文本可以通过以下方式检索:
//*[@class="text"]/text()[preceding-sibling::br]从技术上讲,br标记之间意味着:
//*[@class="text"]/text()[preceding-sibling::br and following-sibling::br]发布于 2017-10-13 14:26:40
我建议你加入Python的结果
mytext = tree.xpath('//*[@class="text"]/text()')
print('\n'.join(mytext))或者,您可以在xpath表达式中应用函数,例如,正常化空间,它会给您一个字符串,但是您仍然需要将换行符放入字符串中.
tree.xpath('normalize-space(//*[@class="text"])')
-> '"test1""test2""test3"'https://stackoverflow.com/questions/46730732
复制相似问题