使用Python从XML中提取文本,可以使用Python内置的xml库,如下所示:
import xml.etree.ElementTree as ET
# 假设XML文件内容如下
xml_string = '''
<root>
<text>这是一段文本</text>
<text>这是另一段文本</text>
</root>
'''
# 解析XML字符串
root = ET.fromstring(xml_string)
# 遍历XML树,提取所有<text>标签的文本内容
text_list = []
for text_element in root.findall('text'):
text_list.append(text_element.text)
# 输出提取的文本内容
print(text_list)
输出结果:
['这是一段文本', '这是另一段文本']
在上述代码中,我们首先导入了Python内置的xml库,然后定义了一个XML字符串,并使用ET.fromstring()
函数将其解析为XML树。接着,我们遍历XML树,提取所有<text>标签的文本内容,并将其存储在一个列表中。最后,我们输出提取的文本内容。
需要注意的是,如果XML文件较大,可以使用ET.iterparse()
函数逐步解析XML文件,以节省内存。
领取专属 10元无门槛券
手把手带您无忧上云