上一个小程序简单地演示了下用python 解析 xml 文件,今天,我们再稍微详细了解一下xml。xml 有三个特点:
1. XML 是可扩展的标记语言(eXtensibleMarkupLanguage)。
2. XML 被设计用来传输和存储数据。
3. XML 很重要,也很容易学习。
正因此3点,所以是VIP。因为是VIP,所以,很多很多时候,我们可以见到生信相关的文件以 xml 格式保存和传输,所以,我们要学习。
我们的样例文件来源于大名鼎鼎的 clinicaltrials。
请按标识自行下载 :
学用python 解析xml文件之前,请先了解xml文件格式、语法等,如何了解,请搜索。简单了解就够。知道xml文件是以树形结构存储的,知道关于xml文件的根,元素、节点,子节点,子孙节点,父节点,元素属性的基本概念就可以了。
就python而言,常用的大概有3,5个包用来解析xml文件。python 有一个elementtree 模块,用它解析xml文件,又快又好又简单,好学好用!值得尝试!其他的包,如果 , 您不知道,那就不要学了,就算了,因为学这个,够用了!
importxml.etree.和asET
# 导入包
tree = ET.parse('NCT00001372.xml')
#解析文件
root = tree.getroot()
#得到root
forchildinroot.iter():
# 从根开始迭代
#打印出每一个下级 child 的 tag , 属性,文本。
简易的例子就是这样,呵呵。
当然 真正做项目时,肯定不是只打印出来看看,一般都是批量解析xml文件,而是找出自己需要的内容,保存于文件,以方便后续分析和使用。
例子是解析一个xml文件,想要解析多个文件的话,请读者自行下载 上图红色箭头下面的
Download Multiple Records in XML
是个zip 压缩文件,有50多M,不算大,但是,由于网络问题,下载有点儿不快,解压后可以得到一群 xml 文件,请根据自学的 xml 格式姿势和elementtree 姿势,自己想个需求,学着练练。相信我,学会解析 xml 文件,很有用!
请记住,找出需求的内容,保存于文件, 编程,就是要多练,多想!
今天的分享就到这里了,希望对您有所帮助,感谢你的阅读。
如果您觉得本公众号的内容有意义,
请您推荐给有需要的人,或分享于您的朋友圈。 感谢!
欢迎各位加入QQ群进行交流 !
******************************************
本文结束后的话: 我们的公众号叫生物信息学分析, 旨在分享生物信息学各个方面的知识和技能。可是,如您所见,至今,文章内容都是 python 编程相关的东西。后台有人问我什么时候开始搞点儿生信相关的文章。并不是我不打算写生信相关的文章,而是,根据我的经验(相信大家也知道),做生信分析,编程是非常重要,非常重要的技能之一,看清楚,之一。并且,多数做生信分析项目的研究生的计算机知识相对较弱,对不少人来说,编程是一个槛儿, So, 我觉得,先打好编程基础,可能对生信入门学习效果更好些。(相信俺,俺的水平虽然不高,但,也绝对不是,仅仅停留在在linux服务器上安装某个软件、搭建某个流程的水平上)。
最后,提醒一点儿,如果为了做生信分析,我们不需要成为编程高手、专家。当然,水平越高越好! (感觉这话有点儿怪,反正意思就这么个意思)。
领取专属 10元无门槛券
私享最新 技术干货