首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

生物信息-python 编程实例(7)

上一个小程序简单地演示了下用python 解析 xml 文件,今天,我们再稍微详细了解一下xml。xml 有三个特点:

1. XML 是可扩展的标记语言(eXtensibleMarkupLanguage)。

2. XML 被设计用来传输和存储数据。

3. XML 很重要,也很容易学习。

正因此3点,所以是VIP。因为是VIP,所以,很多很多时候,我们可以见到生信相关的文件以 xml 格式保存和传输,所以,我们要学习。

我们的样例文件来源于大名鼎鼎的 clinicaltrials。

请按标识自行下载 :

学用python 解析xml文件之前,请先了解xml文件格式、语法等,如何了解,请搜索。简单了解就够。知道xml文件是以树形结构存储的,知道关于xml文件的根,元素、节点,子节点,子孙节点,父节点,元素属性的基本概念就可以了。

就python而言,常用的大概有3,5个包用来解析xml文件。python 有一个elementtree 模块,用它解析xml文件,又快又好又简单,好学好用!值得尝试!其他的包,如果 , 您不知道,那就不要学了,就算了,因为学这个,够用了!

importxml.etree.和asET

# 导入包

tree = ET.parse('NCT00001372.xml')

#解析文件

root = tree.getroot()

#得到root

forchildinroot.iter():

# 从根开始迭代

#打印出每一个下级 child 的 tag , 属性,文本。

简易的例子就是这样,呵呵。

当然 真正做项目时,肯定不是只打印出来看看,一般都是批量解析xml文件,而是找出自己需要的内容,保存于文件,以方便后续分析和使用。

例子是解析一个xml文件,想要解析多个文件的话,请读者自行下载 上图红色箭头下面的

Download Multiple Records in XML

是个zip 压缩文件,有50多M,不算大,但是,由于网络问题,下载有点儿不快,解压后可以得到一群 xml 文件,请根据自学的 xml 格式姿势和elementtree 姿势,自己想个需求,学着练练。相信我,学会解析 xml 文件,很有用!

请记住,找出需求的内容,保存于文件, 编程,就是要多练,多想!

今天的分享就到这里了,希望对您有所帮助,感谢你的阅读。

如果您觉得本公众号的内容有意义,

请您推荐给有需要的人,或分享于您的朋友圈。 感谢!

欢迎各位加入QQ群进行交流 !

******************************************

本文结束后的话: 我们的公众号叫生物信息学分析, 旨在分享生物信息学各个方面的知识和技能。可是,如您所见,至今,文章内容都是 python 编程相关的东西。后台有人问我什么时候开始搞点儿生信相关的文章。并不是我不打算写生信相关的文章,而是,根据我的经验(相信大家也知道),做生信分析,编程是非常重要,非常重要的技能之一,看清楚,之一。并且,多数做生信分析项目的研究生的计算机知识相对较弱,对不少人来说,编程是一个槛儿, So, 我觉得,先打好编程基础,可能对生信入门学习效果更好些。(相信俺,俺的水平虽然不高,但,也绝对不是,仅仅停留在在linux服务器上安装某个软件、搭建某个流程的水平上)。

最后,提醒一点儿,如果为了做生信分析,我们不需要成为编程高手、专家。当然,水平越高越好! (感觉这话有点儿怪,反正意思就这么个意思)。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180508G1ZUTW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券