引言
上期介绍了怎么通过Ensembl网站下载单个基因的同源基因序列,这期顺着上期的留言介绍一下怎么通过Ensembl网站下载多个基因的直系同源基因,用到的工具是Ensembl网站的Biomart功能。
01
进入BioMart
首先还是先进入Ensembl网站(www.ensembl.org), 点击网页上的Biomart选项,具体位置为下面网页中红框圈出的位置。
点击后进入Biomart的页面,具体界面如下所示:
由页面可以看到Biomart页面分为左右两个部分,左边的部分相当于是Biomart操作的导航栏,右边部分用来选择一些具体的数据类型信息。
02
选择Dataset
点击右边的CHOOSE DATASET 就会出现红框中圈出来的下拉框,从下拉框中可以看出Biomart的数据集分为四类,分别是Ensembl Genes、Mouse strains、Ensembl Variation、Ensembl Regulation(下拉框中的98是Ensembl的版本号,这里就不写了)。我们这次要找的是同源基因,选择第一个Ensembl Genes数据集就可以, 具体页面如下:
选择好第一个Dataset之后,在这个下拉框下面会再出现一个下拉框,这个下拉框是选择具体的物种,具体页面如下所示:
我们选择红框中圈出来的Human genes作为本次演示的物种,选择好之后,就会出现如下的页面:
03
输入查找基因
接下来就是输入要查找的基因,这里我们随机选取了10个与乳腺癌相关的基因,基因列表如下所示:
然后是将基因列表输入到Filters里,具体操作是先点击左边的Filters,然后再点击右边的GENE, 之后勾选中Input external references ID list,最后在右边输入栏里输入基因ID,或者导入基因ID的文件。具体操作在页面上标注如下:
04
选择要查找同源基因的物种
然后点击左边的Attributes属性,再点击右边的Homologues选项,会发现右边的页面会变成三个选项。具体步骤如下所示:
三个选项中第一个是GENE,这个选项是配置一些输入基因的属性;第二个是ORTHOLOGUES, 这个选项是配置选择物种在Ensembl数据库里其他物种中的直系同源基因的一些属性,第三个是PARALOGUES,这个选项就是配置选择物种的旁系同源基因的一些属性。然后我们先对输入基因的属性进行配置,这里我们只勾选中基因ID以及基因名字,具体页面如下所示:
之后我们对ORTHOLOGUES进行配置,这里为了简单就只勾选了前三个物种的基因ID,具体页面如下所示:
05
结果导出
最后点击左边上方的Results,就会得到输入基因的直系同源基因结果,然后点击Go选项就可以对直系同源基因结果进行导出,具体页面如下所示:
导出结果如下所示:
这样我们就得到了这10个基因在其他3个物种里面的直系同源基因,可以看到只有BCAR1和BRMS1L这两个基因在其他三个物种里有同源基因。
结语
上面介绍的功能只是BioMart的一种,BioMart还有许多其他功能,以后再慢慢介绍。