首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >三维基因组: 结构文件格式

三维基因组: 结构文件格式

作者头像
数据科学工厂
发布2025-07-12 17:55:43
发布2025-07-12 17:55:43
970
举报

三维结构

图片
图片

Loop、Domains和Compartments的文件格式主要取决于用于识别这些特征的软件工具。

有些工具会以一组基因组区域的形式输出最终结果,而另一些工具则会提供定量分析数据(比如,Domains的绝缘分数,Compartments的特征向量)。这种定量分析数据可以让用户自行设定识别的阈值。此外,这些分析数据还可以用于可视化探索。

例如,如果绝缘分数的曲线出现一个低谷,就表明这是拓扑结构域的边界;而特征向量的符号发生变化,则意味着 A/B Compartments发生了转换。

文件格式

图片
图片

用于存储最终识别结果的格式主要分为两类:一维的类似 BED 格式和二维的类似 BEDPE 格式。BED(浏览器可扩展数据)格式是为人类基因组计划开发的,而 BEDPE 格式是随着 Bedtools 一起定义的,Bedtools 是一套广泛用于处理基因组坐标的软件工具。

这两种格式都是用制表符分隔的文本格式。BED 格式以三列开始,分别表示定义基因组区域的三个要素:染色体、起始位置和终止位置。

BEDPE 格式以六列开始,分别表示一对区域的六个要素。标准的 BED 和 BEDPE 格式在这些核心列之后还有一些固定的字段,但在实际应用中,常常会看到自定义格式,它们以核心的 BED 或 BEDPE 字段开头,但其他字段可能缺失,或者被自定义字段替换了。这些格式通常也被称为 BED/BEDPE 格式,但为了避免混淆,我们在这里将这些自定义格式称为类似 BED 格式和类似 BEDPE 格式。

从信息存储的角度来说,类似 BED 格式已经足够用来存储作为基因组区域列表的域或区室。不过,类似 BEDPE 格式还可以用于将这些特征表示为叠加在二维交互矩阵上的对角线方形。

检测工具

Juicer 流程自带了一系列特征识别工具,这些工具以 .hic 文件作为输入。其中,Arrowhead 用于检测接触域,而 HiCCUPS 用于检测环,它们的输出结果都是以类似 BEDPE 格式呈现的,并且包含了额外的自定义字段,这种格式能够被 Juicebox 可视化工具所识别。

Homer 同样采用了自定义的类似 BEDPE 格式,并且其文件扩展名为 .2D.bed,用于存储域和环的信息。

相比之下,DomainCaller的输出结果是以一种简化版的类似 BED 格式呈现的。还有一些识别工具,比如 cLoop,则采用了完全不依赖于 BED 或 BEDPE 标准的自定义格式。

BigWig

4DN 数据门户网站(https://data.4dnucleome.org)提供了以 Bigwig 格式存储的绝缘分数。Bigwig 是一种压缩的二进制索引格式,最初是为了在 UCSC 基因组浏览器上进行可视化而开发的。这种格式也被 IGV(整合基因组学可视化工具)所支持,IGV 是一款用于展示一维数据轨迹的交互式可视化工具,同时它也适用于 HiGlass 和 Juicebox。此外,一些简单的自定义格式也被采用。比如,Juicer 工具中的特征向量功能会将第一个特征向量输出到一个文本文件中,每个数字占一行,对应于特定染色体和分辨率下的数据。

发展

为了应对 Hi-C 数据的巨大规模,人们开发了多分辨率稀疏矩阵格式(例如 .hic 和 .mcool)以及可以随机访问的接触列表格式(例如 PAIRS)。

此外,现有的生物信息学标准格式,如 FASTQ、BAM、Bigwig、BED 和 BEDPE,也在 Hi-C 数据处理的相应步骤中被用来存储数据。

随着更多工具的出现以及对其他类似 Hi-C 数据类型的支持需求增加,未来可能会开发出更完善的数据格式。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 冷冻工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 三维结构
  • 文件格式
  • 检测工具
  • BigWig
  • 发展
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档