首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用CCS序列数据改进宏基因组拼接效率和物种分类注释

    DNA组装是用于研究微生物群落结构和功能的宏基因组流程中的核心方法学步骤。在这里,我们调查太平洋生物科学长期和高精度循环共识测序(CCS)的宏基因组项目的实用性。我们比较了PacBio CCS和Illumina HiSeq数据的应用和性能以及使用代表复杂微生物群落的宏基因组样本的组装和分类分类算法。8个SMRT细胞从沼气反应器微生物组合样品中产生大约94Mb的CCS读数,其平均长度为1319nt,精度为99.7%。CCS数据组合产生了大于1 kb的相当数量的大型重叠群,与从相同样本产生的约190x较大的HiSeq数据集(〜18 Gb)组装的大型重叠群组成(即约占总重叠群的62%)。使用PacBio CCS和HiSeq重叠群的混合组件在装配统计数据方面进行了改进,包括平均重叠体长度和大型重叠群数量的增加。CCS数据的并入产生了两个显性系统的分类学分类,基因组重建的显着增强,使用HiSeq数据单独组合则分类不佳。总而言之,这些结果说明了PacBio CCS在某些宏基因组应用的价值。

    02

    如何不加锁地将数据并发写入Apache Hudi?

    对于某些场景来说可能是必要的,但可能并不适合所有场景。因此我们首先看看为什么当并发写入Hudi 或任何表格式时我们需要锁提供程序。如果两个并发写入修改同一组数据,我们只能允许其中一个成功并中止另一个,因为至少与乐观并发控制(OCC)存在冲突。我们可以尝试设计和实现基于 MVCC 的模型,但当前还没有做到这一点。因此仅使用纯 OCC,任何两个并发写入重叠数据都无法成功。因此为了解决冲突和某些表管理服务,我们需要锁,因为在任何时间点只有其中一个可以操作临界区。因此我们采用锁提供程序来确保两个写入之间协调此类冲突解决和表管理服务。总结如下

    03

    Polardb X-engine 如何服务巨量数据情况下的业务 (翻译)- 2

    存储布局,上图显示了x-engine的架构,X-Engine 将每个表分成多个字表,并未每个字表维护一个LSM树,关联快照和索引,x-engine中的每个数据库中包含一个重做日志,每个LSM树由一个位于主存储器中的热数据层和一个位于NVM/SSD/HDD的数据处理层组层,热,温,冷不同的数据的层次在系统中存储在不同访问频率的层次中,热数据包含一个活动的内存表和多个不可变的内存表,他们是跳表,用于存储最近插入的记录,并缓冲热记录的缓存,这里不同访问频度的数据已树桩的结构组织数据,树的每个层级的存储有一个排序的extent序列来组织。extent 包含记录快以及关联的过滤器和索引。我们正在探索机器学习技术与数据访问拼读之间的关系。

    01
    领券