DNA序列和蛋白质类型,都是很重要的生物数据。今天我们介绍一种可以实现二者高效、准确的转换的深度学习算法。
当研究一条DNA或蛋白质序列时,主要关注的是其包含的遗传信息;当研究两条或多条DNA或蛋白质序列时,则主要关注不同序列之间的差别与联系。在生物信息学中,对生物大分子的序列比对是非常基本的工作。
2021年12月15日,Briefings in Bioinformatics杂志发表文章,介绍了一种用深度多任务学习预测 RNA、DNA 和蛋白质结合的内在无序残基的方法。
今天,升级后的AlphaFold 3能够以前所未有的「原子精度」,预测出所有生物分子的结构和相互作用。
将DNA序列转换为蛋白质序列时,插入和缺失会导致移码(frameshifts)。FrameBot可以检测并纠正这些移码。
人工神经网络模型得名于这样一个事实,即所拟合的数学模型的形式受到大脑中神经元的连接性和行为的启发,最初设计用于学习大脑的功能。然而,数据科学中常用的神经网络已不再被视为大脑的模型,而是可以在某些应用中提供最先进性能的机器学习模型。近几十年来,由于深度神经网络的架构和训练的快速发展,人们对神经网络模型的兴趣与日俱增。在本节中,我们将介绍基本的神经网络,以及在生物学研究中广泛使用的各种神经网络。其中一些如图4所示。
今天为大家介绍的是来自Ali Madani团队的一篇论文。蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢?
转录因子(Transcription Factors, TFs)指能够以序列特异性方式结合DNA并且调节转录的蛋白质。转录因子通过识别特定的DNA序列来控制染色质和转录,以形成指导基因组表达的复杂系统。尽管众多科学家对理解转录因子如何控制基因表达有着浓厚的兴趣,精准定位转录因子在基因组上的特异性结合位点,以及转录因子结合后最终如何参与转录调节仍然具有挑战性。
继上次的生物学家掌握机器学习指南系列,又来继续更新啦。今天会和大家继续更新关于人工神经网络(artifical neural networks)的相关内容。
“脱氧核糖核酸(DNA)是一种分子,其中包含每个物种独特的生物学指令。DNA及其包含的说明在繁殖过程中从成年生物传给其后代。“ —genome.gov
1、基因、DNA、染色体之间的关系:染色体由DNA和蛋白质构成,基因是DNA上具有遗传效应的片段。
选自berthub.eu 作者:Bert Hubert 机器之心编译 机器之心编辑部 新冠疫苗和「源代码」,有什么关系?来自荷兰的中年程序员,对辉瑞 BNT162b2 疫苗进行了「逆向工程」,让我们看到了计算机科学与生物学之间的有趣联系。 前几天,一位程序员的作品在推特火了。 我们都知道,计算机程序是用代码编写而成的。最底层会有机器代码和汇编语言,诸如 C、Python 之类的高级语言让人们更容易理解。其实,自然界也有源代码,它的形式是「DNA 和 RNA 字符串」,其中就包含着构成生命元素的代码。
达尔文的断言:“目前关于生命起源的思考纯粹是废话”,现在已经不再成立。通过综合生命起源(OoL)研究,从其开始到最近的发现,重点关注(i)原生物化学合成的原理证明和(ii)古代RNA世界的分子遗迹,我们提供了科学对OoL和RNA世界假说的全面最新描述。基于这些观察,我们巩固了这样的共识:RNA在编码蛋白质和DNA基因组之前演化,因此生物圈从一个RNA核心开始,在RNA转录和DNA复制之前产生了大部分的翻译装置和相关RNA结构。这支持了这样的结论:OoL是一个渐进的化学演化过程,涉及一系列介于原生物化学和最后的普遍共同祖先(LUCA)之间的过渡形式,其中RNA起到了核心作用,沿着这条路径的许多事件及其相对发生顺序是已知的。这一综合性合成的本质还扩展了以前的描述和概念,并应有助于提出关于古代RNA世界和OoL的未来问题和实验。
今天介绍一篇由耶鲁大学Egbert Castro等人于2022年9月26日发表在nature machine intelligence上的文章。本文引入了正则化潜在空间优化(ReLSO),这是一种基于深度Transformer的自动编码器,它具有高度结构化的潜在空间,经过训练可以联合生成序列并预测适应度。作者团队在几个公开可用的蛋白质数据集上评估了这种方法,观察到ReLSO的序列优化效率更高。
今天为大家介绍的是来自DAVID BAKER 和GEORGE CHURCH团队的一篇论文。
2021年11月11日,Science杂志发表文章,对AI在预测蛋白质复合物结构方面的新进展进行了介绍和分析。
2024年1月25日,David Baker在Science发表评论文章Protein design meets biosecurity,探讨了蛋白质设计的生物安全性问题。
SnapGene 5 for Mac是一款强大DNA序列分析软件,能够记录DNA构建体,而无需处理复杂的工具或工作流程。然后可以将数据导出为与设计用于DNA序列的其他流行软件解决方案兼容的文件格式。
在后基因组时代,蛋白质组学在生物医学研究中发挥着重要作用。近日,Nature子刊《Laboratory Investigation》发表了一篇高通量蛋白组的mini-review,概述了高通量蛋白质组学技术、统计和算法的进展。
生物信息处理的复杂性不是以蛋白质信号传导级联为结束,100亿个蛋白质不是完成其任务的工人的随机汤,而是这些工作者被设计为具有特定数量以服务于与目前相关的特定功能。所有这些都由涉及辅助蛋白,DNA和信使RNA(mRNA)的紧密反馈环控制。
新的方法,如基因组测序和质谱技术,大大增加了科学家和医疗专业人员获取更精确诊断和增强治疗精准度所需的分子数据的数量。虽然在DNA和RNA的基因测序方面取得了最大的进展,但蛋白质和代谢物高维度测量的医疗应用也在增加。为了适应这些分子“大数据”的数量、速度和多样性,分析工具也得到了改进。机器学习的出现被证明特别有价值。在这些方法中,计算机系统使用大量数据构建预测性统计模型,并通过整合新数据进行迭代改进。深度学习是机器学习的一个强大子集,其中包括使用深度神经网络,已在图像对象识别、语音识别、自动驾驶和虚拟助理等领域具有高知名度的应用。现在,这些方法正在医学领域应用,以提供临床指导性的医疗信息。在这篇综述文章中,作者简要描述了生成高维分子数据的方法,然后重点介绍了机器学习在这些数据的临床应用中扮演的关键角色。
序列比对(sequence alignment),目前是生物信息学的基本研究方法。
在接下来的内容,作者主要讨论了几种重要的机器学习方法,重点介绍它们的优缺点。表1显示了不同机器学习方法的比较。首先介绍的是,不基于神经网络的方法,也称为“传统机器学习”。此类模型可以使用各种软件包来训练,包括Python中的scikit-learn、R中的caret 和 Julia中的MLJ。下图展示了传统机器学习的一些方法:
蛋白质结构预测是生物化学中最重要的挑战之一。高精度的蛋白质结构对于药物发现至关重要。蛋白质结构预测始于20世纪50年代,随着计算方法和对蛋白质结构的认识不断增长。最初主要采用基于物理的方法和理论模型。当时的计算能力有限,这些模型往往难以成功地预测大多数蛋白质的结构。蛋白质结构模型的下一个发展阶段是同源建模,出现在20世纪70年代。这些模型依赖于同源序列具有相似结构的原理。通过将目标序列与已知结构的模板序列进行多序列比对,首次成功地确定了以前未解决的序列的结构。然而,这些模型的分辨率仍然有限。20世纪80年代出现了从头开始的方法,带来了下一个分辨率提升。这些方法应用了基于物理的技术和优化算法。结合计算技术的进步,这导致了蛋白质结构预测的显著改进。为了对所有这些新方法进行基准测试,从90年代初开始了蛋白质结构预测技术评估的关键阶段(CASP)系列活动。近年来,机器学习和深度学习技术已经越来越多地集成到蛋白质结构预测方法中,尤其是自2007年以来使用长短期记忆(LSTM)以来。
我在生物信息学:全景一文中,阐述了生物信息学的应用领域非常广泛。但是有一点是很关键的,就是细胞内的生命活动都遵从中心法则,生物信息学很多时候就是在中心法则上做文章:
RNA最近几年可火了,RNA小鲜肉F4:miRNA、lncRNA、circRNA、piRNA,它们直接或者间接调节mRNA的翻译、基因转录,这些科研热点也成为做实验发paper的最爱,不管核心还是SCI,不管是CNS还是低分SCI,不管是灌水还是酝酿大招,不带个非编码RNA(noncoding RNA)研究机制在里面都不好意思投稿,不拉上miRNA感觉故事讲不下去,可以编码蛋白、正经干活的mRNA被冷落,大家纷纷开始喜欢遍布细胞各处的监工:非编码RNA(ncRNA)
近年来,深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里极大改变了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们与其他生物分子的相互作用,并且有潜力创造用于治疗疾病的新型药物。
大肠杆菌产生3000多种不同的蛋白质;一个人有大约20000个基因,可以产生超过一百万种不同的蛋白质。在这两个物种中,每种类型的蛋白质都有一个独特的氨基酸序列,赋予特定的三维结构。这种结构又赋予了一种独特的功能。
本文介绍由美国马萨诸塞州波士顿哈佛医学院系统生物学系系统药理学实验室的Mohammed AlQuraishi等人发表于Nature Methods 的研究成果:研究人员报道了可微程序与分子和细胞生物学结合产生的新兴门类:“可微生物学”。本文作者介绍了可微生物学的一些概念并作了两个案例说明,展示了如何将可微生物学应用于整合跨生物实验中产生的多模态数据,解决这一存在已久的问题将促进生物物理和功能基因组学等领域的发展。作者讨论了结合生物和化学知识的ML模型如何克服稀疏的、不完整的、有噪声的实验数据造成的限制。最后,作者总结了它面临的挑战以及它可能扩展的新领域,可微编程仍有很多可发挥的空间,它将继续影响科技的发展。
作者:Andre Ye deephub翻译组:孟翔杰 许多人没有想到,病毒就像地球上为生存而挣扎的其他生物一样,它们会进化或变异。
今天为大家介绍的是来自Frank DiMaio团队的一篇论文。蛋白质-核糖核酸(RNA)和蛋白质-脱氧核糖核酸(DNA)复合体在生物学中扮演着至关重要的角色。尽管近年来在蛋白质结构预测方面取得了显著进展,但预测没有同源已知复合体的蛋白质-核酸复合体的结构仍是一个基本未解决的问题。在这里,作者将RoseTTAFold机器学习蛋白结构预测方法扩展应用,以预测核酸和蛋白质-核酸复合体。作者开发了一个网络系统,RoseTTAFoldNA,它能够快速生成带有可信度估计的蛋白质-DNA和蛋白质-RNA复合体的三维结构模型。
SnapHiC: a computational pipeline to identify chromatin loops from single-cell Hi-C data 论文摘要:
今天是最后一天啦!7天的时间悄然就过去啦!希望能够坚持养成每天学习的好习惯,今天肝了一份研究方案,测序原理这一块看得不是很仔细,明天会抽时间再看一遍滴!
Quantitative model suggests both intrinsic and contextual features contribute to the transcript coding ability determination in cells 论文摘要:
Biopython是Python的最大,最受欢迎的生物信息学软件包。它包含许多用于常规生物信息学任务的不同子模块。它由Chapman和Chang开发,主要使用Python编写。它还包含C代码,以优化软件的复杂计算部分。它可以在Windows,Linux,Mac OS X等操作系统上运行。
A tool for feature extraction from biological sequences
术语 cis 源自拉丁语词根“cis”,意思是“同一侧”。相比之下,“trans”一词来自拉丁语词根“trans”,意思是“对面”。在分子生物学中,顺式调控元件是指染色体 DNA 中调节同一染色体上基因转录或表达的区域。反式作用因子是指与基因的顺式作用元件结合以控制其表达的可溶性蛋白质。然而,可溶性反式作用蛋白可以驻留在任何染色体上,通常位于与其调节位置不同的染色体上。
近日,上海交通大学自然科学研究院/物理与天文学院/张江高等研究院洪亮课题组,在生物信息学和人工智能研究领域的国际权威学术期刊JCIM(Journal of Chemical Information and Modeling)上发表最新研究成果:“基于微环境感知图神经网络构建指导蛋白质定向进化的通用人工智能 ”(Protein Engineering with Lightweight Graph Denoising Neural Networks)。
1958年F.H.C. 克里克提出了生物学中重要的中心法则,DNA->RNA->蛋白质,中心法则说明,DNA可以转录形成RNA,RNA再翻译成一个个氨基酸,最后组合形成蛋白质。
关于DNA的分子生物学试验是生物信息学研究的第一步,也是整个流程的基础,DNA质量的好坏直接关系到后续测序分析的成败。
DNA的物理化学性质主要由碱基组成决定,有两种方法表示:碱基比例base ratio和GC百分含量简称GC含量GC content
质谱法可以高度准确地测量蛋白质的分子质量,轻松区分单个质子差异。然而,这项技术可以做得更多。可以在几秒钟内获得蛋白质样品中多个短多肽片段(每个片段有 20 到 30 个氨基酸残基)的序列。可以鉴定出未知的纯化蛋白质,并准确测定其质量。当与强大的肽分离方案相结合时,质谱可以在一小时内记录完整的细胞蛋白质组——定义为一个细胞中的全部蛋白质,包括对其相对丰度的估计。
还记得在围棋上碾压人类棋手的AlphaGo吗?现在,AlphaGo的缔造者DeepMind又再另一领域碾压了人类专家。
原理介绍视频:https://share.weiyun.com/5qojuBY 密码: 密码:bxsry4
领取专属 10元无门槛券
手把手带您无忧上云