首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

5️⃣ 蛋白质序列基本和特征信息分析(1) :蛋白质序列基本信息分析(氨基酸组成,理化性质,亲疏水等)

[序列比对和序列特征分析总目录](https://www.jianshu.com/p/878f2b2495ae 蛋白质是生命功能的执行者,一切生命活动都与蛋白质有关。...一级结构指的是蛋白质中氨基酸的排列顺序,和DNA一级结构一致。 也就是说蛋白质发挥什么功能,基本在一级结构中就确定了。 ---- 对蛋白质序列进行基本信息分析可以帮助了解蛋白质的基本信息。...每张表的解释,Rank越靠前的,Score越低,分越低代表最优匹配。如果score为0表示,输入的未知蛋白的组成与数据库中的序列完全符合。...Protparam可以预测蛋白质在人,酵母和大肠杆菌中的体内半衰期,可以作为其他物种内的参考。 不稳定系数:作文蛋白质在体外测试中稳定性的参考值。...因为氨基酸的亲疏水性是构成蛋白质折叠的主要驱动力之一,因此蛋白质亲水性分布可以反映蛋白质的折叠情况。

15.3K52

PNAS | UBC大学团队发现AlphaFold-Multimer能够准确捕捉蛋白IDR区域的相互作用

真核细胞中,存在一类序列区域,这些区域的蛋白质无法独立形成独特的三级结构,被称为“天然无序蛋白区域(IDRs)”。这类蛋白在细胞信号传递和代谢控制等重要的细胞过程中发挥着关键作用。...对于蛋白质复合物预测,特定的指标如界面-pTM(ipTM)和综合评分(计算公式为0.8 · ipTM + 0.2 · pTM)被开发出来,用于评估复合物成员间预测相对位置的准确性。...因此,作者测试了界面疏水性、IDR和受体中的电荷含量对AlphaFold-Multimer预测质量的影响。最显著的效果出现在界面疏水性上。...AlphaFold-Multimer能够识别全长蛋白中的结合IDR 图 4 到目前为止,作者的基准测试仅使用了PDB结构中的IDR序列,而未使用IDR来源的完整蛋白序列。...在SI附录图S10中,作者展示了AlphaFold-Multimer如何在一个全长蛋白(约1,400个氨基酸)中准确找到正确的结合区域,同时生成了一个似乎不正确的复合物结构(DockQ = 0.009)

32110
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    生物信息学数据库及在线工具汇总 (更新)

    ,如分子量、等电点、氨基酸和原子组成、消光系数、半衰期、不稳定系数、脂肪族氨基酸指数、亲水性。...疏水性氨基酸在蛋白质内部,在保持蛋白质的三级结构上,酶和基质、抗体和抗原间的相互作用等各种非共价键的分子结合方面,具有重要作用。...如果具有跨膜结构,蛋白很可能定位于细胞中与膜相关的结构,如细胞质膜、叶绿体膜或线粒体膜等内膜系统。此外,蛋白跨膜结构分析对于蛋白功能分析也有一定的帮助。...在宿主菌中表达外源蛋白时,可用信号肽引导外源蛋白定位分泌到胞外,提高蛋白可溶性,在原核表达系统(大肠杆菌、芽孢杆菌等)和真核表达系统(如毕赤酵母)中均有应用。...ATP 的磷酸基转移到底物蛋白质氨基酸残基(丝氨酸、苏氨酸、酪氨酸)上的过程,或者在信号作用下结合 GTP(通常以 GTP 取代 GDP),是生物体内一种普通的调节方式,在细胞信号转导的过程中起重要作用

    2.4K25

    卡内基梅隆大学提出SurfPro模型,通过表面特征进行蛋白质设计

    实际上,分子表面决定了蛋白质在三维欧几里得空间中的形状和生化性质,如疏水性、电荷和极性等等。表面形状和相关的生化特性共同决定了潜在的蛋白质功能。...对于点的序列而言,作者根据点对应的残基对点进行排序。 在蛋白质中,彼此靠近的残基表现出很强的相互作用。...在自回归蛋白解码器中,考虑到编码几何形状和生化特征的隐藏表示,作者使用Transformer解码器来生成给定表面的蛋白质序列。...表2中的结果表明,合并更多的生化特征不会提升模型性能,仅利用疏水性特性会略微降低性能,而仅依靠电荷特性会严显著降低性能,缺少这两种生化特征会进一步降低性能。...这些观察结果验证了几何形状和生化特征在表面表征学习中所起的关键作用,强调了将两者结合到蛋白质设计过程中的必要性。值得注意的是,在序列建模时,取消顶点排序会显著降低性能。

    30810

    生化小课 | 疏水氨基酸远离水的包装有利于蛋白质折叠

    当水包围疏水性分子时,氢键的最佳排列会在分子周围形成高度结构化的水壳或溶剂化层(solvation layer)(见图 2-7)。溶剂化层中水分子有序度的增加与水熵的不利降低相关。...然而,当非极性基团聚集在一起时,溶剂化层的范围会减小,因为每个基团不再将其整个表面呈现给溶液。结果是熵的有利增加。如第2章所述,熵的增加是水溶液中疏水基团缔合的主要热力学驱动力。...因此,疏水性氨基酸侧链往往聚集在蛋白质的内部,远离水(想象一下水中的油滴)。因此,大多数蛋白质的氨基酸序列包含大量疏水性氨基酸侧链(尤其是 Leu、Ile、Val、Phe 和 Trp)。...这些蛋白质的位置使得它们在蛋白质折叠时聚集在一起,形成疏水性蛋白质核心。 在生理条件下,蛋白质中氢键的形成主要受到这种熵效应的驱动。极性基团通常可以与水形成氢键,因此可以溶解于水中。...因此,当非极性氨基酸侧链聚集在蛋白质内时,自由能的大部分净变化源于疏水表面的掩埋导致的周围水溶液中熵的增加。这远远抵消了多肽被限制在折叠构象时构象熵的巨大损失。

    61330

    生命可以用更少的氨基酸编码蛋白质吗?

    由于在 Logo 生成过程中缺少对氨基酸性质等生物学因素的考虑,往往会导致对蛋白质功能进化保守性的评估出现偏差,引入冗余信息掩盖关键氨基酸序列信息。...然后,选择约化方案(极性/中性/疏水性,RKEDQN,GASTPHY,CLVIMFW),经过 RaacLogo 处理的 Motif 会非常整洁和简单,可以反映出高度的序列同源性。...三、基于氨基酸约化提取特征 另一个应用是基于目前如火如荼的机器学习,我们都知道,做机器学习最关键的步骤就是特征提取。...查看结果 可以看到,这几段序列会有不同的打分值,如果一个标签的占比高,就意味着这段序列极有可能是这个标签。比如,Psd1 这段序列就是植物中的一种防御素蛋白。 ?...五、模型自动训练的扩展 机器学习中模型训练会消耗大量的硬件资源和时间,因此现在开发该工具的团队正在提供可以在本地运行的自动训练,以 Python 包的形式来使用与 RaacBook 类似的功能,敬请期待

    82010

    . | 基于序列的预测方法可以准确判断含有非天然氨基酸肽的内在溶解度

    这种方法能快速、可靠地基于序列预测含修饰氨基酸肽在室温下水溶液中的内在溶解度。 与小分子药物相比,肽类药物具有多种优势:通常毒性低,不易在组织中积累,因此既安全又高效。...尽管已有几种准确的蛋白质和肽溶解度预测器,以及对单个氨基酸的预测器,但目前还没有基于序列的方法可以方便地处理非天然氨基酸。...原始的CamSol方法通过结合20种标准氨基酸的疏水性、电荷、α-螺旋和β-折叠倾向的数值来预测蛋白质的内在溶解度。为了将这些数值扩展到不同的mAAs,需要这些mAAs的物理化学性质信息。...对于双点修饰,他们排除了一些在结合中起着关键作用的残基,如7His、8Ala、9Glu等,以保持GLP-1的功能性。...在双点修饰中,他们确保了亲水残基(D、E、K)只被亲水性修饰(CIT、AIB)替换,而疏水残基(W、F、A、V)只被疏水性mAAs(CHA、NAC、NLE)替换。实验测定的部分结果见图2。

    30010

    . | 展望人工智能在蛋白质结构预测中的潜在应用

    在HEV pORF1的建模过程中,研究人员使用不同的序列比对方法(如HHBlits、MMSeqs)和多样化的参数,产生了30多个不同的结构,这些结构展示了多种可能的构象。...无序蛋白 固有无序蛋白质(IDPs)和含有固有无序区域(IDRs)的蛋白质在许多生物过程中扮演着重要角色,如信号传导和转录,并且在真核生物的蛋白质中非常丰富。...然而,人们发现AF2在蛋白质序列中过度估计无序。例如在一项研究的评估中大约一半的残基显示出低置信度(的评分。...最近的研究指出了蛋白质序列中AF2预测的固有限制的可能性,也就是低置信度的结构预测不是与无序相关,而是对应于由于AF2的固有限制(如目标序列缺乏共进化信息)而没有正确预测的可折叠域。...此外,将膜特异性特征(如疏水性、跨膜域、蛋白质-膜相互作用、膜组成和膜拓扑)纳入ML折叠模型可以改进膜蛋白的预测,尽管这些数据可能不足以进行训练。

    16210

    序列比对:替换计分矩阵

    序列比对 当研究一条DNA或蛋白质序列时,主要关注的是其包含的遗传信息;当研究两条或多条DNA或蛋白质序列时,则主要关注不同序列之间的差别与联系。...在生物信息学中,对生物大分子的序列比对是非常基本的工作。 上一篇文章DNA与蛋白质的序列比对原理介绍了两个序列相似性和距离的定量分析方法,即序列对齐与匹配/非匹配字符的打分。...根据20种氨基酸侧链基团疏水性的不同以及氨基酸替换前后理化性质改变的大小,制定以氨基酸疏水性为标准的疏水性矩阵,来计算得分,适用于偏重蛋白功能分析的序列比较,若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高...PAM矩阵是目前蛋白质比对中第一个广泛使用的最优矩阵,它是基于进化原理的,建立在进化的可接受点突变模型PAM(PointAccepted Mutation)基础上,通过统计相似序列比对中各种氨基酸之间实际替换的发生率而得到的...PAM矩阵是从蛋白质序列的全局比对结果推导出来的,而BLOSUM矩阵则是从蛋白质序列块(短序列)比对而推导出来的。但在评估氨基酸替换频率时,应用了不同的策略。

    2.9K20

    ACS Nano | 基于计算机的抗菌肽发现框架

    序列比对是比较生物序列的常用方法,也是在包含数千种蛋白质的大型数据库中,搜索相似序列的最简单方法。有两种主要的方法来搜索AMP模式:隐马尔科夫模型(profile-HMM)和正则表达式(REGEX)。...一旦确定了这些肽的主序列,就可以设计具有相似氨基酸组成的序列,并保持相似的物理化学特征平均值,如平均疏水性或净电荷。该方法用于分析混杂肽,即在不同环境或条件下具有多种生物学功能的多肽。...因此,由于大量的描述符依赖于结构信息,通过对肽和蛋白质的氨基酸序列进行非常精确的分析,可以实现对模式的准确预测。...E. coli MerP片段展示了一个螺旋含量高而不是标准的可预测的物理化学特性,典型赋予小型螺旋阳离子抗菌活性肽,如低净正电荷和长度(+ 2)或高疏水性(∼80%的氨基酸序列的疏水残基)。...基于统计学肽设计 基于统计的计算方法代表了传统计算机引导的肽设计的替代策略。这些方法使用生物信息学工具,如统计建模、SAR研究、神经网络和ML,来分析和增强数据库中描述的AMPs的活性。

    1.1K30

    基于计算学方法的蛋白质相互作用预测综述

    后四种模型利用蛋白质中的各种生物学信息,如:蛋白质序列、结构、基因组、基因本体论等提取能为相互作用预测提供帮助的数据,为蛋白质对构建特征向量,再结合分类器完成预测任务。...蛋白质序列数据库 蛋白质序列也可被称作蛋白质一级结构,它指的是氨基酸残基在蛋白质肽链中的排列顺序,是蛋白质最基础的结构。...在一级结构序列中,蛋白质肽链是直链状,而二级结构中的肽链分子会通过一定的规律进行卷曲或折叠形成的特定空间结构,如α螺旋和β折叠;三级结构是在二级结构的基础上进一步盘曲或折叠形成的三维(3D)空间结构;四级结构则是具有两条或两条以上三级结构的多肽链组成的蛋白质...基于序列的模型 基于此信息的预测模型主要通过蛋白质序列提取某些能够为预测任务提供支持的信息,例如氨基酸的疏水性、亲水性等,然后利用这些信息为每个蛋白质生成唯一特定的特征向量,最后把提取出的蛋白质向量输入到经典的分类器中...此类模型能够基于序列从多种角度预测相互作用,如:序列相似性和共同进化信息,并通过不同的方法丰富预测信息,更准确的识别有用的蛋白质序列,进一步提升模型的预测性能。

    3.7K23

    5️⃣蛋白质的特征信息3:卷曲螺旋预测

    序列比对和序列特征分析总目录 卷曲螺旋是蛋白质中的结构motif,其中2-7个α-螺旋像绳索一样缠绕在一起,其中最常见的类型是二聚体和三聚体。...卷曲螺旋区域一般由7个氨基酸残基的单位组成,分别以abcdefg表示各个氨基酸残基位置,其中,ad位置的一般为疏水性氨基酸,其他位置为亲水性氨基酸。...许多卷曲螺旋型蛋白质参与重要的生物学功能,例如基因表达的调节的转录因子。 比如c-Fos和c-jun。 ? coiled coil 在线工具:COILS ?...用于调整卷曲螺旋ad位置疏水氨基酸的权重,有两个选项,yes表示相比其他位置的氨基酸,ad位置指定为2.5倍的权重,选择no,则是所有位置的氨基酸残基指定相同的权重。默认no。...如果在卷曲螺旋中ad位置为亲水性氨基酸,则选择 查询序列名称 输入序列格式,以下六种 ? 结果 以HUMAN c-fos为例 ? ?

    2.4K10

    上(市场篇)| 量子计算加速蛋白质折叠

    在从mRNA序列翻译成线性的氨基酸链时,蛋白质都是以去折叠多肽或无规则卷曲的形式存在。 蛋白质的基本单位为氨基酸,而蛋白质的一级结构指的就是其氨基酸序列。...蛋白质会由所含氨基酸残基的亲水性、疏水性、带正电、带负电等特性通过残基间的相互作用而折叠成一立体的三级结构。 2....AlphaFold2最近在国际蛋白质结构预测大赛中夺冠,它的准确性均分达到了92.4/100,而过去的几十年中,其他传统方法只能在40分左右徘徊。...AlphaFold2主要架构如下图: AlphaFold2主要架构 4.1 神经网络EvoFormer 具体来看,AlphaFold2主要利用多序列比对(MSA)把蛋白质的结构和生物信息整合到了深度学习算法中...在EvoFormer中,主要是将图网络和多序列比对结合完成结构预测。图网络可以很好的表示出事物之间的相关性,它可以将蛋白质的相关信息构建出一个图表,以此表示不同氨基酸之间的距离。

    45230

    JCIM | 组合分子动力学模拟和深度学习预测小分子迁移自由能

    作者/编辑 | 王建民 导读 准确预测小分子的配分和疏水性在药物发现过程中至关重要。细胞和整个人体内有许多异质的化学环境。...例如,药物必须能够穿过疏水性的细胞膜才能到达细胞内的靶点,而疏水性是药物与蛋白质结合的重要驱动力。...介绍 分子动力学模拟(MD)和机器学习(ML)已广泛用于药物发现中。研究的应用范围包括蛋白质-配体结合、蛋白质-蛋白质相互作用、分配系数和脂质膜渗透。...传统上,已经使用小分子在水和有机溶剂(logP)之间的大量分配来估计被动膜的渗透。疏水性在小分子药物发现中的重要性已通过Lipinski规则来说明。...介绍如何在两种自由能上训练3D-CNN,从而改善预测并减少离群值预测的数量,这表明多任务学习是提高ML化学预测准确性的一种有价值的方法。

    1.5K62

    机器学习在生物信息学中的创新应用:解锁生物数据的奥秘

    随着生物技术的飞速发展,产生了海量的生物数据,如基因序列、蛋白质结构数据等。机器学习,作为一种强大的数据处理和分析工具,在生物信息学领域发挥着越来越重要的作用,为生物学家揭示生物奥秘提供了新的途径。...机器学习的解决方案深度学习中的卷积神经网络(CNN):CNN在处理图像数据方面表现出色,而蛋白质结构可以看作是一种特殊的三维“图像”。...通过将蛋白质的氨基酸序列信息转换为适合CNN输入的格式,CNN可以学习到氨基酸序列与蛋白质结构之间的潜在关系。例如,AlphaFold就是利用深度学习技术在蛋白质结构预测方面取得了巨大的成功。...基于特征的预测方法:提取蛋白质的各种特征,如氨基酸组成、亲疏水性等,然后使用机器学习算法如随机森林进行结构预测。随机森林是一种集成学习算法,它构建多个决策树并综合它们的预测结果。...解决这些问题需要开发更好的数据预处理方法和可解释性的机器学习算法。多组学数据整合随着技术的发展,生物信息学涉及到多种组学数据,如基因组学、转录组学、蛋白质组学等。

    18210

    5️⃣蛋白质的特征信息2:信号肽的预测和识别

    序列比对和序列特征分析总目录 信号肽signal peptide是新合成多肽链中的末端(通常N末端)的氨基酸序列,这个序列可以指导蛋白质的跨膜转移。...信号肽中包含至少一个带正电荷的氨基酸和一个高度疏水区以通过细胞膜 信号肽是新生肽链分泌到细胞外的信号也是一些蛋白质在细胞内的定位信号 因为分泌到胞外的蛋白质不含有信号肽,所以只能从细胞内分离不成熟的肽链...,进行N末端测序,来了解信号肽的结构特征 目前发现,信号肽序列中含较多疏水性氨基酸较多是明显特征 信号肽预测在线工具:SignalP 目前4.1版,通过人工神经网络方法,预测包括革兰氏阳性菌,革兰氏阴性菌及真核生物在内的...**氨基酸序列信号肽剪切位点的有无及出现位置。...HGFAC 1 输入蛋白质序列:FASTA格式 其他参数设置:待续。。。 ? 2 结果 ? ? Result

    2.6K30

    生命可以用更少的氨基酸编码蛋白质吗?

    最简单的约化方案是以极性或者亲疏水性作为标准,将20种氨基酸只约化为两个字母,最终会得到两个字母组成的约化氨基酸字母表。...比如,我们使用氨基酸在不同蛋白质二级结构中的偏好性来约化20种氨基酸构成的蛋白质字母表。下图中的蛋白质,通过氨基酸约化分析,它的三维结构与二级结构有极高的匹配度。...由于在一般的 Logo 生成过程中缺少对氨基酸性质等生物学因素的考虑,往往会导致对蛋白质功能进化保守性的评估出现偏差,引入冗余信息掩盖关键氨基酸序列信息。...可以看到,这几段序列会有不同的打分值,如果一个标签的占比高,就意味着这段序列极有可能是这个标签。比如,Psd1 这段序列就是植物中的一种防御素蛋白。 ? ?...自动训练模型 机器学习中模型训练会消耗大量的硬件资源和时间,因此现在该团队正在开发可以在本地运行的工具。可以实现以上的全部功能,并以 Python 包的形式发布,敬请期待。

    79420

    【Nature communications】四篇好文简读-专题6

    目前绘制的淀粉样蛋白序列空间强烈偏向疏水性、β-折叠倾向的序列,这些序列形成球状蛋白的核心,并由富含Q/N/Y的酵母朊病毒构成。...在这里,作者利用目前蛋白质数据库中淀粉样蛋白核心上越来越多的高分辨率结构信息来实现一种机器学习方法,称为Cordax(https://cordax.switchlab.org),探索淀粉样蛋白序列超出其当前边界...通过t分布随机邻近嵌入(t-SNE)进行聚类显示了提出的方法如何导致从疏水性淀粉样蛋白序列扩展到低脂肪含量和高电荷的簇,或螺旋和无序倾向的区域。...除了之前早期肺癌单细胞研究中描述的细胞类型外,我们还能够在肿瘤中识别罕见的细胞类型,如滤泡树突状细胞和T辅助17细胞。...在这里,我们对非小细胞肺癌诱导的62382个MPE细胞进行了单细胞RNA测序,以描述MPE中浸润免疫细胞的组成、谱系和功能状态。

    44510

    基于组合贝叶斯优化的自动化抗体设计

    2 将抗体设计形式化为黑盒优化 为了寻找对抗原具有强亲和力、满足特定生物物理特性的 CDRH3 序列,使其成为实际应用的理想选择(即,可制造、长保质期、高浓度剂量)。这些属性被描述为“可开发性分数”。...3)序列中不包含糖基化基序。 2.2 优化问题 图2:不满足可开发性约束的序列 考虑长度为 L 的蛋白质序列的组合空间为 X,则其空间的基数是 。...表1:达到一定亲和力所需的蛋白质设计平均数量 作者采用性能最佳的 AntBO,并在 188 种抗原中与 GA 和 RS 进行比较。...表1中展示了三种方法需要在成功的试验中达到低、高、非常高和超级亲和力(需达到Absolut!数据库的前 5%、1%、0.1%、0.01%)所需的蛋白质设计的平均数量。...图4:SARS-CoV 病毒的 S 蛋白的可开发性评分(亲水性、电荷和不稳定性) 作者还对SARS-CoV的结合亲和力和发育性评分。可以观察到亲水性随能量增加呈正相关。

    54920

    PNAS | ThermoMPNN:基于ProteinMPNN的蛋白质热稳定性预测

    图1 ThermoMPNN模型图:ProteinMPNN + Prediction module ProteinMPNN使用了整个PDB中的19700个蛋白簇进行训练,目标是根据给定的蛋白质骨架预测天然序列...这些预测是基于从PDB中的天然蛋白质中学习到的结构模式。...在ProteinMPNN模块中,Encoder结合蛋白质的结构和序列信息,Encoder的输出不会直接被使用,而是作为Decoder的输入;Decoder有3层,图中每个Decoder层的右侧都有一个紫色条...经过去重、清理缺失信息并选择最接近生物pH的测量值后,最终得到包含3,438个突变、覆盖100个独特蛋白质 的Fireprot数据集,其规模与常见的文献训练集相当(如S2648、Q3421、Q3488)...疏水性和亲水性突变的整体趋势也有所差异,表明ThermoMPNN对蛋白不同结构区域的突变设计具有更精细的调控能力。值得注意的是,半胱氨酸突变因可能形成二硫键被排除在分析之外。

    47800
    领券