近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库正式上线。该研究成果以`LncExpDB: an expression database of human long non-coding RNAs`为题在国际学术期刊《核酸研究》(`Nucleic Acids Research`)在线发表。 `LncRNA`通过复杂多样的分子机制发挥重要调控功能,在多个生物学过程以及疾病发生发展中均发挥重要作用。目前,人类基因组中已鉴定出十万多个lncRNA基因,但有功能研究的仅有数千条,因此全面注释lncRNA功能是人类基因组研究的重要内容和巨大挑战。近年来,高通量测序技术的迅速发展促进了正常组织、疾病、胚胎发育、器官分化、病毒侵染、亚细胞区室等多种生物学场景的研究,积累了丰富的组学数据,尤其是转录组测序数据,为从多角度发现和研究lncRNA的生物学功能提供了重要的数据基础与研究思路。 LncExpDB数据库致力于提供多生物学场景的lncRNA表达谱,鉴定具有潜在功能的lncRNA,促进lncRNA的功能实验研究。在LncBook数据库构建的人类lncRNA数据集基础上,研究人员整合CHESS、RefLnc、FANTOM等10余个专业数据库鉴定的lncRNA,基于严格审编标准,获得全面的高质量人类lncRNA参考数据集,包含101,293个基因/33,1244个转录本。LncExpDB数据库进一步整合9种重要生物学场景(正常组织/细胞系、器官发育、植入前胚胎发育、细胞分化、亚细胞定位、外泌体、癌症细胞系、病毒侵染、昼夜节律)的1,977个样本的转录组数据,通过标准化的转录组数据分析流程,系统分析并鉴定每种生物学场景的特征基因(管家基因/组织特异性基因、差异表达基因、节律基因、动态表达基因、亚细胞区室富集基因)集合,共计25,191个特征lncRNA基因和28,443,865对相关的lncRNA-mRNA共表达关系。此外,LncExpDB鉴定了具有表达证据支持的92,016个lncRNA基因,评估了lncRNA的表达水平与表达潜力。
5月13日~15日,由IEEE和浙江大学主办的第十届生物信息学与计算生物学国际会议(ICBCB 2022)顺利举行,深圳国家基因库(以下简称“国家基因库”)受邀作为协办单位参与本次会议,由国家基因库生命大数据平台(CNGBdb)搭建的时空组学数据库(STOMICS DataBase)亮相生物信息与组学数据分析论坛,获得生物信息与计算生物学领域研究人员的广泛关注。
它里面提供了其RNA-seq项目的数据库链接在:https://www.ebi.ac.uk/ena/browser/view/PRJEB36947,有意思的是我进入查看,发现其仅仅是上传了bam文件,并没有其它。
进化发育生物学(EvoDevo)是近年来国际上迅速崛起的新兴前沿交叉学科,旨在通过研究生物界高度多样化的发育过程,从而深刻归纳阐释发育过程背后隐藏的进化驱动机制和规律,以解答被Science杂志评为125个最具挑战性的科学难题之一的生物多样性决定机制问题。在过去的几十年里,利用经典模式生物(如黑腹果蝇、秀丽隐杆线虫、斑马鱼和小鼠)所开展的广泛研究给我们带来了生物学领域诸多重大发现和突破,奠定了目前遗传、发育和进化等领域的基本知识构架体系。然而,为数甚少的模式动物无法涵盖动物界高度多样化发育过程的全部信息,更无法提供对整个动物界发育进化过程的全景式解读和归纳。为填补这一极大的知识空白,利用具有关键系统发育位置和全谱系覆盖的新兴模式生物来描述整个生命树的发育进化,对驱动进化发育学领域的跨越式发展具有极为重要科学价值和意义。高通量测序技术的革命性突破及各类组学技术广泛应用,为生命科学领域带来前所未有的发展契机。基因组学、转录组学以及单细胞技术加速了许多传统的非模式生物转变成新兴的模式生物(如栉水母、丝盘虫、玻璃海鞘、侏儒蛤等)。尽管近些年非经典模式动物类群已积累了海量的多组学资源,并仍以史无前例的规模快速增长,但对这些储存分散的组学资源进行整合和综合分析仍是目前国际上动物进化和发育研究领域共同面临的重大挑战,迫切需要系统建立面向整个动物界的进化发育综合组学数据库和相应的分析工具和平台。
2022年7月28日,DeepMind官方网站发布AlphaFold最新进展:AlphaFold已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构。
通过差异分析,我们可以知道不同分组间是否存在差异,存在差异的是哪些基因。再进一步,需要探究这些基因的表达量出现差异是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。
量子位智库 发自 凹非寺 量子位 | 公众号 QbitAI 这个赛道火到全球大厂都想插一脚,却从未诞生一家真正意义上的公司。 它就是计算生物。 谷歌Meta英伟达百度阿里,还有比比皆是的初创企业,都屡屡传出最新前沿进展。 作为工具类学科,很难想象会在诞生近30年之后迎来如此盛况。 如今在AI激活、数据驱动下,计算生物已经来到大规模应用前夜。它将如何落地?发展到什么阶段?国内外差距到底有多大? 量子位智库做了个全球体系化梳理写下《计算生物学深度产业报告》,并整理出七个问答速览整个行业全貌。 1、计算生物学究
随着国内生物信息学的发展,目前在十几个主要的生命科学科室都建立了自己的生物信息团队,也形成了以NGS技术为代表的生物信息科技服务产业,自然地,他们也有生物信息团队。从早期的C,perl到如今的python和R,这些计算机语言的应用为我们揭示生物学问题提供了新的语言、工具、手段。当然,我们看到生物信息作生命科学的基本配置正在成为常态,各个实验室也还在慢慢培养和配备自己的生物信息人员、硬件、软件。
但是,一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
DAVID (the Database for Annotation,Visualization and Integrated Discovery)的网址是http://david.abcc.ncifcrf.gov/。 DAVID是一个生物信息数据库,也是一款在线免费分析软件,其整合了生物学数据和分析工具,为大规模的基因或蛋白列表(成百上千个基因ID或者蛋白ID列表)提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。目前DAVID数据库主要用于差异基因的功能和通路富集分析,对很多科研工作者来说,是个非常好的工具。
之前介绍过一些关于生物学某一个方面的综合性数据库,例如 [[SNP是什么东西?#SNP 数据库]] 以及 [[Mesh-主题词查询数据库]]。在这些数据库里面可以分析多个不同的疾病和这个生物学特征的关系。那既然有这样的数据库。反过来也就会有某一个疾病和多个生物学特征关系的数据库。其中就有比如 [[malacards-疾病相关信息查询数据库]] 这样综合性疾病查询的数据库。今天来介绍一个和脑部疾病有关的综合性数据库 : BrainBase: https://ngdc.cncb.ac.cn/brainbase/index
5月21日~23日,由香港化学生物及环境工程学会(HKCBEES)-生物学和生物信息学会(BBS)主办的第十三届生物信息学和生物医学技术国际会议(ICBBT 2021)、第九届IEEE生物信息学与计算生物学国际会议(ICBCB 2021)、图形与图像处理国际前沿研讨会(FGIP 2021)在西安同期召开,深圳国家基因库(以下简称“国家基因库”)受邀作为协办单位参与三大会议,国家基因库生命大数据平台(CNGBdb)亮相ICBBT 2021主会场主题演讲,获得国内外医学与生物信息领域研究人员的广泛关注。
Integrative structural biology, the culmination of experimental and theoretical methods, will provide a holistic view of molecular processes.
小编为大家爆肝整理了近百个数据库!共分10大类。今天第二期小编为大家分享后5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐的数据库,但却已经不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
生物信息学研究中,获取基因列表的GO和KEGG富集分析的需求非常常见。目前有许多生物信息学手段或者数据库可以实现基因富集分析,例如DAVID,但它们有些是收费的,有些不易于使用且很少维护。例如DAVID曾经有六年的时间(2010-2016)没有维护数据库,最近的更新也已经两年半了。而Metascape每月更新其相关的40多个数据库,以确保提供最准确的结果。因此Metascape数据库可以作为富集分析的比较好的手段。
Every cell is unique—it occupies an exclusive position in space, carries distinct errors in its copied genome and is subject to programmed and induced changes in gene expression. Yet most DNA and RNA sequencing is performed on tissue samples or cell populations, in which biological differences between cells can be obscured by averaging or mistaken for technical noise.
---- 新智元报道 编辑:拉燕 Aeneas 如願 桃子 【新智元导读】今天,AlphaFold又让学术界沸腾了。DeepMind官宣,AlphaFold可以预测出2亿多个蛋白质结构,几乎覆盖了整个「蛋白质宇宙」。 今天,DeepMind再次引爆学术界! AlphaFold能够预测2亿多个蛋白质结构,实现数量级的重大飞跃。 最重要的是,全部免费开放! 在未来,预测蛋白质结构就如同使用「谷歌搜索引擎」一样简单。 DeepMind的首席执行官Demis Hassabis称, 「这个数据库涵盖了整个
代谢重编程是目前疾病研究比较火热的一个话题,代谢常常影响着多种疾病,以癌症为例,通过代谢通路研究,可以靶向寻找肿瘤细胞能量供应途径,从而抑制肿瘤细胞增殖,其中脂代谢可以称为疾病代谢机制研究中十分重要的一员。随着对脂质在细胞生物学,生理学和病理学中的多种生物学作用的更好的理解,脂质的研究已经发展成为越来越重要的研究领域。
信息学正在跨学科发展,影响着化学、生物和生物医学的多个领域。除了成熟的生物信息学学科,其他以信息学为基础的跨学科领域也在不断发展,如化学信息学和生物医学信息学。其他相关的研究领域,如药物信息学、食品信息学、表观信息学、材料信息学和神经信息学等最近才出现,并作为独立的子学科继续发展。这些学科的目标和影响通常在文献中被单独回顾。因此,确定共同点和关键差异仍然具有挑战性。研究人员结合自然科学和生命科学中的三个主要信息学学科,包括生物信息学、化学信息学和生物医学信息学进行讨论,并对相关的子学科进行简要评论。重点讨论了生物信息学、化学信息学和生物医学信息学的定义、历史背景、实际影响、主要异同,并对生物信息学、化学信息学和生物医学信息学的传播和教学进行了评价。
ScienceAI编译 编辑:宇琦 人工智能正在改变生物技术领域,美国政府现在应该采取大胆的措施,使人工智能帮助释放该领域的整体潜力,并确保美国引领即将到来的生物技术革命。 2020年1月11日,中国首次分享了COVID-19病毒基因序列。到1月13日,生物技术公司Moderna已经利用这一信息确定了其疫苗的设计。 将曾经需要数月或数年的过程缩短为短短十几个小时,这一现代科学的奇迹,并非幸运使然。如果没有人工智能和机器学习的重大进展、工业界对这些技术的投资以及美国政府在过去几十年对生命科学和生物技术的资助
杨净 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 计算生物界的大明星AlphaFold,再度取得重大突破。 它已经能够预测超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。 从今天起,预测几乎所有已知蛋白质的结构,都如同使用搜索引擎一样简单。 而又在一周前,国内外两种代表性企业,几乎同时传来最新研发成果。 互联网巨头Meta,更新蛋白质大模型ESMFold。它可直接从单序列语言模型表示中预测完整的蛋白质结构,准确性与AlphaFold相媲美,推理速度快了一个数量级。 彭
基因本体论定义与基因功能有关的概念('GO术语'),以及这些功能如何相互关联。随着生物学知识的积累,它不断修改和扩展。GO描述了三个方面的功能:分子功能(基因产物执行的分子水平活动),细胞组分(相对于基因产物执行功能的细胞结构的位置)和生物过程(更大的过程,或通过多种分子活动完成的“生物学课程”)。
深度学习方法在准确识别疾病相关基因以进行诊断、预后和治疗方面发挥着至关重要的作用。2023年7月,《Frontiers in Genetics》发表综述文章,系统地评估了基于深度学习技术的多组学数据分析的最新趋势及其在疾病预测中的应用。
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。
2022年1月11日,Nature Methods 发表文章,将蛋白质结构预测命名为2021年度方法,并推出特刊。
该工具由哈尔滨大学开发的,该团队通过结合系统生物学、计算生物学和生物信息学方法来分析与疾病相关的途径。对疾病代谢途径的识别、药物相关途径的分析和患者生存预测。在高通量转录组学、基因组学和代谢组学、计算代谢网络分析和分子生物学方法方面,采用独特的生物信息学方法组合。下面是他们开发的6个工具:
面向单细胞的技术革命,让我们得以进入新的研究层面,但也对传统的分析方法提出了一系列的挑战。单细胞技术正在弥补分子生物学和组织生物学之间的鸿沟,进入高通量时代以来,这项技术所揭示的不是单一元素的信息,而是在单细胞层面揭示某种系统关系:DNA,RNA,ATAC等。我们知道,在系统中,关键要素除了来自元素本身(基因,转录本等生物小分子)之外,还来自元素之间的关系。虽然作为领域起源的社会网络分析可以追溯到20世纪30年代,图论可以上溯几个世纪,但网络科学的迅速崛起与普及只是近几十年的事情。目前,基因调控网络,生物代谢与信号转导网络,蛋白质互作网络作为基本的生物分子网络(Biological molecular network )已经在生物信息分析中得到广泛的应用。
备受期待的AlphaFold2数据库,是会成为专家们打开蛋白质功能奥秘的金钥匙,还是一场美丽的“科技泡沫”?
前段时间,《自然》杂志刊登了 DeepMind 的两篇论文,介绍了该公司在蛋白质结构预测方向的最新进展。研究表明,DeepMind 的 AlphaFold 所预测的蛋白质结构已经能达到原子水平的准确率。与此同时,他们还在 GitHub 上公开了 AlphaFold 的源代码。
4月21日~23日,由IEEE, 浙江大学主办,深圳国家基因库(CNGB) 等单位协办的第11届生物信息学与计算生物学国际会议(ICBCB2023)在杭州顺利举行。国家基因库生命大数据平台(CNGBdb)亮相ICBCB2023大会特邀报告,获得生物信息与计算生物学领域研究人员的广泛关注。
今天先预热,介绍一下研究生计算机专业的方向有哪些,这也是很多即将读研的小伙伴关心的话题。
美国的国家生物技术信息中心(National Center forBiotechnology Information,NCBI,https://www.ncbi.nlm.nih.gov/)是1988年美国国家健康研究所(National Institutesof Health,NIH)和国家医学图书馆(United StatesNational Library of Medicine,NLM)联合发起成立的分子生物学、生物化学、遗传学知识储备和文献整理平台,并逐步演变为大规模生物医药数据存储、分类与管理,生物分子序列、结构与功能分析,分子生物软件开发、发布与维护,生物医学文献收集与整理,全球范围数据提交与专家注释于一体的世界生物医学信息与技术资源数据库。NCBI采用著名的Entrez搜索和信息检索系统,可以进行在线资源检索,同时构建FTP数据资源下载平台(https://www.ncbi.nlm.nih.gov/guide/all/#downloads),方便用户批量下载数据。
来自斯坦福大学的研究人员使用数百万个真实细胞的化学和基因组成作为原始数据训练了一个AI大模型,
根据你生物学故事的大小来说,有不同的论证方法,当然,普罗大众喜闻乐见的当然是公共数据库网页工具不停的点点点,就出来了一堆图表证明自己的基因有研究的意义。证据链有长有短,我们这里分享一个还算是比较中规中矩的5个小图组成的figure1说明基因METTL3的重要性(小声逼逼,其实METTL3是参与m6A过程的基因,重要性已经不言而喻)
2022年4月1日,休斯顿莱斯大学计算机科学系的Todd J. Treangen等人在Nat Commun杂志发表文章,讨论了深度学习在五个生物科学领域的最新进展、局限性和未来前景。
今天给大家介绍来自中科院的胡伦和IBM的胡鹏伟等人在Briefings in Bioinformatics上发表的文章“A survey on computational models for predicting protein-protein interactions”。预测蛋白质之间的相互作用(PPI)对研究生物体内的各种细胞学机制至关重要,计算学方法能够有效改善传统生物学方法预测PPI时耗时耗力,且预测结果不可靠的问题。在本文中,我们描述了PPI预测所需的各种蛋白质相关数据库,介绍了现有的各种计算学模型的优缺点,然后描述了常用的实验方案和模型性能评价指标,并介绍了几种在线预测工具,最后阐明了预测PPI的未来发展方向。
Journal of Integrative Plant Biology是一本同行评议的月刊,报道最新的植物生物学发现。
“看新闻,查文献,做调研,找素材,怎么样样都要搜搜搜?”今天小研给大家介绍各种搜索引擎吧!让你的搜索更精确,更全面! 📷 1 Google 学术搜索 http://scholar.google.com/(若打不开,修改host文件即可) 不少人说这玩意不好,尤其是与百度比较。这也只是一说,你可以自己试试。Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列
我注意到这个研究比较好的结合了传统bulk转录组数据和单细胞转录组数据,值得解读和推荐给大家。
人工智能(AI)方法已经并正在越来越多地被整合到生物信息学及其糖科学分支(即糖信息学)中实施的预测软件中。人工智能技术在过去几十年中不断发展,它们在糖科学中的应用还不广泛。这种有限的应用部分是由于糖类数据的特殊性造成的,众所周知,这些数据是难以产生和分析的。尽管如此,随着时间的推移,糖学、糖蛋白组学和糖结合数据的积累已经达到了一定程度,即使是最新的深度学习方法也能提供性能良好的预测器。
该数据库是关于基因、蛋白、酶代谢子、药物、生化反应以及通路的综合数据库。该数据库实际由多个子数据库构成,最著名的当属通路KEGG PATHWAY数据库,它是目前被广泛使用的通路数据库。其中包含上千个物种的代谢与信号传导通路信息,这些信息从生物学实验和文献中提取,并经过人工校正。实时更新的管理模式也是人们能够从该数据库获得最新的通路数据。
2022年4月27日,DeepMind科学工程师Tunyasuvunakool在Nat Rev Mol Cell Bio杂志发表评论文章,讨论和分析了AI预测蛋白质结构的前景、机遇和挑战。
新智元报道 来源:VB 编辑:王汐,元子 【新智元导读】FlyHash是一种受果蝇嗅觉电路启发的算法,已证明该算法可生成哈希码,性能优于经典算法。不幸的是,由于FlyHash使用随机投影,因此无法
所以转录组差异分析不足以说明你的目标基因调控某个通路,哪怕是这个通路排名如何的靠前也不过是一个统计学指标罢了。比如文章:《Targeting PUS7 suppresses tRNA pseudouridy lation and glioblastoma tumorigenesis》就做了敲除PUS7基因前后的转录组测序然后差异分析,得到 205 upregulated and 46 downregulated genes in PUS7 KO GSCs compared with control GSCs.
大家好!今天给大家介绍一篇2022年6月发表在Journal of Translational Medicine(IF:8.440)上的一篇文章。本研究作者全面分析了胶质瘤患者的小胶质细胞的作用并基于相应亚通路构建预后模型。
近期,美国专业市场研究机构QY Research Medical发布了市场研究报告。报告称,2021年全球计算生物学市场规模为53.5亿美元,预计在预测期内收入复合增长率将达到21.0%。报告从驱动因素、制约因素、应用展望、服务展望、最终用途等方面进行了市场分析。
国家基因库生命大数据平台(CNGBdb)被全球学术出版业巨头爱思唯尔(Elsevier)收录为组学数据归档库,并列入其推荐数据存储库列表。这标志着CNGBdb组学数据标准和数据库体系在国际认可方面迈上了一个新台阶。全球科研人员在爱思唯尔旗下期刊投稿,可以选择CNGBdb归档并共享科研数据。
作为一枚长期关注BT与IT融合的小编,最近挖到一篇NC综述,作者从蛋白质结构预测、蛋白质功能预测、基因工程、系统生物学和数据集成以及系统发育推断五个方面讨论了深度学习(DL)的最新进展、局限性和未来展望。
然后每个亚群进行第二层次细分亚群,甚至第三层次,第四次分群,结构清晰明了。我们以上皮细胞亚群的 细分来举例说明每个分析点的工作量:
领取专属 10元无门槛券
手把手带您无忧上云