本章的目的是为读者提供理解基因组学所需的一些基础知识。需要说明,这绝不是对这一学科的完整概述,而只是一个简单的总结,它将帮助非生物学相关专业的读者理解计算基因组学中反复出现的生物学概念。熟知基因组生物学和全基因组定量分析的读者可以自由跳过这一章或大致浏览一遍。
这篇综述文章《Bioinformatics Methods for Mass Spectrometry-Based Proteomics Data Analysis》由Chen Chen等人撰写,发表在《International Journal of Molecular Sciences》上,主要讨论了基于质谱(MS)的蛋白质组学数据分析中的生物信息学方法。不过这个综述里面的蛋白质组学数据分析的上下游划分方式我不是很认可,我认为的:
作 者:hyn, https://zhuanlan.zhihu.com/p/40756359
比如肿瘤异质性研究的标准思路(多组学+多位点取样),发表在 Clin Cancer Res 2021; 的 文章:《Multiomic Analysis Reveals Comprehensive Tumor Heterogeneity and Distinct Immune Subtypes in Multifocal Intrahepatic Cholangiocarcinoma》
近年来,空间基因表达技术得到了迅速的发展,其中最成熟的商业化平台是来自10X Genomics的Visium,它们允许我们在形态学背景下进行基因表达谱分析。空间转录组被Nature杂志评为2020年度技术,一时间风光无两。其实回顾起来,我们对生物体内空间或原位信息上的痴迷一点也不亚于对宇宙的好奇。技术允许的早期我们就开始这样做了。
我写公众号的最初目的就是督促自己学习,分享一些教程,和专门搞生信的大佬们比起来,自己也就是菜鸟一枚,公众号更新也比较佛系,也不做推广,你能自行关注到,完全靠缘分。我就是分享一些生信基础的生信分析技能,以满足大家在科研工作中的生信需求。说实话,大家需要给你自己以定位,自己做纯生信的还是只是借助生信为大家在湿实验中提供思路,或者文章中添加一些生信内容。如果你是做纯生信,那也是分档次和研究方向的,如果只是分析别人的数据,比如预后模型这种,属于比较低端的水平。有的做开发,比如开发一个R包或者一些其他生信分析工具,又或者是建数据库,这些属于开发类。另外,这个也和研究领域有很大关系,植物的,人的,微生物的,是有区别的,当然,很多基础工具都差不多,但需要相关的知识背景。我自己主要是做药,癌症,所以我会的技能主要和自己研究方向相关的,我也不是什么都掌握,因为我觉得,具备基础知识储备后,自己用到什么就去现学现卖,而不是一下子学会很多东西等着以后用,我个人认为这是效率极其低下的。
随着高通量测序技术种类的越来越多,我们经常会拿到相关样本的不同组学的数据。那拿 TCGA 的数据库而言,对于同一个患者,就检测了RNA-seq, miRNA-seq, 甲基化芯片等等多组学的数据。对于这样有多组学数据的情况,除了基本的单一组学的分析,也可以尝试着融合多个组学一起分析。所以,今天就介绍一个多组学分析的工具。OmicsAnalyst (https://www.omicsanalyst.ca/OmicsAnalyst/home.xhtml)
那,为什么我们很少涉及到全转录组的数据分析,主要是因为它有 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而众所周知,非编码基因的名声比较差,都知道很重要,但是它的重要性又不是直接证据,也没有系统性的go和kegg等生物学数据库的整理,所以大家研究它和交流它的时候通常是一个符号而已。
单细胞多组学技术为阐明单个细胞的基因组、表观基因组和转录组异质性的特征提供了见解。然而,它们给数据处理带来了新的计算挑战。2023年10月,《Briefings in Bioinformatics》发表了一种用于条形码索引的单细胞-单分子多组学数据分析的通用流程——ScSmOP,用于多模态数据分析。
目前组学的数据越来越多。其中代谢组学也是其中一个热点。关于代谢组学的相关分析目前用的最多的还是MetaboAnalyst (https://www.metaboanalyst.ca/) 。之前这个数据库一直都是4.0版本。最近刚刚更新了5.0的版本。趁着刚刚更新,我们也就来顺带的介绍这个数据库吧。
主要是因为我们依赖于这个V4的版本的Seurat流程做出来了大量的公共数据集的单细胞转录组降维聚类分群流程,100多个公共单细胞数据集全部的处理,链接:https://pan.baidu.com/s/1MzfqW07P9ZqEA_URQ6rLbA?pwd=3heo,而且也有海量的配套视频教程在b站,视频号等渠道,基本上大家能看到的中文笔记都是我们分享的。。。。
单细胞和空间组学技术的迅速崛起生成了大量数据,为提供具有用户友好界面的更全面的数据分析平台,近日《Nature Communications》发表了一款交互式且易于使用的应用程序——ezSingleCell,无需事先具备编程知识即可分析各种单细胞和空间组学数据类型。
精准肿瘤学旨在根据患者癌症的独特生物学特性定制治疗方案,而支持精准肿瘤学的是体细胞驱动突变,这是癌症生物学的基础。癌症基因组测序被视为指导癌症治疗的前提。成本的下降使全基因组测序(WGS)成为一种具有潜在吸引力的主张。
Han Hsiao 观点: 简单说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。 主要区别: “数据分析”的重点是观察数据,“数据挖掘”的重点是从数据中发现“知识规则”KDD(Knowledge Discover in Database),数据统计的重点是参数估计和假设检验。 1. “数据分析、数据统计”得出的结论是人的智力活动结果,“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。 2. “数据分析”需要人工
去年,我们的Volume I成功发表40篇论文,获得60000多次阅读和下载量,效果良好,所以Frontier出版社主动联系我们积极筹办Volume II,现已开放在线投稿,欢迎赐稿主题为“计算表观遗传学”,与细胞重编程,人类疾病,细胞分化相关的计算表观遗传学方向的研究者不要错失良机。
在这第三封家书里,想和你聊聊我对单细胞数据边界的体会。作家苏心说:人与人之间的关系,就像两棵共同生长的树木, 彼此靠得太近了,互相滋扰遮挡,肯定长不好,甚至会枯萎。只有保持适度距离的守望,才能枝繁叶茂,华枝春满。
生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程序。也许你可以跟着一个测序分析流程完成操作,但不懂得背后的原理,不知道什么参数需要修改,结果可以出来,却把握不住对还是错。
其实就是难者不会,会者不难 ,毕竟每个人要成为一个能做这些举手之劳分析的工程师,就需要至少一年的努力学习,为大家的学习和付出买单是理所当然的。
发表在Cancer Cell 2019 Sep的文章 PMID: 31474569:《Single-Cell Transcriptomics in Medulloblastoma Reveals Tumor-Initiating Progenitors and Oncogenic Cascades during Tumorigenesis and Relapse. 》
我在生信技能树的教程:《你确定你的差异基因找对了吗?》提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:
都非常成功,培养了非常多的技能树优秀小伙伴,形成了华语圈最大的生物信息学交流社群,而且这些组学实战,我都录制了完整视频在B站免费发布供十万人学习:
腾讯视频链接:https://v.qq.com/x/page/x3230xgj0x6.html
在当今信息时代,大数据已成为了无处不在的存在。从社交媒体上的点赞和分享,到在线购物的记录,再到传感器生成的海量数据,我们的世界充斥着各种各样的数据。这些数据的数量之大,以至于我们开始用“数据大爆炸”来形容这一现象。但这些数据不仅仅是数字的堆积,它们是有价值的资源,因为通过适当的大数据分析,我们可以从中提取出有意义的信息,这不仅改变了商业,也改变了我们的生活方式、医疗保健、科学研究等方方面面。
对于初学者而言,应该从本手开始,本手的功夫扎实了,棋力才会提高。一些初学者热衷于追求妙手,而忽视更为常用的本手。本手是基础,妙手是创造。一般来说,对本手理解深刻,才可能出现妙手;否则,难免下出俗手,水平也不易提升。
春节回家,看到朋友晒的年终奖,我羡慕不已。 他入职腾讯一年半,拿了3个月工资作为年终奖。据他所说,这还不算什么,网易《哈利波特·魔法觉醒》项目组,所有员工奖励888888元…… 虽然说并不是每个大厂员工都可拿到百万年终奖,但平均下来也有3-6个月的奖金(真香)。 相信很大一部分人想要趁着金三银四跳槽去大厂,那么数据分析、产品、运营人想进大厂,应该做哪些准备呢? 为此,我特意研究了各大招聘网站将近百份招聘需求,发现几乎所有的中、高阶产品、运营和市场岗位,都对数据分析能力非常重视。 由此可见,数据分析能力已经
为了帮助大家快速了解代谢组学,小 M 今日特地挑选了代谢组学中应用最为广泛也是最经典的 LC-MS 技术来解锁代谢组学实验篇,研究过程可分为研究设计、样本准备、仪器检测和数据分析 4 个主要步骤 (图 1)[1]。
https://simplystatistics.org/2019/08/28/you-can-replicate-almost-any-plot-with-ggplot2/
轨迹推断(Trajectory Inference,TI),是分析从千上万单细胞的组学数据中推断细胞发育轨迹的重要方法,也被称为伪时序分析 (pseudotime analysis),该方法根据细胞表达模式的相似性对细胞进行排序。这为应用单细胞转录组学、蛋白质组学和表观组学数据研究细胞内的动态过程,如细胞周期、细胞分化和细胞激活等,提供了新的契机。
Pandas是做数据分析最核心的一个工具。我们要先了解数据分析,才能更好的明白Pandas,因此,本文分为两个部分:
有读者问我,看到现在大厂都在招数据分析师,薪资也非常有吸引力,我会用 SQL 和 Excel,还会一点 Python,能不能去应聘?
用一个比喻来说,它就像一把钥匙,能够开启细胞内部世界的大门,让我们得以窥见细胞如何通过蛋白质的相互作用来执行生命活动。
代码 library(ggplot2) ggplot()+ geom_point(aes(x=1,y=1))+ theme(axis.title.x = element_text(margin = margin(2,1,0,1,'cm')), axis.title.y = element_text(margin = margin(0,
过去的一周,我的心绪总在跌宕着。每一天都有新的事情发生,使我不能静静地在键盘上回复你的留言,想说的话题好像很多,多到一定程度,又不知从何说起。
5月13日~15日,由IEEE和浙江大学主办的第十届生物信息学与计算生物学国际会议(ICBCB 2022)顺利举行,深圳国家基因库(以下简称“国家基因库”)受邀作为协办单位参与本次会议,由国家基因库生命大数据平台(CNGBdb)搭建的时空组学数据库(STOMICS DataBase)亮相生物信息与组学数据分析论坛,获得生物信息与计算生物学领域研究人员的广泛关注。
春节回家,看到朋友晒的年终奖,我羡慕不已。 他入职腾讯一年半,拿了 3 个月工资作为年终奖。据他所说,这还不算什么,网易《哈利波特·魔法觉醒》项目组,所有员工奖励 888888 元…… 虽然说并不是每个大厂员工都可拿到百万年终奖,但平均下来也有 3-6 个月的奖金(真香)。 相信很大一部分人想要趁着金三银四跳槽去大厂,那么数据分析、产品、运营人想进大厂,应该做哪些准备呢? 为此,我特意研究了各大招聘网站将近百份招聘需求,发现几乎所有的中、高阶产品、运营和市场岗位,都对数据分析能力非常重视。 由此可见,数据
大数据时代下,科学大数据已经成为科技创新和社会经济发展的新动力。生物信息学经过近30年的发展,从最初的基因组数据的收集和存储,到利用数学建模和人工智能思想,挖掘数据背后的生物学意义、对样本数据进行合理分类、建立合理的二级和三级数据库,再到利用比较基因组学的方法,通过短读序列拼接、基因预测和功能注释,已有一定的能力用于处理庞大复杂的基因组数据。2019年,科技部、财政部对原有国家平台开展优化调整工作,通过部门推荐和专家咨询,经研究共形成20个国家科学数据中心,其中包括国家基因组科学数据中心、国家微生物科学数据中心、国家人口健康科学数据中心等。我国是生物数据生产大国,生命大数据是人口健康和国家安全的重要战略资源。然而我国生物数据面临因存储零散,缺乏系统监管而丢失和流失的问题,亟需建设我国自己的生命大数据保存和管理体系。
但是在高通量测序大行其道的这10年,困扰大家的问题在于如何从繁多的基因定位到少量的几个基因,这也就是数据挖掘的核心,缩小目标基因!各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
2018年4月28日,教育部高等教育司发函〔2018〕18号《教育部高等教育司关于公布有关企业支持的产学合作协同育人项目申报指南(2018年第一批)的函》。
其实这些各个技术流程的视频教程好几年前我就全部免费共享在b站,而且我同步分享了视频配套讲义和教辅材料;
近年来,生信文章如同雨后春笋般涌现出来,但是想要发表高分文章并不是那容易,生信分析的套路可以说是遍地开花,我们如何才能让我们的文章脱颖而出呢?今天分享的文章也许可以为你提供新的思路。言归正传,今天向大家分享的是7月31日发表在发frontiers in Onology (IF=4.848)上的一篇关于泛癌研究的文章。
有感而发,这里简单的整理了一下我们《生信技能树》团队七八年的资源的十分之一推荐给大家。
人力资源的数据分析除了要掌握 人力资源的专业度以外,我们也需要了解一些数据和统计学的专业基础知识,特别是在薪酬的数据分析中,就会涉及到回归函数,相关性分析,指数函数等,在人力资源的数据分析中,有一个基础统计学的概念很多同学都会关注,就是离散度的分析,数据的离散度是来分析判断一组数据的稳定的关键指标,我们在人力资源的应用中,会用离散度里的方差,标准差等数据来分析员工的绩效稳定性,今天我们就来聊一聊数据的离散度。
每个癌症基本上都对应一个CNS文章,集中在2012年前后发表的,然后就爆发了2016年前后的TCGA数据库挖掘的大潮,但是TCGA官方在2018和2020自己团队就出了两次CNS子刊级别的TCGA数据库挖掘系列文章,基本上就断绝了TCGA数据库挖掘出好文章的可能性。
药物基因组学通过确定与药物个体反应相关的个体特异性遗传因素,已被有效地用于研究药物不良反应。此前《Pharmacogenomics & Personalized Medicine》发表了题为“Review on Databases and Bioinformatic Approaches on Pharmacogenomics of Adverse Drug Reactions”的综述文章,总结了药物不良反应研究的技术、数据库、数据分析方法等,还探讨了临床应用建议。
有同学问:陈老师,每次被面试都被问“你使用过哪些数据分析的方法”。结果都感觉答不上来。到底数据分析有什么方法?为啥我在做数据分析,却感觉没什么方法?今天系统解答一下。
在人力资源的数据分析中,我们经常会看到很多统计学的知识,很多同学对统计学的知识都不是特别的了解,从这期开始我们和大家聊一聊在人力资源数据分析中的统计学,以及这些统计学的应用,今天我们聊的是标。
在之前介绍[[RNA-seq相关内容介绍]]的视频当中,作者提到了一个用来分析 RNA-seq 差异表达分析的工具。DEApp: https://yanli.shinyapps.io/DEApp/ 。 所以今天就来简单的介绍一下这个差异表达分析的工具。
领取专属 10元无门槛券
手把手带您无忧上云