00:00
好了,我们时间到了,我们就来开始上我们的第4课啊,关于单细胞的一个通讯分析的一个汇总啊,从我个人的经历来看啊,无论是和公司哎,各个生信人员的交流,包括和客户的一些交流。哎,我发现啊。对单细胞所有的售后分析种类当中啊。这个通讯分析是理解的最好的,也是运用的最好的啊,其他方向我觉得运用都运用的都有点差强人意,但是通讯确实运用的很好,可能是因为只要是个项目。哎,他就要做通讯分析啊,无论做发育,做疾病,做什么都要用到这个通讯分析对吧。你像CV只有肿瘤样本用啊,像这个突变也是肿瘤样本用,像这个轨迹呢,哎,法语用。呃,肿瘤用的意外,呃也不多,但是肿瘤的免疫细胞可能也会做轨迹。呃,其他方向像NMF找这个program啊,像这个转录因子啊等等等等,它不是说所有的项目都会用它。
01:06
所以说在整个的分析过程中啊。哎,通讯分析成了一个分析的,我认为啊,是这个理解的最好的。首先我们来看看基础的一个通讯分析的一个简单的一个过程。首先呢,我们拿到我们的单细胞基因巴克的矩阵,对吧,这个矩阵呢,呃,大概大家经过这个简单的一个预处理,去除低质量的细胞,哎,去除双细胞,包括一些低脂,呃,表达很少的基因也给它去除之后呢。形成一个完整的呃,有活性细胞的一个这样一个矩阵。形成这样一个矩阵的之后呢,大家经过基础的分析,包括哎,降维聚类差异负极之后呢,包括细胞类型识别之后呢,哎。对,这个细胞类型啊,有了一个基础的,给了他一个基础的label,包括它分成了哪一群等等,这个时候在群与群的基础之上,就要分析细胞之间的一个通讯分析了。
02:04
当然了,大家要注意啊,通讯通讯其实是一种高等级的啊,就是高水平的差异分析啊。比如说正常样本,哎,细胞类型和A和B的一个通讯,知道了这个其实并没有多大的用处啊,我们更多的要知道在疾病状况下,哎这种通讯的变化。甚至大家要更哎更深层的一个研究,比如说。研究肿瘤一次性研究各个细胞亚群的时候,它的整体的通讯在产生怎样的一个变化?各个亚群主要来源于哪种类型的细胞?哎,是正常来源还是疾病来源?如果是疾病来源的话,那这种细胞群的交流就主要发生在疾病群了啊。然后呢,就是计算了,计算之后呢,计算形成一个新的矩阵,这个矩阵是什么呢?就是我们的通讯矩阵。就是基因和基因相平均值相乘啊,这是大多数软件采用的一种,呃,计算通信强度的一种方法,它会形成这个通讯矩阵,形成通讯矩阵之后呢,我们就可以做一些哎下有的分析了,包括他们的负极通路分析。
03:11
哎,包括他们的一些基因功能分析等等,等到再往后一点,哎,现在文章都这么要求的啊,要做一个实验验证,哎,为什么要做实验验证呢?还是第一节课讲到的那样单一组学的来源,阳假阳性率太高了。所以说呢,就会导致这样一个实验验证的一个过程啊。这个呢,是我收集到的所有高分教程的一个网址,以及它运用的一个文献,诶大家可以简单的看一下,首先3分DB它已经更新到V5了。嗯,我不知道大家从V几开始接触的,像我的话,我是从V2开始接触CFDB。啊,那个时候呢,做通讯也没什么好用的方法,就是3分DB。但是CFDB也有一个很大的问题,就在于他虽然能拿到呃配受体的一个矩阵。
04:02
但是如何做,通讯之间的差异,就是细胞类型通讯的差异,以及这个,呃,在可视化方向,还有就是这个。哎,通讯的这个,哎,它的生物学功能,也就是通用方向上,哎有一定的缺陷,但是当时来讲已经非常棒了啊,后来他诶CFNDB也知道自己的不足,哎慢慢的也在更新,一直更新到诶V3V4V5等等啊,每一个方法都有一篇高分文章引用。这里面我都给大家列出来了啊嗯,列出来之后呢,大家有空可以看看它通讯部分的一个内容,而且3分DB啊,它的引用率是目前呃通讯软件引用率最高的。不管哪一个版本,哎,引用率都非常高,而且都是高分文件在引用,大家可以看到包括这个内存基因TX,诶内存V5是它软件自己发的一个,嗯,文章目前还没有发表在前发状态,不过说V5这个状态来看,他确实吸纳了很多更好的分析啊。
05:07
然后就是cell t了,Sellch大家应该接触的都是V1版本,现在呢,Sell t升级到了V2版本。嗯,他的一个文章呢,我都列在这儿了。本身V1版本就发了这个NC啊NC。啊,这个这一点稍微多提一句,就是这个3CH的作者呀,啊,是一个在美国工作的中国人啊。然后是3的VRVR目前也处于一个前发状态,不过我看了看他文章的一个内容,应该发出来是没有问题,发个20分应该是没有问题啊。然后就是ni net了,这个ni net它诶也是一个非常棒的一个软件,也在高分文章中经常会引用它,呃,它的逻辑性更强一点。哎,他的文章在这儿啊,他本身发了那n nature message啊,这个就非常高了啊,但是现在呢,在这个基础之上呢,他又更新了一个多样本分析的,呃,Multim letter这个地方呢,就非常的,它在原有的基础车上呢,纳入了多样本多条件的一个比较分析啊,这个就更加的。
06:12
符合当下的趋势了,大家都知道现在单元的分析啊,都是多样的大样的量多重复多分组这样一种现象啊,啊,它是为了迎合这种趋势而言,嗯,然后这个是文章啊。文章和教程事例教程我都列在这儿了,大家有空可以完了,哎呀,往回看一看。首先呢,我们来看第一个方法,关于12分DB的啊配受体的基础简介呢,大家应该都知道,哎,一个细胞表达配体,哎配体翻译成这个胚体蛋白,然后无论是游离还是接触式的,哎,找到下一个细胞的受体,哎受体蛋白引起细胞内的一个肌连反应,首先是信号放大,信号放大之后呢,刺激转录因子,哎转录因子结合它的一个开放区。从而引起一些基因表达的一个变化,这是整体的一个通讯的一个过程。
07:04
所以说通讯的一个整体流程是配体,哎,受体,受体引起极点反应,然后是转弱因子,然后是蛋白,呃,然后而是靶基因表达啊,然后呢,就会发生这样一些,哎。大家无论看到这些作图啊,还是怎样的来表征细胞类型之间通讯的一个强弱关系,以及具体的配受体对等等啊,这些图大家应该都见过啊。目前CFDB升级到V5的时候,第一个就是对基因表达的特异性进行了一个呃基因排序的方法。在之前呢,是不排序的,之前只会告诉你这个配受体,如果大家用了这个显著性模型的话,就会告诉你,哎,这个配受体是不是显著的。哎,它在两种细胞里先能表达,是不是显著的关系,显著的检验呢,用的是置换检验。第二个更新的模块就是312313这个模块。哎,刚才提到了配体受体,呃,集联反应转录因子蛋白,它的一个反应啊,是肌联啊,这个足迹往下递啊,足迹往下传递的这个时候呢,如果想判断配受体它相互作用是否真的起到了作用,其实真正的应该看它这个转录活性是否提高,以及靶基是否发生了明显的改变。
08:20
啊。啊,这个其实在V2V3V4之前都没有考虑这个啊,他们只认为配受体的平均值就是它的通讯强度,但是很多时候呢,大家也都知道。啊,表达了不一定能起到效果啊,比如说突变了各种各样的一个现实情况,或者离得很远等等,不一定能真正体现它的一个生物学过程,这个时候就要引起它的一个啊,就要哎分析它的下游反应,如果有靶基因的变化,如果有转落因子活性增强或者减弱等等啊,说明它通讯是有效的,如果没有下游这些变化,说明通讯是无效的啊。然后就是配受体数据库的丰富,CMDB从V2开始啊,直到现在,哎,它的库已经极大的丰富了啊,已经满足大家所有的通讯分析要求了。
09:07
哎,然后就是信号通路了,信号通路就是借鉴的c t ctra, 把各个配受体,哎分别分分别率的各种那个啊分到了各个通路里面,现在呢,CFNDB也借鉴了这个思路,哎,也把这个哎配置体分到各个通路里面。啊,方便大家查阅这个配受体到底在起怎样的一个作用,比如说呃,去化因子啊,呃表皮生长因子啊,等等等等这样一些通路啊。左边这张图呢,就是简单的一个CMDB的一个分析的一个,呃,输入和输出,输入呢,就是第一个,哎,就是我们的。哎,黑素体库,黑色体库呢,它自带的已经非常的丰富了啊。嗯,当然我们还可以人为的添加一点,但是人为添加大家不要瞎啊,瞎添加啊,有一些文献来源的,它没有纳入的,可以添加一下,或者其他软件的一些比较,哎,丰富的一些配售题库可以添加,但是大家要有一定的识别能力,CFNDB的配售题库是经过严格的论证的,哎,其他的软件是否经过严格的论证,这个有待考证啊,大家要把它的源头看一下。
10:16
第二个呢,就是我们的。单细胞矩阵,这里注意啊,如果大家做项目。啊,一定要是注释过后的啊,如果大家不做项目,呃,12345CLASS的12345也可以玩啊,但是真正做项目要赋予它生物学意义,这个时候一定要进行注释啊。啊,尤其是对亚群的注释,比如说上皮细胞分了5个亚群,这5个亚群通讯的差异,哎,一定要做好注释啊,第3个呢,就是差异基因,差异基因模式啊,这个是可选的,哎,可选的。嗯,为什么是可选的呢?因为配受体啊,有的时候会结合茶叶金,有的时候会不结合,这个和大家的这个呃,具体的分析情况有关啊。
11:00
然后呢,CFNDB它有三种模式,哎,MA123对吧?嗯。第一种模式呢,就是简单的模式,哎,这里面我都列到列到这里了,第一种模式我们可以简单的把它认为是平均值模式。啊,就是不管差异是否显著,只要你表达你的平均值相乘,我就认为是它的一个通讯的强度。啊,这种是一种最简单粗暴的一种方法啊。啊,虽然他在最开始开创了这个先河吧,但是目前来讲没有文献这没用啊,没有文献就没用,其中有一个是配受体复合物的一个影响,哎,他认为配受体复合物应该是最低的那个复合物表达最低的那个复合物作为它的一个通讯强度啊。第二种模式呢,大家可以简单的认为它是一种显著性模式,哎,它在这个平均值的基础之上呢,进行了一个假设检验啊,假设检验来判断它的一个配受体是否显著啊,它的一个检验的模式呢,就是置换检验,哎置换检验就是这个地方啊,把配体基因在所有细胞的表达值进行一个排布,看看它的分布趋势如果。
12:12
这个细胞这个基因表达,哎,在这个细胞这种就是胚体基因在某个细胞类形成的表达,主要集中在前端。哎,就是前面这一小步,说明它不是随机表达的,而是主要集中在这种细胞类型,哎,那么认为这种是这种这个表达模,呃,这种这个。表达呢是显著的。哎,就认为通讯是有效的啊,这是显著性模式。还有最后一种模式是差异经营模式啊,差异经营模式的话,就是说在配体受体相互作用的过程中,如果。K体或者受体,哎,是这个细胞类型的差异,基因注意啊,是货,呃,是或的关系,只要有一个满足就可以,哎,他就认为这是一个有效的通讯了。
13:00
这就是3分DB的三种模式,以目前而言啊,目前而言。2模式。是运用的最多的。还有三模式,诶,高分文章也有一个引用啊,也有一个引用。啊,拿到的结果呢,就是配受体矩阵,配受体矩阵了。然后呢,最后呢,拿到这个配速题矩阵之后呢,最后的一步就是对结果的一个解读了,解读的时候呢,就要判断。哎,细胞类型之间通讯的强度是怎样的,以及它的通讯的交流频率,哎,包括通讯的主要类型等等等等,这个就和大家下游分析有关的啊,其中呢,有一些简单的处理大家要明呃要知道一点就是说第一步。哎,不能说所有基因都纳入分析诶,这个基因至少在10%的细胞里面表达才会纳入分析啊,大家可以大家可以想想这个预制设的是不是严格啊,如果是10%的细胞的话,这个预制一定相当严格,也就是说在这个分析的基础上呢,拿到的通讯基本上都是有效通讯啊。
14:09
还有一点,如果大家拿的是差异经营模式,嗯,需要提供差异金这个file,就是大家那个find market的。或者怎样啊,Find master等等,把那个各个细胞类型或者各个亚群之间的一个差异基因列表给抽出来,哎,付给这个CFDB,让他来判断这个配受体是否显著啊。这是哎,这是它的一个三种模式,这个三种模式大家一定要记住啊,模式一一般不用啊,一般常用的是模式2和模式三。啊。然后呢,我们简单来看看它的一个模式的一个方式啊,这个地方呢,有一个需要注意的地方,就是通讯的方向性。呃,Cell就是细胞A表达配体和细胞B表达受体,就是A的信号给了B和B的信号给了A,它是两种,呃,交流模式啊,有这种是互相交流模式。
15:02
这个时候呢,它的平均值相乘呢,哎,就会产生一定的这个差异啊,并。产生一定的差异,这个地方呢,大家应该都哎比较理解他啊,应该知道怎么回事啊,就是说我给你,呃,我的信号发给你,和你的信号共享给我,哎,这是两回事啊,所以在in interaction时候有一个方向性的问题。啊,这边的代码呢,我给你发给大家了,3分DB的这个代码也是相对比较简单的啊,只有一行命令,如果是V2之前它已经封装好了,V3V4啊都是封装好的,V5之后它开始采用这种。拍摄模块的方式,哎,给大家列出来,其实也都是一样的道理啊,其中也其中啊,也都是一样的方法啊。其中需要指定的参数啊,包括这个配受体库,这个库呢,可以从CFDB的官网下载,就是刚才分享的那个它的那个官网。然后就是test meter, 这个就是大家的细胞类型信息啊。
16:03
细胞类型信息,还有就是py count啊,当然P,当然3分DB是Python版本啊,Python版本什么意思呢?就是说大家要用5AD模式或者直接的CSV矩阵模式。啊,不能用RDS那种RR的那种模式啊,然后counter data它的基因的一个类型啊,通常大家都是symbol,就是它的CD3D这种,呃,基因的一个名称,然后是输出路径啊。这个是模式1,模式一呢,刚才讲到了是平均值模式啊,这种用的比较少啊,但是我们通常用的是模式2,哎,模式二的基础值啊,它就会加入这个统计检验的一个模式啊,它在这个平均值分析的一个基础之上呢。对破碎的进行呃,假设检验就是刚才提到的一个置换检验。可以依此来判断它这个配受体分析的一个,呃,配受体交流的一个显著性的一个情况啊。
17:02
这里面啊,有一个呃,小的问题啊,就是说如果细胞量过多,比如说大家分析十几万几万十几万这种细胞,它在分析的过程中。呃,需不需要这种随机抽样式的一个。随机抽样的一个模式呢。呃,通过对项目的一个分析情况,以及实际操作来看啊。当你的细胞达到很高,一般10万以上的时候,呃,随机抽样就是那个下采样模式,和普通的模式计算的结果其实是一样的。但是细胞过少,比如说只有几万啊,我就不建议大家用这种下采样模式了啊,要把它全部纳入分析啊,只有那种超过10万以上的才可以啊,呃,采用这种下采样的策略啊。当然一般大家的细胞类型啊不会超过这么多,而且通讯啊,一般都是细胞类型之间的一个通讯,尤其是针对比如说针对某一种细胞类型和其他细胞类型之间的同学。
18:01
啊,正常来讲细胞量不会达到很高啊。所以一般大家在做自己的项目的时候,就不要采用这种模式啊,大家直接用这种全全细胞上就可以了。哎模式3,哎模式3呢,就是提到的这个差异经营模式,诶差异经营模式就是第一个要计算诶配售体,对第二个呢,就要计算,这样它这个配受体退是否有一个在该细胞类型的差异基因列表里面。啊,预知呢,就是刚才提到的这个10%,哎这个文件呢,主要就是大家通过threat啊,或者其他的方式吧,或者SC派也可以啊,或者其他软件也可以计算每种细胞类型的一个差异基因,作为一个差异基因列,差异基因列表,哎,作为输入,输入之后呢,它会在这个基础之上呢。首先计算配售体,对,然后呢,诶配售敌对和差异基因列表的这个file。来进行配置,呃,进行匹配,匹配如果匹配上的话,就会进行一个输出,哎,输出出来我们想要的那个结果啊,嗯,2和3的模式大家都可以用啊,但是我怀疑这个2模,但是我感觉这个3模式对差异基因啊,因为大家在分析差异基因挑选的时候,我觉得很多阈值都是不太固定的。
19:20
啊,大家也不知道这个预支该怎么选,比如说。嗯,差异基因呢,有哎五个指标,比如说一个是平均值是吧,Log r FC对吧,还有p value, 嗯,P andra的,还有PCCT1和PCT2,这个经营列表该如何挑选的话,其实是比较呃为难的一个问题啊。嗯,因为是一方面我们要体现这个差异基因的一个显著性,也就是说它极显著的复极在某种细胞类型里面,这个时候,这个时候呢,对PCTE1和PCT2,哎,它的值有一定的要求。啊,另外一种呢,它的表达值也不能过低,比如说它的logo fz, 呃,只有0.12这种样子啊,是不是也该纳入。
20:04
哎,这个要大家哎根据实际要求进行思考了啊。还有就是那个。嗯,那呢。0.05是否够啊,是否可,是否这种可行。以前在,呃,以前在做项目的时候啊,其实对这种高通量数据是不能简单用0.05和0.1列卡预值的啊。会进行一定的矫正,大家应该都听过叫BH矫正啊,所以才会有了PSDR的这样一个指标。诶采用PL的是不是0.05就可以。哎,或者说0.01这种极显著的模式呢。啊,正是因为这种多种指标的一个出现的,呃,所以在差异进行选择的时候呢,会造成一定的困扰。呃,大家在这种配速体选择的时候啊,这个差异基因啊,如果没有很深的认识,尽量把条件给放宽。啊,尽量匹配啊。
21:00
然后呢,还有一个模式就是说。CFDB现在对通讯分析的模式需要考虑这个生物学。哎,就是说technological technological batch or biologicalologicalence, 这个地方是什么意思呢?第一个它需要考虑技术批次。啊,这个批次来源就是大家的样本,体现在大家的样本之上啊,因为不同的测序结果导致它基因表达会有一些差异,哎,它是一些技术批次原因,第二个呢,就是生物学斜变量。呃,这种斜变量呢,可能就存在着什么呢,就是有些基因的表达,它会影响其他基因的表达,这种存在这种斜变量关系。那么在CFDBV5的分析过程中呢?哎,他现在已经考虑到这些不同批次来源以及生物学斜变量的一个差异。从而保证它的分析结果呀,从呃,准确性更高一点。嗯,现在通讯分析啊,现在哎,现在刚才提到了,现在都是大样本量的通讯分析。
22:01
嗯,它在分析过程中不可避免的要涉及到多样本来源,呃,多生物学重复等等等等,如何规避生物学bitch啊,就是批次以及生物学斜变量的问题,哎,这个也还目前还处于一个。就是慢慢发展的,这个还没有一个很强的定论来定义它,就是说用这个方法一定好,不用它就是不行,还没有这样一种说法啊,不过大家在分析过程中,在一定程度上要规避这个分析啊。尤其是那种不同平台来源差异经尤其是那种不同平台来源,包括那个测序结果差异非常大的。比如说单细胞的,大家看那个单细胞web summary啊,经常有时候我捕获了1万细胞基因,中位数是1000。还另外一个样本捕获了几千细胞基因,中位数是1500甚至2000,它明显在测序的基因上,基因水平上就有明显的差异,而这种时候如果联合分析的话,如果不考虑批次,不考虑这种生物学斜变量,就会造成很多假象性结果啊。当然如果大家的测序样本非常的平均。
23:05
哎,就是说都在1500波动,哎,基因种枢都在1500波动,呃,细胞量也都很稳定,1万左右或者几千左右,哎,很稳定,这种样本的结果是我们最想得到的结果。啊,但是不可避免会出现其他的现象,这个没有办法,所以在技术批次这块还是需要他先研究研究啊。第二个就是它更新了空间模块,这个空间模块等到我们空间课程再讲啊,第三个就是他们的TF因子的一个状态,就是刚才提到的三三啊,三三这个模块,呃,前面提到了真正的通讯的细胞模式是配体受体诶。是几联反应TF和靶基因这样一种呃,慢慢往下传导的一种模式。呃,仅分析上游的配受体并不能说明它是否发生了真正的通讯,这个时候要对下游的TF因子活性,甚至靶基因要进行一个判断,呃,所以说呢,在CF分DBV5的,呃,在之前的一个前提下呢,更新了它这个配售敌对和TF因子的直接关系。
24:09
这个时候呢,就会在配受体的基础上纳入TF活性的一个分析。还是那句话,当哎,当我们的分析是多信息来源的时候,哎,它的结果就会更加的准确,也具体到这里的话,就是配受体分析,它如果能结合下游TF因子本身活性的一个分析,哎,它的结果的可靠性又会更呃,又会更高一点啊。哎,这个地方我已经说了,就是说结合TF就是为了和细胞和交互,哎,提供了额外增加了一层额外的信息啊。增加了一层额外的信息,哎,使它的结果更加准确啊啊,目前它的TF来源是这个软件的。这个软件是专门分析这个转录因子的啊,大家应该啊,其实没有见过西尼可应该见过吧,IC in IC专门分析转录因子的软件,这个应该都见过啊。
25:05
然后呢,它还更新了一种打分模式,打分模式呢,其实就是显著性模式。就是说这个配速物体对是不是哎显著存在的一个状态,哎,是不是极显著呢?前面提到的都是告诉你,哎配素物体对它是不是具有显著性。对吧,是不是显著显著,这个显著性是用来评判这个通讯是否有效,甚至结合下游的转录因子活性等等,哎,来评判这个通讯是否有效。但是这个通讯是否呃,这个配受体的特异性,就是是不是主要存在在这两种细胞类型中的一个交流状态,这个呢,之前是没有这样的一种。哎,分析方法的V5呢,就采用了一种评分的,哎,采用了这样一种评分方式,诶根据配售敌对对特异性进行排序。排序之后呢,特异性越高的排在前面,哎,特异性越低的排在后面,这个时候呢,大家就会拿到一个。哎,拿到一个就是说特异性排序的一个结果。
26:01
这个特异性排序也是综合了多个指标,首先是平均值指标,平均值不能过低,对吧,第二个呢是显著性指标或者差异基因指标。就是说它确实存某个基因存在差异基因列表里面,或者经过假设检验发现,哎,它确实是显显著性极强。哎,这个时候才会对对它进行一个特异性排序,排序之后呢。哎,就会拿到它一个从上到下特异性分布的一个文件,这个时候针对大家,哎,经常会说,哎某种细胞类型,它的特异性通讯到底是什么什么什么通讯主要集中在这两种细胞类型之间,哎是一个很好的一个印证啊,这种也是多信息来源,大家可以发现现在的分析都是这种。呃,信息来源非常广泛,呃,通过多信息来源进行信息的汇总收集,并且对它进行处理。这里面是一个详细的步骤,第一步呢,就是计算平均值,这是第一个信息来源啊,第二个。哎,对于一些常见的其他基因表达,比如说复合物啊等等,它会用这种最小复合物的一个平均值,这是在还是在处于这个平均值啊,还是在处理这个平均值,第三个呢,就是说呃进行去呃去进行这个skill skill就是呢,对基因的一个呃,它的权重呢,放到同一水平线上。
27:16
然后呢,进行呃,计算这个SQL平均矩阵。哎,计算这个相关性,呃,计算相关性之后呢。啊,然后就开始这个打分儿了啊,看看哪个分儿处于这个前面,哎,哪个分儿处于后面。这个分啊,大家可以看到它是在这个skill矩阵的基础之上,哎,再求平均值进行一个打分。嗯,Log normal的表达啊,也就是说这个地方啊,它是把基因哎放到同一水平线上。哎,看看哪个更高一点,哪个更低一点啊。这种模式啊,在其他软件也是有的,像大家像之前有一个也发了很高分的一个分析方法,它就是采取这种方法。因为大家在做这个配受体分析的时候啊,有的基因表达特别高啊,有的基因表达特别低,如果单纯的用这种。
28:08
它本身的基因进行比较的话,没有可比性。没有办法,因为它本身表达就很好,它的平均值是5,配体是5,受体是10,那它乘积就是50啊,但是有的细胞类型,比如说它的配体表达基因只有比如说1吧。啊,另外一个是。呃,比如说2吧,那它的成绩只有2,它的通讯强度远不如50啊,这样的话,在这种不平衡的比较之下呢,啊,永远这个成呃通讯强度为2的,永远就不会分析出它有多高的一致性。这个时候呢,就需要经过哎,类似于它的这样一种策略的处理,把它进行SQLQL之后呢,5和10呃也都放到0和10之间,0呃1和呃,1和2呢,也都放到这个0和10之间,进行一定程度的一个缩放,缩放之后呢,在细胞类型进行一个分析比较,如果发现。
29:02
这个刚才通讯强度为2的。哎,通讯强度为2的,它已经是诶排名很靠前了,在各个细胞类型里面,它的通讯强度已经是其他细胞类型强度里面非常靠前了,哎,那个时候就要把它放在前面,说明特异性很强,但相反,如果是刚才通讯强度为50的那个。啊,发现其他细胞类型通气强度也很强,也是好几十,那说明它的抑制从这个特异性就并不很高,哎,要把它特异性往下放,这就是他这样一个作用啊,它这样做的一个意义所在啊,对于大家识别这个特异性的配受体的非常有帮助啊。哎,然后呢,就是这个输出文件了,PY6就是它的显著性文件,平均值文件。呃,显著性的配售体对它的平均值文件,包括相对的这个in tax, 哎,就是刚这个打分矩阵啊,还有矩阵这个矩阵,这个矩阵呢,其实就是大家如果看到的话,就会发现它是一个,呃,也是一种表中的一个矩阵。
30:01
啊,不过在后下一个分析过程中呢,平均呃,显著性矩阵,平均值矩阵,呃,前两个矩阵啊,用的不是很多啊,用的不是很多,第三个矩阵significant means t ST, 呃,这个是下游分析常见的矩阵,包括这个relevant INS.这两个矩阵是下颌分析常见的矩阵啊,当然其面其中有很多的一个指标啊。哎,每一个指标都代表什么意思,这个在去年是专门讲了一节这个通讯的,把它详详细细的一个。指标的内容啊等等都讲过一遍了,大家有空可以回看,其中呢,最重要的核心指标我给大家列在。一个就是分泌性的。这个大家要,呃,可能在做配售体队的时候听说过,哎,就是说。嗯嗯,这个配售底对啊,又分好几种,有分泌式的,有接触式的,有这种细胞间质式的,对不对,大部分都是分泌式的啊,这个地方会告诉你这个配售底对,是不是有一个是分泌式,其实分泌式主要是配体是分泌式啊,受体一般在细胞表面。
31:01
然后就是rank了,对它进行显著性的rank,看看它排序是否靠前还是靠后啊,这是核心的两个指标,当然还有其他核心指标啊,大家回回都可以看一看。哎,然后呢,就是简单的一个演示了啊,不过大家在系统呃,大家在真正做项目的时候,一定要在这个基础之上的。哎,赋予他生物学议,让他更多的拿到这个。哎,更多的拿到这个显显著性,就是说大家想要的配收体分析的一个结果,这里面呢,CFNDB更新了一个数据,哎查询的一个功能,其实就是为了方便大家抽取具体的细胞类型,看它之间,诶显著性的配售敌对有哪些。呃,代码就是这样的,就是说我们要查这种细胞类型,比如查A和B,哎,C和D当中把这种想要的细胞类型啊,把它放进来,甚至把想要想要查询的一些关键信息把它放进来,哎,大家可以看到它,呃,就会输出大家想想要的这个结果。
32:01
经常有客户说我关注某个基因,关注某个通路等等,在通讯分析中呢?这个地方。哎,就是大家查询的第一步,看看这个大家想要的基因是不是在通讯里面,哎,主要在哪种细胞里面进行交流,在哪个细胞类型里面进行表达等等等等。嗯,这个针对大家关注的靶基因呢,呃,就会有很好的一个查询效果啊。这个代码在这儿呢,大家可以看一看啊。嗯,第二个呢,就是我们常见的一个cell tra cell tra了,3TRA,其实它的整体的原理呢,和cell分DB是差不多的,它只采用显著性模式啊。啊,就是刚才提到的要对配售梯队进行假设检验,看它的显著性分布等等啊,它更新到了VR,但VR主要的更新内容主要是它对空间的通讯进行了一定的更新啊。呃,但是它的单细胞的就是单细胞的通讯部分,哎,基本还是沿用了唯一的版本,其中呢,它自己收集了一个配色题库,大约3300对啊。
33:09
它的一个强势,呃,它的一个satra,它一个强势的地方啊,一个在于它对于这个平均值的一个计算啊,进行了一定的优化,呃,大家都知道这个平均值啊,受这种异常值干扰比较严重,哎,这个时候呢,需要对异常值,比如说异常高的,异常低的,把它权重啊,权重往前放一放。啊,因为它可能异常值会导致它通讯的一个误判,所以说呢,它ctra在本身的基础之上,对平均值进行了一个优优化,采取了四分位值一个权重的一个加持啊。然后呢,就是补充了多样本比较分析了,刚才提到了C1分DB,它虽然哎分析的效果非常棒啊,但是它那个不同样本真的通讯比较,它没有办法,还需要人工来进行审核和查阅。当然呢,本身就。
34:01
哎,本身就它那个进行了多样的的一个比较啊,但是他现在分析还是仅限于两两种条件的比较啊。这个地方呢,就是它的一个示意图啊,要出来的更新了它的一个VR版本,嗯,当然了,主要和这个通讯和这个空间通讯啊,啊这位这里稍微提一下,就是主要和这个距离有关,哎,只有细胞离得近哎,才能打产,才能产生有效的交流啊。啊,包括右边也是一样的。来识别这个空间临近的一个配色区别,这个我们会在空间课程上详细的了解它啊,了解它啊。最后呢,就是我们要提到的一个nine了,就是我们的这个。多条件多重复的一样个多重播的一个比对结果,哎利net,我不知道大家在做售后啊,或者自己分析啊等等,哎,是不是接触过它。
35:00
它的一个通讯思路是什么呢?哎,就是前面提到的。配体受体,哎,接连放大转录因子。靶基因其中基连放大的过程,它没有放进来,但是啊,但是尼斯net呀,它考虑了胚体表达,受体表达啊,转瘤因子活性以及靶基因活性等等,所以它考虑的比前面更全面一点,像CFNDB就是借鉴了尼斯Internet的这样一个思路,才把TF那个。呃,323那种模块啊,323那种模块,把把它纳入进来了,就是为了判断这个通讯是否有效。哎,而你在的一开始就对他进行了一个简单的一个判定啊。分析的结果呢,这个大家都可以看出来,配题表达,受体表达,这个是同时也要考虑这个target就是靶机的一个表达。哎,明白吧,然后是多条件,哎,条件一二三多重复哎,样本之间内部有多个重复,哎等等等等,这样的话在分析的过程中呢。就会具有普适性啊,具有普适性就是说大家在分析这个时候呢,它不仅仅局限于两两比较,也要从三三比较也可以是吧,四四比较还是更多都可以,这样的话才能在这种呃比较的基础上具有广泛的普适性。
36:18
呃,然后呢,这是一个简单的工作流啊,工作流之后呢,基本上就是说多条件必要之后,筛选每一种条件下特异性的差异配置底对同时它它会有分析出哎,多个指标,分析出多个指标,它的一个。呃,配受体分析显著性分析的一个策略是什么呢?比如说三个条件一二三是吧,我想知道诶在三个条件下,它显著的配受体对是什么?当然这里面大家要具体到具体的细胞类型,比如说在三条件下。T细胞和肿瘤细胞的交流来,它相对于1和2来有什么显著性的区别呢?这个时候呢,它会把1和2当成一个,哎背景来分析三的一个显著性的一个特点啊,这是它的一个通讯策略。
37:03
然后呢,这边右端这段话呢。其实就是简单的描述了一下这个它的一个背景,就是说现在的工具啊都是。呃,单一分析或者多,呃或者两两比较,但是我们需要把多样本数据,呃,就是多样本都重复的数据给它进行一个哎连接起来。提取出这种条件下独有的通讯,哎,这是这才是符合真正的生物学的一个普遍状态的一个现象啊,然后呢,就需要专门的一个通讯工具了,所以说呢,在这个基础之上。呃,Ne net在这个基础之上就就开发了这个multi ne net啊。这个VR版本当然非常棒啊。然后呢,这些是一些分析的一个事例啊,分析的事例就是说对它的配售挤兑进行分析之后呢,进行排序,哎,看看配售挤队在不同的条件下。啊,一个整体的分布情况,大家可以看一下IPF和health,就是说两个不同的样本条件。
38:03
呃,这个地方呢,就是不同的重复,这个就是配售基基因了。哎,配售底薪了,大家可以看到他在做这个多样本比较的时候啊,会专门的针对不同样本之间进行一个分批比较,哎,比较完之后呢,看他的通讯配售理论是否存在显著性差异,如果存在的话,就把它放进来。这个地方呢,和前面提到的一样,在分析配售体对的时候呢,一定要考虑这个。Batch就是说批次效应,呃,批次效应之后呢,大家,呃,当然如果样本均匀性很好,不需要啊,这个批次效应很小的话就不考虑,那么批次效应很大的话,就需要考虑内部的一个显著性问题了,如果这个配售抵对样本之间很显著,但是样门内部差异也很大,这种配售抵兑其实是要作为备选的,不能直接放进来的啊。哎,然后就是一些其他的结果了,基本上这都都是一些展示性的结果啊,主要是来告诉大家在不同的条件下,以及多样本重复的条件下,哎,如何分析这个配收集显著性的一个问题。
39:07
哎,这个就刚才那个模哎模式图了,首先分析配体表达,然后是受体表达,然后是靶基因的一个情况,从细胞类型1。哎,表达了一个配体细胞类型,2表达了一个受体,哎,细胞类型之间。就要判断它的靶基因是否存在这种,哎,靶基因是否存在这种因为配受体导致的一个显著性的变化啊,如果没有啊,说明这个配受体没有起作用啊,如果有像这边哎有了显著性的一个变化等等,哎,这个时候说明它这个配受体真正在二者之间发挥了作用。哎,这个时候呢,就会进一步筛选,筛选之后候呢,把这个显著性的配合底给挑出来。然后呢,把它的靶基因细胞类型,哎,也给它放进来,最后判断,最后进行判断。来判断哪种配受体是大家想要的那种有活性的,起了作用的配受体,对啊。
40:01
啊,这个示意图大家可以在原文中可以找到啊,可以找到对它进行有详细的解释,其实它就是来告诉大家。不是所有的配色体队哎,都是真正起生物学作用的,只有那些引起了下游反应的生配色体队。才是真正的起了作用的配错体,对啊。哎,然后呢,这是一种多样本比较的一个显著性的一个分析啊,比如说分析,哎,CONDITION3那1和2就是背景板了,哎,他就分析condition尼森山这样的条件下,有没有显著性的一个配给分布,当然了有一些。嗯,很多指标,比如说配体是否是差异基因,嗯,受体是否是差异基金分数啊,对他打个分,打个分是越分越高啊,说明它是这个差异金的可能性越大。然后是不是细胞特异性的。呃,是不是这个下游信号的信号,这个下游信号就是刚才提到的,是不是引起了下游细胞类型,它基因表达的一个变化。
41:02
哎,还有就是多重复样本中它的一个分布情况。哎,Frankenness examples re living the pre, 就是说它在多样本,尤其是多样本在细胞类型在分布的一个情况,哎,包括受体的一个情况啊,然后呢,综合前面所有的指标,对它进行一个排序打分。看看他这个配送梯队是不是真正有效的配送梯队啊。嗯,当然了,刚才提到了。诶,刚才提到了一个问题,就是说多信息来源,诶更加准确。那么现在的文章都是怎么做的呢?第一步。大家要明白每个软件的一个分析的一个背后的一个逻辑,对吧。哎,CNDB, 哎,它当然引用率非常高,但是ni net, 哎,它考虑的更全面,C tra呢,它分析的诶,可视化很好,包括它在前期的处理上也非常有优势。那么在高分文章中呢,就会取长补短,相互借鉴,我这里举了一篇文章的例子啊。
42:08
这篇文章呢,发到了celll里面,哎,它也是单细胞哎加空间的一种模式,他在分析配售挤兑呢,就采用了这样一种模式,什么模式呢。3分DB分析配受体对吧,前面提到了3分DB配色的配受体,哎,用这种显著性模式,这种显著性模式呢,告诉你这个通讯是它告诉你的是配受物体的表达是否在细胞中有显著性。然后呢,前面提到了。尼斯net会对这个整体的嗯,通讯活性进行一个判断,尤其是对配体活性进行一个判断,这个时候呢,通过尼斯net分析,它可以对配体进行一个排布,排在前面越高的说明配体的分配体的活性越高,对吧?这个时候呢,哎,文香文章的人就非常的聪明啊,非常的聪明,首先呢,从ni internett挑选出高活性的配体,比如说它前20位,前30位等等,然后呢,再从CFNDB里面。
43:02
选择匹配显著性的配售梯队,哎,这样的话,多软件来源,包括多信息来源的配售梯队。哎,就更加的准确了啊,从而达到了他这个。挑选显著性,分析显著性这个配速敌对的一个分析目的。哎,这就是高分蚊帐,高分蚊帐哎,常用的一个策略啊,就是说。3分DB或者31TT分析配受体,对ni net对配体活性进行打分,两者一结合就可以拿到,哎,显著性的配受体,对啊。这个策略呢,屡试不爽啊,屡试不爽,经常在项目中用,大家也可以试试啊,拿到的结果呢,就非常的棒了啊。好了,这就是对三个软件的一个简单介绍,我们休息5分钟吧,休息5分钟我们来看看代码的部分,好吧,休息5分钟大家有什么问题可以在呃聊天管理写上我们5分钟后回来,好吧。休息5分钟。
47:18
哎,这里面啊,稍微给大家呃提一个,哎,比较敏感的就是说大家在分析中经常要注意的问题啊,黑素体分析呢,大家不要大类,不要用大类啊,比如说T细胞,肿瘤细胞这种大类啊。啊,其实通讯对大家发文章的影响啊,包括这个分析深度啊,都不太够,你看人家这个3号文章里面,人家的分析是什么。哎,肿瘤diff,肿瘤微少,TSKTSK是什么?TSK就是肿瘤边界细胞。说白了,它对肿瘤细胞的抑制性先进行分类。啊,分了好几类,它是受体细胞啊,当然还有另外一张图是这个作为配体的啊,它在分析的时候呢,就会对不同肿瘤的亚类,看看它和细胞类型的表达是不是存在一个显著性的一个差异啊。
48:07
大家在分析的过程中呢,也差不多是这样一种模式啊,大类其实没有用,如果把它种类细胞合并成一类进行通讯分析,哎,看不出内部的一个抑制性差异。哎,只有把它分成小类,无论是CNV聚类,还是基因表达聚类,把它聚成小类之后呢,哎,明显能感觉出来不同的肿瘤细胞,它在这个。不同的种类包和其他细胞类型的交流是不一样的啊,这也是判断内部肿瘤内部抑制性的一个方法,包括做发育的时候,不同发育阶段的细胞类型,它和其他的呃细胞类型的交流也是不一样的,所以说在空间上经常会强调一个生态位的概念。就是说它所处的环境以及它细胞本身的一个状态,会随着这个时空的变化而变化,不是一成不变的,大家不能把这个笼统的归为一类啊。
49:04
好了,接下来我们来看看我们的。代码部分啊。然后这里面呢,我已经呃封好了,呃封好了大家看到就可以啊,基本上RDS就是大家的那个right r DS, 当然这里面呢,有一个问题就是。哎,我觉得啊,大家那个威武的理解还是有点太差啊,太差对他那个LIS的应用实在是有点。有点low啊。首先呢,我们先把这个配速题库给加载进来啊。包我已经加载好了,哎,我们加载这个配送体库。到哪儿了?Call names令是?我们指定一下啊,指定一下我们应该是啊。
50:01
哎,我们的物种是黑啊,就是人。啊,我们是人啊,把这个配素体库给加载进来,这里面的配素体库啊,主要集中在人和小鼠啊,你看大家啊,我看我写的基本上集中在人和小鼠这部分。啊,基本上集中在两个小组的一部分啊,大家可以看到他在读取的时候呢,会把这个矩阵进行读取进来,大家可以看到读的是什么,第一个是。哎,我们以人的为例啊,第一个是什么矩阵。哎,网络矩阵。就是配受体矩阵,第二个是什么?配体靶基因矩阵,就是说配体受体中间的过程,他跳跃了一下TF没有考虑,考虑了靶基因是吧,就是为了来保证它的配体是否引起了靶基因的变化啊。
51:02
哎,读完之后呢。这个函数封装的意思呢,就是说画图,哎,我们经常要画一些PDF图或者PG图,哎,经常画的话,大家就把它分成一个函数啊,用就可以了啊。接下来读取我们的RDS,这个RDS啊。V4和V5虽然有些区别,但是核心是不一样的,呃,核心还是差不多的啊。但是大家在用的时候啊,我觉得用的时候可能用的还是不太熟练。当然公司很多人,我觉得也不是很熟人啊。哎,这个地方大家看啊,WE5有这种lays那种模式了啊,Count data等等,它只不过是把矩阵放在了这,当然有的时候啊,大家用的不好,就把它放成样,Sample两个类,这是sample啊,那个把sample矩论放在这儿了,其实也可以啊,也可以,只不过在提取信息的时候会有这个兴许不同啊。
52:00
然后呢,第一步干嘛。哎,分组啊分组,我们来看一看这个。哎,他到底有哪些信息啊。首先呢,三保信息我们来看一下啊,大家把这个商保信息一定要写进来啊,它属于哪个商保。哎,这么多样本对吧,多这是多样本。细胞类型呢,我们来看一下。哎,细胞类型大概抽取了3类吧,对吧,主要是这个免疫力细胞的啊,大家在分析的时候,细胞类型可不止这3类啊,会非常多,然后是group,这是它的分组。A am Ms, 你像A1A2基础属于am是多个,哎跟啊,我们有七个啊,S有12345个啊,这样的话在就会形成了我们常见的那种。多分组多条件的一种分析情况了。这个时候呢,首先要进行一个分组啊,分组的时候呢,我们要拿到它一个具体的。
53:01
分组情况啊。这个过程呢,大家可以看到拿出来的结果,第一个是table。就是说我们要进行分组,哎,A, 比如说我要分析A显著性的,就是A比上M+S,如果是M显著型的,或者S显著型的等等啊,还有这种。软件自带的这种识别方式,哎,就要拿到这种效果。告诉软件我要分析谁,它背景是谁啊,就是这么个意思啊。哎,然后呢,就是对数据的一个基础处理啦,这些过程呢,哎,大家回去复制粘贴就可以了啊,但是内部的逻辑一定要明白,它为什么会写成这种模式一定要知道啊,大家在一行一行跑的时候一定要分析一下啊。为什么?呃,列明要付给他,他成这样。啊,为什么要重新建立一个单细胞的,呃,Experiment这样一个新的一个矩阵,为什么。哎,这个大家要有一定的识别能力啊,就是说很多时候啊。
54:00
软件在分析的时候啊,它并不是哎已经做好饭了,我们吃一口就好,没有这样的啊,大家还是要从自身的分析数据中抽取有效信息,以此来匹配哎软件的分析模式,哎,这个是最常见的一个情况,所以说呢,大家看那个教程啊。哎,要批判性的看,不要不要4个教程大家就拿过来看一看,没有用啊,大家一定要批判性啊,结合自己的实际情况进行分析啊,它的算法虽然底层逻辑我当然是啊,非常棒的,但是给的教程不一定适合大家啊。大家在分析的过程要积累一点项目经验。然后是付给了他,付给了他基础信息之后呢。接下来干嘛?哎,抽取配售题举证。啊,大家都知道配受体矩阵啊,如果单纯基因数了,基因数上来看。配体基因大概几百个,受体基因几百个,并没有很多,但是它是两两结合的模式。就是1。A和B属于一种,哎,A和C属于一种,就会产生多对一或者一对多的这种情况,甚至多对多的情况,所以当它结合的时候啊,这个配受体的就会上千三四千这样一个状态,但是本身并没有多少基因种类啊,我们来抽取的时候啊,就要抽取那些和配受体相关的基因,进行一个下游的分析啊。
55:20
哎,然后呢,这个地方为什么是10,刚才在PPT里面讲到了啊,就是说至少要在啊0.1比例的细胞里面表达啊,当然了,我们有时候会把阈值放的低一点。啊,比如说0.05也可以啊。如果大家对自己的这个细胞类型有非常深的了解,比如说哎,我的样本量很多,它的基因排布啊,我大概知道是什么个情况。啊,就像我当初画那个,怎么说呢,画那个。哎,我有篇推文啊,写这个如何识别低质量细胞的时候,画了一个那种三软毒柱性毒,嗯,临近那种叫什么图。直方图那种模式啊,大家也可以试试把它的基因直方图画出来,看看他的表达情况是怎样的啊。
56:06
接下来干嘛?接下来进行简单的处理啊,这个batch batch就是。就是大家要指定这个。呃,刚才提到的样本列啊,我们这里呢,不方便就不指定了啊。大家要指定啊。大家可不敢跟我一样,我这是为了演示图块啊,大家在分析的时候,这个Bach一定要告诉他,哎,哪一列是他的Bach?分析的过程中呢,就会产生很多的一个有效信息了,比如说abund的信息,哎,他会告诉你这个各种各样的一个信息了。哎,每个样本它的这个表达这个皮,呃,受这个配受体的一个风度。啊,当然这里还是简单的一个处理啊,每年要稳重对。大家可以看到这个keep为什么是force?那说明这个样本和其他两个样本差异性特别大。知道吧,说明它本身内部就有存在很强的批次效应。
57:04
哎,这个时候要对他这个样本进行查看了啊,大家不要说4个样本就放进来,但软件分析这个过程中啊,他会对。他会对这个group内部,比如说group a内部的几个样本进行一个详细的判断,哎,看看它到底是是不是和其他样本的这个比例差不多呀,或者局域性很好啊等等,如果不是很好,这个地方就有一个keep的一个判断啊。哎,然后就是画图了,我们来看一下。当然这里面有些东西啊,我们得指定一下,比如说输出路径,我们要指定成我们当前的路径啊。就这个路径。然后是sample,我们指定成test吧。然后就可以了。看看效果啊。
58:05
嗯,大家可以看一下。哎,明显能感觉到,即使是细胞类型比例的内部啊,也存在很大的差异,说明这种样本之间确实存在这种批次,比如说A3 a3呢,它的细胞类型比例和明显其他两三种就有很大的一个差异了,包括在M4中的一个比例,哎,批次效应比较大啊。啊,像S中S也很有很大的差异啊,在分析的过程中啊,要么内部的这种差异啊,要尽量规避掉的啊。啊,这个大家要看啊,这个如果说样本内部不规避。哎,很容易造成假阳性的一个结果啊,很容易的啊。所以说大家要看啊,每每走一步啊,大家没有达到那种很高水平的时候,每走一步都看一看内部信息有什么变化。哎,然后然后对他进行一个简单的一个判断,如果这个样本实际上是差异过大,哎,该踢就要踢掉了。
59:01
然后是简单的一个group啊。这个信息globe信息啊。然后就是一些风度的。这里面大家要注意啊,刚才的keep。You forced.哎,软件自带把这种force的给他踢了。哎,把这个一定要,反正就是保存那种,呃,经过检验之后啊,生物学具有统计意义的样本,诶给它保留下来。啊,没有的,像这种force的把它给踢掉啊,大家在做多样本的时候呢。啊,我个人建议遇,一旦遇到这种差异性比较大的样本,能踢就踢了,但是如果实在是由于这个它确实非常稀稀有。啊,确实是,哎很重要,信息很重要啊,保留也可以啊,保留也可以,但是这个时候一定要对它的哎分析得到的配速底特进行一个很详细的判断了。哎,这个不能闷头说,哎呀,分析出来就这样就这样了,不可以啊。
60:02
哎,然后呢,就是一些简单的一个数据分析了啊。前面呢,都是在做细胞类型的处理。哎,这些细胞类型处理呢,就包括。哎,当然最前面是细胞类型的,什么双细胞去除,低质量细胞去除等等等等到了通讯这一块,还会再进行对样本的基础的一个判断,首先第1步是样本内部的一个。批次是否很是不是不是很强烈啊,如果很强烈的话,就把它标记成false啊,如果大家觉得这个样本确实批次很大,就把它踢掉,但是如果信息来源啊确实比较重要,就把它保留。第二个呢,就是竹与竹之间的比较,G group比较,这个时候呢,就会把一个组,比如说group a里面有三个样本,把它当成一个整体来判断。哎,这个时候呢,前期的批次处理完之后,就开始进行组与组之间的一个比较了。这个为什么设计成false呢?
61:01
分析,Condition specific specific cell types, 就是说这个显著性的一个内容,为什么设置成false呢?因为这个地方我们需要拿到全信息啊。全信息。哎,然后是简单的一些处理了。这些处理呢?就是,呃,这个地方为什么会有这种现象呢?就是说我们要提供感兴趣的细胞类型,不过大家直接把所有细胞类型丢进来就可以了,这个脚本里面就是把所有细胞类型都给他分析到啊。呃,然后呢,就是基因filter,基filter这个地方。一方面剔除表达量过少的一些基因。表达量过少的基因,另一方面呢,那些和配受体无关的基因也踢掉,但是这个地方要注意啊。如果是3分DB,它就是配体基因和受体基因,诶保留下来就可以了,但是如果用现用我这个方法,哎,大家要注意啊,它会考虑这个靶基因,这个靶基因也是要保留的啊,可不可扔掉啊,靶基因的活性和配体活性是要有关联的,这个地方大家一定要注意啊。
62:10
哎,然后呢,对这个我们构建好的对象进行一个。哎,矩阵的提取,这个时候提取出来的这个SCEE就是单细胞这个对象只包含配体、受体、靶基因这样一个信息的一个矩阵了。然后呢,进行一个简单的风度分析啊。哎,风度分析的时候呢,这个过程会比较的漫长,哎,为什么呢?因为它开始真正的处理我们的矩阵了,大家可以看看这个参数,首先是矩阵,哎,我们之前指定的样本,这个样本是剔除过那些不合格样本的force的,还有group group就是它属于哪个分组。属于哪个分组?哎,Cell type, 包括这个cell type cell type呢,其实大家还是那句话,跟PPT讲解的部分一样,哎,分析亚类和其他细胞类型的比,呃通讯是更有意义的,尤其是比如说大家对肿瘤细胞或者各个类型的细胞,把疾病类型的细胞呃联合之后呢,分析发现某一个亚类主要是某个样本都有。
63:16
哎,他的通讯就是这个,整个疾病都有了。啊,然后I cell就是刚才的细胞的阈值,呃。配体细胞,诶,受体细胞基因网络就是它的数据库,BAT就是是不是要去批次啊,Fragment list就是说它的频率的一个list。然后就是前面提到的风度信息等等,这个地方为什么会有这么多参数呢?这个地方就是考虑了多样本的批次问题。一定要考虑多样的批次问题,如果内部很稳定,均匀性很强,哎,说明这个通讯是在具有普适性,大家都有这个通讯啊,一旦发现这个通讯只在某一个样本中,就是一个组内,A组内只有一个样本或两个样本中,呃,有这种现象,另外样本就存在这种,哎,不是很显著的情况,说明内部就有矛盾,哎,这种情况也要把它标记出来。
64:06
哎,然后就是一些。哎,第一个就是差异分析了,对这个细胞类型进行差异分析,就和前面提到的一样,配受体库是不是属于差异基因列表里面的,如果属于我认为是有效通讯,如果不属于的话,哎,我认为这种通讯呢,可能不会引起很好的反应。呃,不知道大家在跑这个脚本,当然我演示脚本可能快了点,但是大家在听的时候一定要注意啊。这个脚本会引发多信息来源,哎,就和前面提到的一样,差异基因来源配受体来源靶基因来源,信息量越多,结果越准确啊。哎,然后是简单的一些处理了。然后呢,这个地方我把它注射过了,结合定义信息和配体受体。配体和受体的一个信息啊。
65:02
就是三者结合。结合之后呢,哎,就会发现整体的一个。每一个条件相对于其他条件,每种细胞样本,诶配体是什么,受体是什么,配体的一个劳改FC,哎,受体的劳改FC等等等等,就会拿到这样一个矩阵了啊这个矩阵大家可以把它写出来。以供后续的一个使用啊。哎,还有就是下游的一些处理了,下游的处理就包括什么。哎,刚才提到的要对活性进行一个啊,要对它的活性进行一个。进行一个排布啊。这一步呢,是限速步骤,哎,时间比较长,而且和大家设置的参数有关系。像我这个参数top n target100。这个数量是偏少的啊,真正的时候应该至少是二百五三百啊。
66:01
啊,我是为了计算节约时间才设的100,大家在复试的时候这个值要大一点,尽量拿的全的信息啊,包括核心的程序有多少个信,哎,是8,这个和大家服务器性能有关啊,大家服务器性能高一点的话,可以把它设的高一点啊。还有一个什么呢,就是这些指标。还有log FC的阈值,P8的值。如果大家。啊,如果大家把这个值设的偏高啊,那计算会快一点,但是不建议这么做啊,大家还是尽量要拿到全信息啊,全这个配售的波性的信息,大家可以看这个地方就是来计算配体。活性,哎,配体活性信息,就是刚才在PPT提到的这个地方。通过ne斯net分析,哎,挑选高高活性的配体,这个高活性的配体再返回到CFNDB或者CLTT中找它的一个配售集对的一个信息啊,这个时候拿到的因为是多信息来源3FTT考虑了配受体对配体活性以及配体靶基因的一个矩阵,3F分DB呢,考虑到配体受体这个矩阵,这样的话,多信息来源进行结合之后取交集吧,这算是取交集了,然后就会拿到显著性的配受体对,并且具有生物学活性的配受体对啊。
67:21
这个分析起来就比大家原本想的要哎,复杂的多了啊,这个可不是单纯的再拿个什么CL分DBCL出来的,简单跑个样本就可以了啊。但是这个过程相当限速啊,哎呀,我之前跑过一次的,需要好几分钟啊,大家在跑的时候呢,尽量当然我给大家脚本都是封装的脚本啊,把它诶Q下到后台跑就行了。嗯,今天投上去,呃,现在投上去,过两三个小时他就能出来我们所有想要的结果,哎,就可以了。有一些关键性的参数,哎,一定要回内部设置啊,比如说这个地方啊,如果说觉得麻烦的话,就把这个写成了参数,就是一开始这种参数模式。
68:02
当然我这个地方就不写了,我认为300个基因就算是很合理的一个范围了啊。大家都知道,配售点金一共也就几百,你写了300,基本上涵盖了所有。哎,没了。哪儿去了?所以说这个地方啊,大家哎。真正的应该是这样写啊,这个地方我只是为了演示。啊,就算演示他跑的也是非常的慢,大家可以看一下,相当的慢。我们,哎,稍微等一下之后呢,可以带大家看一看这个,给大家稍微讲解一下关于这个。嗯,叫什么来着。
69:03
嗯。这个地方啊。很多信息啊,都是来,我也是自己慢慢总结的啊,像这里面主要总总总结了一个,对它软件进行了一个详细的总结啊,大家有空可以看看。首先呢,当然啊,当然31分DB也更新了空间的部分,空间部分我们后续再讲啊,生态文件如何获得这个空间部分,在讲呃V4的时候呢,它就用这种高分文献,已经开始用它进行呃区域之间的一个判别了。这个地方呢,它会对区域之间进行一个,呃,区域之间配受体的一个显著性进行一个简单的识别啊。大家可以看一下,为了单独的位置啊,行啊,这个和空间有关啊,啊为什么大家一定一致的认为都更新了空间呢?还是那个原因,就是说它其实配锁体是分泌式的。
70:00
他也不会游离很远。就像神经递质一样。哎,只能在这个突出的位置,哎,很短的距离发挥了它的生物学功能之后,立马就失活掉,让它不要再发挥作用,如果这个配体一直在发挥作用。哎,那就是疾病了,明白吧?当然我们的组织细胞虽然没有那个。哎,没有像神经细胞那么的强烈的一个,呃,就是说非要在那么近的距离实现功能,它有,它会游离一段时间,但这个距离啊,也不是很远。大概多远呢?200μm啊,200μm左右啊。然后就是一些更新内内容,这个刚才给大家讲过了,包括sales char呢也是一个。非常棒的方法啊,非常棒的方法,他在单用的分析的过程中,确实是非常有影响力的啊,这个里面他呃,刚才忘提到一句。这个地方呢,有一个很有意思的现象,就是说thunder。哎,受体对吧,我们通常关注配体受体,但是在配体受体中间啊,还有一些阶段,比如说。
71:06
嗯。这个叫介导的分子,这个叫影响的分子啊,就是说会产生一定的调控,不会让它完整的,哎,配体表达直接和受体结合,这个是不会的,还有一些基导的分子,介导的分子就是什么呢。哎,对,他有这个就是说,哎,你们要手拉手,我来牵个线,哎就这个意思啊,还有influencer,哎,影响者,这个影响子有正影响,有负影响,如果强度过强,它的影响就会下降啊,让它的强度低下来,如果强度过高的话,强度就让它。啊,强度过低的话,就让它强度再上去,这个影响子,它在分析的过程中就会拿到这样一个热图,这种热图就是standarder receive meor influencer等等等等啊。啊,所以分析它的分析内容会比这个CFDB更加多一点啊,多那么一点。我还没跑啊,有点限速啊,这一步是相当限速的啊,大家可不要在自己电脑上跑啊。
72:08
这是呃styletra啊,Styletra当然有很多教程啊,教程大家要详细的看啊,可不干囫囵吞找的看了一个教程就用啊,要把它全部看完,然后加入自己的理解,之后呢,开始写大家哎,需要需要的内容的分析代码啊。嗯,人工就是人工定义逆net这个就不讲了啊,空间部分再说。最后呢,就是ni net一个教程了,Ni net它其实哎去年讲过一节课,呃,专门讲了一节课,大家可以看到它的一个模式。哎,公开的数据,配体受体,哎,信号基因调控,基因调控就是转录因子啊,大家可以看到整体的一个过程,配体受体,哎,转录因子调控加上靶金,这是中间的一个过程,这个为什么多了一条直线呢?就是要进行信号放大,就是刚才提到的极点反应。
73:03
一个配体和受体。真正要达到它影响它靶基因的一个。真的影响到他把基因活性的这样一个啊,哎,不是大家想象的那么简单了啊,直接一条龙通下去了,其实是一张网络。那就和他提到的一样,这个配体和这个受体,它会在多条上最终影响多个基因的表达,这样的话会形成一个配体法基因网络,配体受体网络啊,甚至更加详细一点,像31分DB。更新的这个TF网,TF这个活性一样有一个配体TF因子网络,当我把这种多种网络结合的时候,那当然分析结果就更加可靠了,更加可信了,对吧,最后就会拿到这个配提拔金这个。哎,这图也叫活性矩阵,从而对配体靶体哎,配体靶基因哎,包括配体受体等等,产生更多的一个分析上的内容啊。所以说呢,在cell net大来分析的过程中啊,经常会对这个配体活性进行打分儿,这就为上游刚才提到的那个多软件联合,通过cell chat的那个配受体活性矩阵和。
74:09
呃,C或者CFDB的配力配受体矩阵,结合这个CL尼斯net,它打分的这个配体活性矩,配体活性分数。哎,两者之间一结合,找到那种更加可靠的一个配售敌对啊。这个就是单细胞的一个通讯部分,大家在分析的时候也是要注意一点的啊。我还是很慢啊,这个过程相当的漫长啊。这个过程完了之后呢,接下来就是一些可视化的操作了啊。哇,相当的难长啊,我的计算机性能算高的了啊,但就算这样计算,在多条件多重播的条件下来计算出来计算的时间也是非常长的啊。
75:12
我们看了看计算的计算资源应用情况。已经报表了啊。已经报表了。很多值啊,设置的还是哎,合理范围之内,像这个PP value adjust等等,这个我设置还是正常范围之内,0.05,所以它计算的会更加的多一点,全面一点啊。啊,趁这个时间呢,大家有什么问题可以发到这个聊天框里。还有一个就是R版本的封装呢,其实和Python版本的封装是差不多的啊,写上你用的哪个环境,谁写的日期等等啊,包括这个。
76:08
你参考的地方,然后呢。对其中的一些情况进行标注啊,写上说明,以防止你以后过个一两年你看不懂。哎呀,相当限速啊,计算这个差异配速,差异配比活性,这个相当限速啊。我这个样本啊,其实也就没有多少细胞类型,大概也就不到1万。分了很多组,哎,结果算出来都非常的漫长啊,等到大家用到那种上万啊,甚至十几万的这种细胞类型的话,哎,它的计算过程就更加的长了,一定要用服务器啊,不要用自己电脑跑啊,容易把自己电脑跑废了。
77:10
哎,这么慢吗?相当慢啊。飞机把基因矩阵log f CF value.P value adjust.Pop on TT.好,我们再等2分钟啊,如果他跑不出来,我们不跑了啊,这个相当漫长啊。相当漫长,这是个限速步骤啊,相当漫长。大家可以看看它教程里面的一个内容。
78:04
嗯,很多时候呢,大家觉得我也知道,大家说有基础啊,可能就是在自己电脑跑了跑,但是真正大家遇到那种真正项目分析的时候啊。啊,这些电脑完全是分析不了的啊,都是要用服务器大大算力来进行一个推动啊。这个是参考的地方,大家不要注意,大家要注意啊,这个参考的地方只是参考啊。啊,可不敢就是完全照搬啊,这个是不可以的啊。跑到这里,我们跑到哪儿了呢?跑到这个。跑到哪儿了,看一下。就是胚底活性这块,配顶活性这块,因为它内部涉及到很深的算法,所以它在运行的过程中会比较漫长。大家可以看到运行的时候,哎,就会有这种。我们跑到这儿了。
79:00
哎,大家要注意啊,大家要注意我写法中的不同啊。哎,这个地方。和他的这个地方get,他并没有写这个指定软件。为什么要这样做呢?等到大家自己再装上软件,自己在运行的时候,就会发现其中有很大的不同啊。哎,然后呢,当然下面还有一些分析啊,下面还有一些分析,但是基本上拿到配体活性之后,基本上我们就算完成任务了。哎,基本上完成任务之后呢,就下游就是一些可视化的操作。哎呀,相当漫长,咱可以看看这种可视化不同的样本,ABCASD等等等等。然后这个就是多样本比较分析的一个常见的一种图。呃,这种活性土,嗯,AMS它在这个细胞类型之间,它的配受体哪些具有显著性高的,或者显著性低的,它会进行一个排布,包括这种样本内部,它也进行排布啊。
80:07
首先是样本内部进行排布,然后呢,直接就合并分组了,知道吧,如果样本内部它差异性过大,像这种配套的差异性过大。那这个时候你就要考虑了。软件只会把全信息告诉你啊,软件不会识别,软件只会做简单的识别,但真正的生物学意义是人赋予的,这个时候呢,如果像这种差异性过大的合并之后呢,诶。他也会有一些显著性的一个变化,就是说。一个样本的内部我们要考虑它配体的来分布,哎,样本整体也要考虑啊。千万不要忽略这种信息啊,现在都是这种状态了,基本上可视化就是这样一种可视化了。哎呀,相当慢啊。啊,大家可以看到,这就是我们想要的一个结果啊。样本内部也有,哎,整体比较也有,这就是想要的结果了啊,只是它在分析的过程中会分析不同的细胞类型,以及不同的这个通路。
81:07
嗯。这就是我们想要的结果了。哎,各种各样的这种这种图啊,无论是分样本还是无论是分样本还是样本整体,哎,都是我们需要初步判断的一个结果啊。下面就是一些可视化的操作了啊。哇,终于跑完了,好漫长啊,是吧?大家可以看到这个地方啊,从我从这个11:12三的时候。投上去的,哎,22才跑完,都跑了将近10分钟啊,大家但但是大家看看这个样本,我才多大呀。哦,13000个细胞。啊,一万三细胞,就是说大家如果用现在的这个单细胞捕获技术,一个样本大概1万左右,那就一个样本多一点,它就需要跑这么长时间,那如果都样稳联合那就相当长了了啊,大家一定要投到后台啊,可不敢大家一定要投到后台啊。
82:07
不要用自己服务器跑啊,跑起来可慢了啊。把自己电脑跑废了啊。然后呢,就是一些简单的计算了,这个就好多了啊。这个呢,大家可以看到。哎,其实就是对它前面的那个配体活性矩阵啊,进行一个排布和分类,中间有很多这个配体受体的一个参数,哎。包括受体的一个啊。哎,接下来。这个地方呢?就是说我们需要把我们的分析结果进行一个保存。大家都知道R的分析完结果保存成RDS对吧?那其实R版本所有的分析结果一般都保存成RDS啊。
83:03
这个地方呢,对这个把金先前的一个推断啊,这个过程也有点限速啊,把它标注一下吧。啊限速啊,大家有些步骤限速的时候把它标注上啊,跑的时候呢,进行一个标注。哇哦,可以啊,还不是很限速,但也还但也限速了。哎,接下来就是一些简单的可视化操作了,可视化操作呢,就和刚才一样了啊,刚才一样了。哎,可视化操作就和刚才一样了。我们简单的可视化看一看。哎,等会儿还没跑完。哎,简单的可视化看看啊。
84:04
有多少细胞类型,写多少个循环啊,这种大家封装的时候一定要有这种封装能力,可不算一种,就是说让软件自己去判断去,不需要我们人工再指定什么细胞类型了,让他全都拿到,哎,就拿到这种结果了啊。啊,刚才我是事例数据啊,大家拿到之后也会拿到A样本。诶,它在不同的样本之间的一个分布情况,包括整体的一个分布情况,包括它是否上调还是下调,包括它配体,哎受体的一个活性,包括它的一个简单的一个其他的包括这个奥米pace属于那个通骨等等啊。这个判断的时候啊,就要根据大家的实际来判断了,比如说这个通路。大的通路居多啊。在所有项目中都当了。但是在样本判断的时候啊,大家可以看到。整体和个体之间还是有差异的啊。这个就和大家做项目有关了。
85:04
嗯,接下来还有一些其他的一个操作啊,我们来看一下。啊,大家画这种大图的时候相当耗时间了啊。嗯,这相当耗时间了啊。这种图就是我们想要的那种图啊。多样本既有个性又有差异性,这种哎,这种图谱就是我们想要的,接下来呢,就是一些常见的绘图分析了啊,和大家和官网上是一样的,主要是前面的处理过程,大家要注意啊。好了,我们的脚本就演示到这儿吧啊,后续的个性化大家自己跑一跑就可以啊。哎,我把它删掉,哎,好。
86:01
那我们这节课大概就是这个样子了啊,大家有什么问题吗?
我来说两句