00:01
好了,时间差不多了,我们来上我们的第7课啊,关于空间转录组,哎,数据整合和形态学识别的内容。哎,这个是空转系列的第一课,也是大家拿到空间转录制数据,哎,首先要做的一个事情。大家在拿到这个公司的空转系呃空转的报告啊,通常会有一呃以下呃简单的技基础分析。哎,包括简单的降为聚类,哎,差异负极,甚至包括空间的多样门整合。嗯,但是在文章中应用的时候啊,关于空间的多样化整合,其实和大家在公司看到的报告啊。啊,有很大的差异。呃,为什么这么说呢?因为这个空转在啊刚开始。出现的时候,哎,他的很说很多这个分析方法,包括报告的内容啊,其实是借鉴的单细胞啊,当年啊,我呃,我也是其中的一员之一啊,参与了整个的报告的构成。
01:07
呃,那么在整个的构思的情况下啊来看呢,哎,就对空转的数据呢,有了一种,就是说是不是和单细胞差不多的一样,哎那样分析就可以了,于是才会出现了市面上大家常见的一些。哎,包括降维聚类,差异负极,哎,仅仅是用空间展示了基因表达和呃分群分布的这样一种现象啊,但是在真正分析的时候啊,尤其是大家在做项目的时候,其实空间转录组啊,哎,是不能用这样的分析内容去放到文章里面去的啊。那我们今天呢,就来学习,哎,空间转录组的第一课,关于空间的整合和形态学的一个识别啊。那么在呃,拿到数据之前呢,我们首先第一步哎,就是要质控。哎,包括单细胞,它其实也是要质控的,包括大家在技术分析的时候,哎单细胞的最离基因哎是200,哎去除双细胞驱逐线粒提高的啊等等的一些内容吧。
02:10
那么对于我们空间转录组来讲来讲,哎,是不是也要去除这些,呃,依据单细胞的这个思路来进行指控呢?呃,最开始是这样的啊,最开始是这样的,但是随着是这个,哎,慢慢的发展呢,发现哦,好像空间转录组是不可以像单细胞那样,哎,简单的进行那样的一个指控的。首先呢,我们来简单看一下这些质控的一个指标啊,首先第一个。哎,红细胞的基因。啊,对于单细胞来讲,很多时候我们为了去除这个红细胞的污染,哎,会计算一下红细胞基因的一个比率啊,如果过高的话,认为它是红细胞,就把它去除掉啊,以免影响我们下游的分析。哎,但是我们对于空间组来讲,哎,无论是大家取得那个肿瘤样本,还是正常的组织样本,这些啊,都不可避免的要包括我们正常的血管组织。
03:07
哎,这个是没办法避免的,尤其是这个肿瘤组织,哎,大家都知道肿瘤组织它有一个循环快速生成的一个过程,它体现了正常的生物学,哎,生物学的一个现象,这个时候呢,我们就不能再以单细胞那样诶。腺粒,呃,红细胞基因表达高,就把它去除的这样一个策略,而是要把它尽量的保留,以此来研究它血管生成的一个,哎。哎,这会体现怎样一个现象,生长的速度等等等等,以及表达基因的一个很正常的一个差异。那么在单细胞来讲,单细胞一般就把这基因诶给过滤掉了,但是对于空间组来讲,诶这些泡的我们是要尽量的保留。啊,有的时候如果确实是有了这个红细胞的污染,比如说空间缺失血管它弥散了啊,确实有这个红细胞的污染,一般会把这些基因啊给去除掉。
04:01
哎,以免影响我们下游的分析啊。第2个呢,就是线粒体基因啊,线粒体基因这个在单细胞当然是很非常常见的啊,大家依据这个线粒体基因去除低质量的细胞,但是这里面多提一点就是。即使是单细胞,它的线粒体基因啊,其实也没有那么固定的阈值。啊,没有固定的阈值,大家看文章的话,我经常会看到线粒体的阈值啊,它不是啊,一模一样的,最低呢,能低到5%,最高能高到哪,高到50%。为什么会出现这样一种现象呢?就是因为呃,细胞,哎,不同细胞类型,它的耗能是不一样的。尤其是像那种呃,肿瘤细胞,它在飞速的这个扩增啊,大量的扩增自己,这样的话耗能就会高一点,线粒体之间比自然会高一点,还有一种什么像T细胞,耗竭性T细胞等等等等,它的功能虽然诶被破坏掉了,但它还是在行使呃,使用大量的能量。
05:03
维持自己行使功能的这个能量需求啊,这样的话线粒体占比也是比较高的。所以说呢,对于单细胞来讲,哎,我们尽量要用这个合理的预制来去除低质量的细胞。但是对于我们空间转录组而言啊,空间转录组而言,哎,空间转录组时报的,比如说现离体比例比较高,超过了30%。哎,这个时候呢,我已经列出来了,一般分两种情况。一种就是局部耗能比较多。啊,这种情况是在空间转动组最常见的情况啊,啊,因为这个地方局部耗能,局部耗能比较大,很可能它是在行使着一种特殊的生物学功能。或者说它是肿瘤的一个,呃,正在快速快速复制,呃,快速升增殖的一个过程,它需要大量的一个能量。像这种呢,就不效,呃,就不能去除了。
06:00
那么还有一种呢,就是局部细胞坏死了,它已经坏死掉了,这个时候呢,也会出现这种。啊,也会出现这种这种线粒体比例高的情况。那么我们在空间上如何区分这两种情况呢?哎,第一种就是大家如果有实验条件的话,做个实验看看,看看这地方是不是坏死细胞居多。第二个呢,就是说大家看那个切片。这个片子呀,如果核核细胞质相对比较完整,哎,说明它是一个完整的细胞,哎,这个时候就要保留啊,如果说已经弥散了,哎,细胞膜核膜已经破碎了等等等等,这种情况呢,我们就需要剔除啊,不过在大多数情况下。哎,不需要去除啊。然后就是低质量的u mi和这个基因了,呃,对于空间组来讲,如果大家用的是vim,哎,它的这个空间的基因表达数量都在都比单细胞要高,都在几千三四千这样一个水平,如果基因表达过低。
07:02
过低是什么原因导致的呢?哎,这里面我放了一张图片,过低就是这种原因导致的。这是这个正常情况下基因过低的一个现象。哎,也就是说一个点啊,它部分覆盖了组织,哎部分呢,在这个组织之外。呃,当然有的,有的点呢,甚至只有一点点靠近组织,哎,另一些在组织之外,这种情况下,它在透化的过程中啊,不获的基因相对就会很少,哎,实际过程中呢,我们需要把这些。诶,边界的一个sport,尤其是和边界重叠度很小的这个port的要把它过滤掉,那么这个过滤的原则是什么呢?因为它的u mi很少,哎,所以大家在对空间转入组做基础分析的时候啊,卡一下这个u mi阈值就可以了,一般像单细胞大于200就可以,或者大于100,有的文章用100啊。这里面我进行了一个详细的一个文字描述啊,其实这种情况就是为了去除没有细胞覆盖的sport,就是这种sport,当然这里没有说全,有些sport它在组织之外。
08:09
哎,也会有这种有存在基因的一个现象,哎,为什么呢?因为在这个组织通化的过程中啊,细胞,哎,它要解离释放mnam mrna在落到这个孔里,落到这个实成的这个芯片上的时候啊。哎,不可避免的存在的一个弥散,哎,弥散的现象,如果大家会拿到这个时乘的基础分析结果,去拿去那个芯片全景的u mi的数量看一看的话,哎,会发现或多或少都有存在这种弥散的现象,这也是一种。所以说在分析的过程中呢,要么前期进行人工的图像校准。哎,这个是在大公司,尤其是像这种上市公司,它必须是人工来校准的,就是这些图这个啊,用那个loop。把这个图片哎,组织区域给它圈选出来,用于下游的分析。
09:02
如果说没有像一些公司啊,他不做这个,而是机器比对的。哎,就会存在这个点啊,在主值之外,这个时候呢,它就会用这个u mi的这个大于100或大于200,把它给去除掉,哎,去除这个诱力背景。那么哪种更可靠呢?哎,当然是人工调整更加的好啊,更加的好,这也是哎,被客户认可,以及这个公司相对可靠的一个做法。呃,那么如果保留这个s support啊,就是s support处于边界上和边界,呃,组织外这样一个情况,第一个它是会干扰我们下游的分析,因为它基因含量比较少,这样的话,在这个数据分析的过程中啊,如果对它进行normalize病例scale的话,这些。表达基因非常少的sport,会对我们的整体啊,造成非常大的一个干扰啊。还有一个就是我们希望啊,还是保留真实的有效信息,所以组织内部的信息啊更加的可靠。
10:00
其中大家看这个组织内部信息,哎,有的时候我们组织啊,也是存在这种裂口的现象。哎,这个时候呢,这个。哎,这个点其实也是有部分在组织内部分,其实没有组织覆盖的,就是说你在组织内部同样存在这种现象,哎,一定要进行一个简单的过滤,尤其是像软泡的这种结构,哎,软泡很大那种,那个覆盖的这个sport呢,就应该把它过滤掉啊,保留真实覆盖的有效信息。啊,这是这个Du mi和低基因的一个取出策略,它不同于单细胞啊,单细胞说明这个组织是坏掉啊,这个细胞是坏了,哎,坏死的,但是对于空间来讲,低基因代表着它处于肿瘤交界区。它不是一个s support完整的覆盖组织的一个情况啊。嗯,接下来就是一些文上的文文章的一些指控的方法啊,前面提到过,对于空间转录组来言而言,刚开始的时候啊。哎,还是以为它和单细胞一样内容的指控,后来慢慢大家认识提胞之后呢,哎,慢慢的都不指控了,基本上只和组织图像进行配对啊,有组织覆盖的地方都保留,没有组织覆盖的地方,哎,都去除。
11:12
这样的话,保留了它它最原完整的原始信息。哎,这里面呢,我收集了一些呃,相对高分的文献,大家可以简单看一下,像这个第一篇的NC,它也是无指控的,当然这个无指控指的是没有像单细胞那样的一个指控,什么Du mi啊等等这种指控啊,图像校准是每一个文章都要做的啊,只分析组织覆盖的细胞的。还有这个,哎,第二篇也是无指控的。这一片呢,大家应该都见过,它是研究肺纤维化啊那个。呃,这个发到nature的这样一个很高分的一个文章啊,他对这个空间着录组啊进行了一个简单的指控,哎,他把低于哎有sport低于300个基因。哎,低于500个u mi的这胞的全都滤掉了,剩下的这他认为是正常组织覆盖的胞的,这样的话对这些组织进行保留,哎,纳入下游的一个分析啊。
12:10
这个呢,也是一篇高分文章啊,Nature的,诶,他也是对它进行了一个简单的过滤,他认为大于100个基因的这泡的都应该保留啊,大家可以看到它仅仅简简单单的是做一些简单的这个智库啊,仅仅是为了识别那些非组织覆盖的s support, 把这些s support给过滤掉,哎,分析真正有组织覆盖的s support.作为下游的一个真实可靠的一个基础啊。哎,这张图呢,就是这个文章来的,诶,第三篇这个文章来的。哎,他进行了简单的指控,并且进行进行了下游更,哎很多的一个个性化分析啊。啥叫弥散啊,弥散就是说一个组织正常来讲啊,正常来讲诶一个组织贴到这个切片上,诶垂直的关系,哎,Mna垂直的落到这个切切片了,对吧?但是在实验过程中啊,会有这个洗脱呀等等现象,它会诶导致这个基因导致这个mna啊。
13:09
哎,会扩散到诶周围的support。哎,这种现象就叫做污染啊,哎,或多或少都有一点,不过大多数情况下不严重。哎,然后一些是一些其他文章了,哎,基本上我收集的文章都是一些高分文章啊,就是为了告诉大家这个目前空间转录组质控的一个现状,就是说大多数文章啊,认为空间转录组图像比对更重要。简单的就是像单细胞那种,哎数据质控是不是空间转录组,哎说必须要进行的一个过程啊,哎,这些文章呢,都是一些高分文献,哎,大家有空可以好好看一看啊,我都呃,我都一一把它摘录了下来啊。然后呢,就是文章指控了,哎,文章指控这里面做了一个简单的总结,哎。
14:02
空间转漏组几乎是不做像单细胞那样的去除癌,线粒体、红细胞等质控的,一般是把图像校准的细胞的,呃,全部保留,哎,只是在对文章对数量低的基因进行一些修剪,哎,就是前面提到的这个。啊,质量过低。哎,质量固的的话是组织覆盖的,哎有哎不是完全覆盖组织的一些s support, 这个就是要把它过滤掉啊,然后呢,这上面图呢,都是一些简单的分析,大家可以看一下,基本上啊,它分析的点都在这个组织边,组织内部啊。以组织,诶,以组织为边界,把这些sport全部纳入一个下游的分析啊,包括监维,距离,差异,附极等等,包括公司在做项目的时候,哎,包括我自己在做项目的时候也是一样的啊,都只是把这个组织区域给他圈选出来。哎,全选出来,然后呢,就全部纳入下游分析了啊。嗯,这里面还有一个值得讨论的问题,就是关于HD。
15:05
就是那个高精度平台是不是需要指控,嗯,截止到我们讲这节讲这节课的这个时间啊,就是今天是7月。哎,7月9号讲这节课的,这个日期呢,对于HD仍然采用的是图像识别不指控的一个策略。因为目前来讲,对于一些HD的这个切片啊,数据质量不知道大家见过没啊,如果有做HD的应该都知道,如果以8μm的精度来计算指空的话,它的这个基因中位数啊,往往就是一两百。诶,两三百这都算高的了,有的只有几甚至几十,那这种指控就很难做了啊,不知道该怎么做。如果说以单细胞为例,哎,单个细胞表达200个基因,是低质量细胞空间转HD认为8μm大概含了一个细胞的大小,那这样的话一指控那就大部分都过滤掉了啊。嗯,当然也有合并到16μm的基因数会多一点,哎,但是也没多多少,一般到三四百就算很高了啊。
16:05
为什么会存在这样一个现象呢?就是在于空间转录组HD啊,很多组织是非细胞覆盖的,哎,这个以后在HD的课程上会讲到啊,我们的细胞不是致密的那种排布啊,很多是一些间质区啊,这些没有细胞覆盖,导致它的基因素没有那么高啊,而且在分析的过程中啊,尤其是HD在分析的过程中。呃,它在图像精准的识别之后呢,保留的这些sport大家可以看到,如果说跟我说的一样,它的基因中位数只有两百三百这个样子。那就说明它不是单细胞的一个精度啊,单个细胞的表达基因数绝对不可能这么低。对吧?哎,在分析的时候,它的难度就比wisdom哎更高一点了,很多地方都有坑,都需要小心啊,不过截止到我讲课的这个时候啊,哎,很多方法啊,包括那个还不完善,还是凭一些原来的空间转入组的经验在分析HD啊,不过也有一些新的方法在突破了啊,等到我们讲HD的时候,应该会有一个比较完善的方案出来。
17:09
然后就是空间排污啦,这都是空间转录组,哎,分析的前期过程,哎,就是刚才提到的这个弥散的现象。呃,因为在这个组织贴到这个玻片上啊,哎,大家都知道,如果说实验是完美的进行啊,非常完美的进行,这个时候呢,哎,我们释放的MRV会垂直的落到这个点上,对吧,会垂直的落到这个点上,这个时候是不存在污染的。但是很多时候呢,没办法啊,没有办法,它会向周围弥散一些,哎,就是像这个第三张图,这个东西明明组织覆盖这个深红色区域。哎,因为在实验的过程中啊,包括洗脱呀等等,大家都知道mna结合上去的时候是要把它洗脱下来的,那这样的话,在各种各样的实验过程中呢。不可避免的,它就会向周围弥散一些。
18:02
这就是为什么前期空间转录组要做这个破画摸索时间的原因,当然现在FIP啊,包括这个都不做了,哎,因为它用了更高端的仪器,哎,默认时间来做,但是呢,就会导致这个尼散啊成为了一种固定的现象。所以在数据分析过程中呢,哎,如果说怀疑他弥散现象比较严重。哎,就需要用这个软件进行处理这个sport clean啊,去年的课程呢,专门给这个软件讲过一节课啊,大家感兴趣可以回看一下,这里面只提一个重点,就是说s support肯定在矫正这个基因离散的时候,一定要有非组织去让它进行训练。如果说整个切片就是四百四千九百多个port已经全部覆盖到组织了,那这个软件是无法识别这个是否是弥散的,只有你保留一定的空间,比如20%的空间是没有组织覆盖的,它会对这些20%进行一个训练。
19:00
如果说这20%的弥散,有一些基因弥散,它会在真实的组织上把它这个数据进行一个适度的矫正。啊,如果说那20%没有基因弥散,就是没有检测到基因,没有检测到基因的一个表达等等等等,哎,他认为没有弥散就不矫正。这是一个弥散矫正的一个过程啊。呃,右边这张图呢,就是一个简单的事例了啊,因为有组织覆盖区域和非组织覆盖区域啊,这个非组织覆盖区域现在固定都有一些污染啊,这个污染啊,有的比较严重啊,有的比较浅一点啊。B图呢,就是这个,大家能拿到这个,呃,实成会专门提供一个全组织u mi分布的一个现象。什么叫全组织呢?就是说即使是没有这个点,没有覆盖这个,呃,组织也会把它是否检测到基因的一个现象给大家展示出来,大家可以看一下啊,就是全组织了。整个切片的基因表达形象都体现出来。
20:00
啊,然后下游呢,进行这个u mi统计,来计算这个background它的一个现象,Background它的一个表达特征。哎,从而呢,对数据进行一个矫正,哎,把它矫正回来,这是唯一啊,空间转录组在质控的时候和单细胞不一样的一个步骤啊,嗯,现在有一些高分文件已经采用这个方法。哎,在进行这个空间数据矫正了。呃,Clean在流程中是否需要用啊,正常来讲,正常来讲啊是需要的。啊,尤其是大家做HD和那个,呃,像这个FIP,新版的这个FIPVR或者呃,新版就是不需要摸索时间的,这个一定要看一看啊,你不做也要像我一样,拿出全组织它的一个u mi分布的一个情况来看一看,看看它是否弥散。
21:01
弥散的判断标准就是说非组织区域它有基因的检出,哎,说明弥散了,这个时候一定要想办法把它矫正过来,当然了要判断一下严重是必须要矫正的啊,如果不严重可以,哎呀,比如比较情节比较轻,比如说你的中位数是三千四千,结果非组织区域呢,比如说只有几十,哎,这种可以不矫正。而且大家要注意一个现象啊,弥散,往往弥散的是那些高标大气。明白吧,比如说表达基因非常高,它在沉降的过程中,就是垂直下的过程中,没有那么多探征能结合上它,导致很多的UM那个mna分子啊,哎,没有结合到这个这个芯片的这个探针上,哎,导致它处于一种游离状态,一洗脱,哎,它就偏离了自己位置,偏离了自己的位置,结合到这个其他的s support里面去了,哎,导致会有这种密散的一个现象,会影一定程度上影响我们的生物学意义啊。这是这个port c啊,这个大家要作为这个啊T,哎,要作为一个重点啊,无论做VI还是做FIPHD就更要做了,HD是那种。
22:08
大家都知道,哎,呃,方形的紧挨着的那种错位,一个整个组织就都错位了。懂吧,它还不像这个,呃,微姆还有空间,哎,让你调整HD是真没有空间让你调整啊,那污染就全污染了啊,所以HD的实验要求会更高一点啊。呃,然后呢,空间排污,这是一个简单的一个罗列,哎呀,大家拿到自己的空间,也会拿到类似的样板,比如说这个第一个组织啊。它组织覆盖大概是这样一个区域,但是在非组织区域,你看这个地方,哎,也有一些基因表达,说明存在这个基因这个污染的一个现象,哎,这个时候呢,就要对它进行背景进行一个计算。哎,然后把它往回矫正一下。啊,等等等等,这些图片其实都在说明这样一个道理,组织覆盖的区域当然有基因是正常的,但是非组织区域还有基因表达啊,那很很很显然是因为组织区的基因弥散到这儿了,对吧?
23:09
哎,这都是一些简单的例子啊,我把这个例子都放给大家了,就是要引起大家的注意啊,空间软弱组的指控和单细胞所不同的地方,它不像单细胞那样需要去除低基因,需要这个去除高纤粒体,哎,或者去除红细胞,甚至去除核糖体基因等等,它唯一的指控步骤就是我们要哎想尽办法把它这个污染给它矫正回来。啊,这是排污的一个质控要求啊,第一个组织不,呃组织不覆盖的需要大于20%,供他进行这个背景的一个训练,看看背景表达基因是怎样一个现象啊,你要全覆盖了,他就不知道了,全覆盖组织那就不知道是否弥散了啊,所以说在大家做空间转录组的时候,不是说覆盖的越取越大越好啊。留一点空间,可能对数据的保真度更更好一点啊,然后第2步呢,就是计算非组织的RV污染了,哎,就是刚才这个训练这个非组织区域这个红色的这个风来计算它的污染,第三步就是把它会往回矫矫正过来,哎,以达到真实的一个基因表达的一个现象啊。
24:14
这是一个空间排布。嗯,接下来呢,就是基础分析了。呃,U mi的那个柱子咋看出来弥散那个这个图能看出来,弥散是空间图看啊空间图,比如这些地区是没有组织覆盖的啊,有基因说明,哎,很明显人气比散了,对吧,这个容易理解吧,我们公司有没肯定是要用的流程是要用的啊,要把这个基因尽量的保证啊,哎,之前我在推文中给大家说过啊,核心的分析人员。对,他的最最核心的要求就是分析的准确性,尽最大可能让分析的数据保证准确。啊,哪怕有一丝一毫的误差,哎,你明知道这是误差,你也要矫正回来,如果你故意不矫正,哎,这个是职业道德的问题了啊,大家一定要明白啊。
25:08
U mi那个柱子哪个柱子啊?没有柱子吧,这个柱子吗?U mi这个柱子啊,这个只是来,这个只是来判断,哎,组织区域和非组织区域,它的u mi分布的一个现状,用来集体训练的啊。为什么HD都要用SPA的颗粒,嗯,HD要求最严格,没有空间调整啊,HD有空间调整啊,他也不是说HD大家一定要铺满啊,不一定啊。我怎么知道覆盖的区域是否满足大于0.2,这个很简单啊。它的整个的sport大概是4900多个,如果你是11μm的话,大概是不到1万个,呃,大概2000个,1000个留着就可以了啊,大家圈选的时候就已经知道port是多少了啊。偏偏这样的操作,是不是你显影响更大?对,哎,尤其是大家为了节省成本,说,哎呀,我贴好几个组织在一个片上,哎,这种影响会更大啊。
26:04
呃,一般我的公司啊,我所在的公司一般呃在推销产在这个卖产品的时候,会告诉作者这一点,一旦一个比如说贴了5个组织片,有一个组织弥散啊,影响了其他4个组织表达分析的数据很可能都是错的啊。当然了,这种弥散啊,呃,和实验过程有关,如果实验做的非常好。哎,弥散程度很小,你贴多个片,哎,那是没有问题的,但是啊,这个东西无法保证说他每次实验都能做的很完美,即使是机器做事情他也不能保证,所以或多或少啊,还是有一些污染啊。然后呢,就是基础分析了,这个大家都知道啊,但是这个基础分析大家对比一下那个单细胞的基础分析,单细胞基础分析是什么。诶降维聚类差异负极对吧,然后细胞定义轨迹通讯CV转录因子等等,但是大家看大家看这个空间的这个。空间的这个。哎,组织切片拿到之后,单细胞测序啊,当然单细胞测序啊,有的人没有,有的人有啊,第一步呢,就是空间重建,哎,其实就是图像识别,哎把组织覆盖的这些support它的一个基因表达信息给拿到,第二个呢,哎,图像比对,哎把一些非组织区域的基因哎给它过滤掉,或者说进行排污反,呃排污的一个分析,进行基因的矫正等等等等。
27:24
第三个呢,就是节卷机,当然这个节卷机是针对的,呃,微M就是那个55μm那个出精度。HD要不要计算机呢?目前来看也是要的啊,因为呃,之前发推文啊经常讲啊,我们的细胞啊,不可能是规规整整的放在那儿的啊,所以很多时候啊,都是一种非规则的状态。当然Z它不用矫正,Z就是真正的单细胞体了,但是HD还是差一点意思,所以说在官方发布的那个HD那个文章里面啊。他还是用那个。嗯。CRTD那个软件进行了一个集卷机的反应,呃,集卷机的一个分析,来分析它细胞的一个分布啊。
28:06
然后就是空间聚类了,空间聚类这个和细胞聚类也不一样了,单细胞聚类,聚类是一群细胞类型,对吧?空间聚类是固定的,哎,空间区域叫region,就是region准那个单词啊,区域的那个单词叫空间region准,最后呢。哎,细胞通讯,这个细胞通讯啊,也和这个,哎单细胞不一样了,单细胞是细胞群与群之间的,但是我们空间只考虑邻近的啊,只考虑近距离的啊,远距离不考虑。啊,这里面列了一些软件啊,这些软件啊都是一些呃,比较常见的分析软件,大家分析的时候啊,可以借鉴一下啊,不过在实际过程分析中啊,这些软件运用的比较少啊,因为随着技术的发展,有了更好的替代了。嗯,接下来就是空间形态学的识别了,这是大家我不知道大家有没有这个基本功啊,这个其实非常的重要,你想拿到这个片子。哎,拿到这个片子第一步干嘛?
29:03
哎,大家可能觉得,哎,我第一步先拿数据分析一下,其实不对啊,第一步先把这个片子大体的看一看,嗯,我和大家一样啊,也没有这个形态学的背景知识啊,所以我在分析空间转录组的时候啊,第一步干嘛?第一步赶紧去找病理部门的主管或或者经理,找他们去识别区域去了,这些都是他标注出来告诉我的啊。就是这样一个片子告诉我,比如说这个偏红色的是平滑肌区域,呃,这些染的比较黑的啊,说明是单核区域聚集的部分,他们是免疫区。啊,像这种啊,成泡状的。哎,呈泡状的有转移的一个现象,说明的这个是浸润癌的部分,哎,原位癌一般位于竹子边上,它不会浸润等等等等,它会大致分一个区域给我,哎,让我进行下一游的一个分析啊,你像这个地方,哎,也是平滑肌区域,你像这些软泡泡状的地方,哎,它是巨原癌,你像这个黑色的地方,它是这个。哎,单核就是免疫区域,哎,免疫区域正在抵抗这个基轮癌的一个入侵啊,你看啊,它基本上形成在这个边界上,哎,肿瘤位于这边,呃,单核啊,免疫类细胞啊,处于这边正在抵抗,它这边是正常的平滑肌区域,而这边的平滑肌区域已经沦陷了啊。
30:18
所以说大致分了区之后啊,对我们的分析非常有帮助,哎,比如说我分析这个区域。哎,我就知道它浸润前的一个状态,就是肿瘤浸润前它是怎样一种表达状态,哎,我分析这个区域,我就知道免疫是否逃逸,免疫是否能识别这个肿瘤的一个区域。哎,我识别这个原位癌和浸润癌这个交接区域,哎,我就能知道它原位癌和浸润癌到底有哪些区别,哎,原位癌是怎么变成浸润癌具有这个清晰能力的。哎,等等等等,一旦把这个区域识别好之后啊,哎,很多问题分析起来就非常容易了啊,包括文章的一个纯肿瘤区域,当然这个片啊比较简单,大家看是吧。
31:01
这是这个正常区域显红色,哎,我们的正常区域都是显红色的啊,像这种区域。哎,就是癌症癌区,这个呢,就是交界区域,哎,这个很容易判断,这就是纯癌种样本了,大家可以看到它这个和这个这个癌样本就是癌的区域的样本和这个单核区域的样本,哎,大家看看这个颜色的变化。哎,记住这个变化,包括以后大家再看自己的片子的时候啊,哎,都会有个明显的认知啊。这个地方为什么要放上来呢?其实也是告诉大家一个道理,哎,正常区域它虽然聚成了一类,基本聚成一类对吧,但是哎,在这个交界区域,大家看这个交界区域啊,它是这个。浅呃,浅蓝色,天蓝色,这种颜色大家可以看到没,这个癌旁啊,也零零星星存在这种交接区域的这个癌细胞了,说明它在转变啊。这就是空间转录组分析说啊,告诉我们的很重要的信息,别看它是正常区域。哎,一聚类,哎,发现它也在慢慢的向I区转变,只是还在零星的发生。
32:05
慢慢靠近肿瘤组织的话,哎,就成堆的发生。哎,等到真正进到肿瘤内部的时候,大家可以看到,即使是肿瘤内部,哎,也存在这种肿瘤抑制性,它在剧烈的时候还是聚成了不同的类。对吧?说明存在肿瘤的一致性,这就是空间转录组做整合分析最最重要的目的啊,就是不同群之间,它到底的空间分布是怎样的,是不是具有前后关系?哎,他们的防御轨迹是怎样的?这就是聚类所要告诉我们的最核心的目的啊。哎,当然了,下面还有一些简单的其他例子,包括这个也是一样的啊,你看这个是这个区域,哎,N就是normal区。L是什么?L是交界区域,呃,T是TM,就是肿瘤区域,大家在分析过程中慢慢可以看到,即使是癌旁,我们认为的I旁,哎,也部分在像交界区域这种细胞类型转变。哎,即使是肿瘤内部,哎,它有有一定的抑制性,哎,这个抑致性呢,当然从表达上就有抑致性,当然从,哎,今天刚发了一个推文啊,突变的情况下也有抑制性啊。
33:12
就是说单细胞空间表达和突变都能从多个方向来体现肿瘤抑制性的一个现象啊,这个在无论是微生物还是HD。哎,都非常的,哎都非常的重要,哎都能体现这个数据的差异啊。右边这张图呢,其实就是说即使是肿瘤,哎,即使是这样一个切片,我们借助单细胞空间联合。细胞类型的一个排布,哎,也能判断出肿瘤在呃组织区域分布的一个一致性,大家可以看到这基本上都是肿瘤细胞分裂牙群了啊,经过这个联合之后呢,经过发现,哎,不同的肿瘤亚群哎,分布在这个组织的不同部位。哎,明显能感觉到这个组织形态,去识别和细胞类型,哎,存在强关联,包括聚类都存在强关联啊。
34:05
啊,下面这个图呢,也是一样的道理啊,大家在识别的时候一定要注意啊,大家不要把那个空间转录组,简单的聚子类也就完事儿了,一定要回到这个切片上和它对比分析,尤其是呃,当然现在都是多样本分析啊,分析的时候呢,一定要进行多样本的这个比对分析,哎,相互连着看知道吧。这样的话,把片子放在一块儿,数据放在一块儿,哎,很多问题自己就能看明白了,哎,就不需要公司给大家分析了,对吧,包括这个区域,最后这个区域。进行简单的分析之后啊,大家可以看到分析的时候啊,大家就能明显能看出来这个区域划分是怎样的,比如说这个区域啊,像这个这个区域啊,它明显是呈现这种,呃,有这种癌,哎,有开始癌开始扩散的这种现象。像这个区域呢,I已经很严重了,对吧,像这个区域呢,也是一个癌的区,像这种I区,I区都是这些癌,就是浸润癌了,哎,它进来了对吧,这个也是一个小的浸润啊,当然它还不是那么明显,像这些交界区域呢,哎,上面的这些区域。
35:07
哎,他还处于正常的一个组织形态的一个状态等等,这样的话,大家简单的进行划区之后啊。哎,很明显就像它一样画出来,当然很多时候我们没有参考答案的话,哎,这画一个大区就行了,比如说这个画大一点,哎,画大一点画大一点哎都可以啊,把它画出来之后呢。就像他一样。描述出来,诶描述出来之后呢,无论是聚类还是单细胞空间联合,都能明显看出来它的细胞分物和我们的画区成,哎,很强的这个关联啊,几乎是一致的。这就是体现出空间分析的一个重要性了啊。哎,包括现在HD分析,HD分析第一步干嘛也是划区啊,也是找那个病理主管或者经理让他们帮我画一画,哎画完区之后呢,无论是单细胞联合看细胞排布,还是看这个聚类的一个多样本聚类的一个分布,哎明显就能看出来很多的问题啊。
36:04
哎,这个也是简单的了,这个当然就很典型了啊,这种组织就很典型了啊,啊基本上都能看出来啊,这个时候呢,细胞排布联合之后呢,就能明显看出来有些细胞类型处于交界地方,哎,呈现出这样一种。哎,非常规的状态,当然了,两个地方你别看都是非正常区域,但是它细胞类型组成也是不一样的,说明在内部啊,还是存在一定的抑制性啊,即使是癌,它同样是癌,癌与癌还不一样啊。然后这是一个简单的一个例子啊,当然这些例子比较典型啊,大家在实际分析过程中啊,更可能是我这种例子啊,就是右边这个例子,这个组织前面大家切的,因为FFP那个样本啊。哎呀,不是那么规整的样本,呃,但是也问题不大,呃,大家在分析的时候根据它呃交际的一个地方进行哎,联合一个圈选,虽然不能圈的很细,但是大类圈出来就可以了,小类可以借助数据分析的力量,哎把它把它这个联合就是一既有图片又有数据分析啊,两者力的力量啊,两种的力量一结合,哎,明显就能划分的更好啊。
37:10
然后就是下面这个单细胞,单细胞这个投射啊,就是把所有细胞类型,单细胞的细胞类型,诶,投到空间上,看细胞的一个分布等等等等啊,也就是说在空间形态学和数据方面,哎,两者是互补的一个状态啊。呃,不是简单的说我只能用形态去划分,或者说我只能用数据没有啊,两者必须要结合啊,这也是分析的基本功,也是大家做空间转录的第一步,这一步无论做微还是HD都是一样的啊。呃,然后呢,就是端远门整合的一个方式了,哎,现在整合方式用哪一种呢。用哪种呢?呃,很多种啊,整合方法有很多,比如说呃,公司一般都是CC啊,公司一般都是CC啊,有的公司会harmony一点啊,用harmony,还有一些呢,用空间领域的方式进行整合,包括最新发布的方法,什么banky啊,对吧,还有一些其他的,包括那个,哎,就是前面讲到的这个。
38:11
哎,哪儿去了?哎,前面讲到的这个DSDVR啊,D不是这个啊,就说这个。SP special和G等这样的一个整合方式。那么文章中用的最多的是什么呢?目前文章中用的最多的呀,仍然是哈玛尼,也就是说空间本身确实存在一致性,哈玛尼在这个空间维度上的矫正,哎,效果还是相对会好一点,而且空间矫正有一个很明显的现象,就是能看出来。它不像单细胞,你哈姆尼矫正和CC矫正到底哪个好?呃,只能凭这个经验1,呃,凭这个经验,之前一直有人说,哎,矫正的好不好,就是正常和疾病啊,有部分重叠,有部分差异,这叫矫正的好啊。这个推论早就被推翻了啊,现在没有这样的说法了啊,但是空间呢,你作为矫正就能明显看出来。
39:06
为什么能看出来呢?就是说正常的区域。即使是不同的片子,他矫正完之后,它应该是,哎,同一类对吧,可能有些许差异,但基本上要是同一类肿瘤就应该是肿瘤,对吧。这样的话,哎,他立马就能看出来,就会体现出矫正的一个效果了啊。然后下面这张图也是一样的。啊,在矫正的过程中呢,一定要根据形态去,比如它矫正完之后呢,这个地方它明显组织形态和别的不一样,它仍然是一类,哎,像这种地方仍然是一类。像这种情况,黄色的是正常的平滑肌区域,哎,这讲也是,哎这他们剧烈,呃,矫正完之后呢,仍然是一类,哎,这说明矫正的效果就可以了。哎,空间就存在这个优势啊。呃,然后呢,就是说这个文章啊,这个文章大家有空看一看啊,他既用了CCA,又用了harmony,也就是说他前期判断的时候无法知道到底哪种整合方式好,哎,他就把两者都用了,用完了之后怎么办呢?诶和形态学匹配的去判断。
40:10
哎,用了CCA之后,把它的矫正啊,把它的这个联合分析结果呢,放到空间上,看看是否符合形态学的一个分布,如果不符合就舍弃,如果更符合就保留啊,所以说这个文章啊,用了两种方法,呃,分了分了这个分析了两批样本,一批样本用了CCA,另一批样本用了harmony,它是如何判断的,就是依据形态学来判断的啊,比如说这个地方。比如说这个地方,哎,它明显和别的不一样,它就是能聚成一个红色,虽然很小,但是它依然能聚类出来,哎,说明这个聚类结果,哎就非常好了啊,不过从目前情况来讲,哈姆尼大多数情况是非常合适的啊,这个在去年的时候也都讲过,哈密Y的分析方法当然是更,呃,相对于CCA是更好一点的,以后会不会出现更多更好的方法呢?呃,这个还未知啊,当下就是,呃,一般都是harmony的矫正会好一点啊,然后呢,这里面提了几个重点,第一个就是thread onrece的integrration,就是说threat自带的那个整合,包括harmony整合,两者整合方式呢,哎,当然偏向于harmony,但是有的时候呢,C Co会好一点。
41:20
这个时候呢,千万不要像单细胞一样就完事了,一定要结合到形态学,组织的一个区域,分布的一个状态,两者信息联合,哎,联合分析,判断出整合效果到底是好还是不好啊。哎,这就是一个简单的分布啦,等等啊。哎,这个就分布的非常合理了啊,它这个组织区域啊,明显你看这个地方就是黄色哎,或者深黄色等等等等啊,它的一个就是说它的一个剧烈的层次啊,和和这个组织的层次是差不多的,哎这个时候就说明分析的相当合理了啊,包括这个也是一样啊,像这个区域,哎正常的就应该是一类,这个区域也应该是一类,哎这个区域呢,正常的来讲,哎也应该是一类等等啊。
42:07
这个时候整合就非常好了啊,拿到整个区域呢,当然空间也偶尔也会注释啊,当然也可以不注释啊,不注释可以注释成什么呢?比如说逆式一二三,哎,它就是生态位,哎,也可以啊,但有的时候会注释,比如就知道它是什么区域了,比方说小鼠脑就知道它是什么区域了啊,一般就会把它注释成哪个区哪个区哪个区啊注释完之后呢,进行下游更加深入的,哎,更加这个难度有比较高的这个个性化分析啊。这里面呢,重要的一点已经哎给大家列出来了,就是说一旦数据存在严重的不合理现象,这个不合理哪来的,就是数据分析和组织形态学,哎,对不上,哎分析的不合理,这个就需要人工来矫正了啊。还有一个就是单细胞数据仍在存在,细胞类型缺失的情况下也要矫正,这种情况在单细胞联合的时候会用到啊,等到我们下节课哎,我们会讲这个联合的问题啊。
43:09
嗯,然后这就是文章的部分啊。做的时候一般要选选择哪个区域,这个不知道你在说什么啊,应该是组织区域吧,组织区域它不同的区域和大家项目,哎,大家做的什么样,什么样的组织样本有关啊。空间样本表达数据也要整合在一起吗?现在默认都是整合的啊,没有说单一分析了,当然有的人说我要不要我不整合行不行,直接单细胞空间联合可不可以?哦,也可以啊,也可以,但是这样的话进行多样本比较的时候就会存在一定的差异。这个剧烈图画的还挺好看啊,文章的图嘛,当然好看。空间整合是因为切边来自同一块组织的区域,不同区域吗?还是因为什么?这个和这个其实已经解释过了呀。
44:01
就像这个,就像这个这种一样啊。对吧。这种一样正常区域,交界区域,Icon区域,你当然要整合联合分析,看看它其中的差区别了,对吧。多个切边整合嘛,当然是多个切片整合,单一切边还要叫整合嘛,单一切边就是单个样本。好了,我们休息5分钟吧,休息5分钟来看看我们的代码部分,好吧,啊,休息5分钟。
47:29
3个表达数据合并是吗?啊,和单细胞整合的原理是差不多啊,不过它多了信息来源啊。7月5号的封装代码版具有find int answer, 有harmony,嗯,代码大家要会看啊,会看。嗯,我这前面发给大家的一个联合的代码。哦,那个叫什么?代码是哪个,里面有这个find in into.7月5号是封装整合。
48:01
7月5号上的什么课呀,有点忘了啊,回头再说吧,啊,有点忘了,7月5号上的是7月5号。阿尔玛的harmony啊,大家要会看啊,很多代码呃的设置要会看啊。哦,是这个公众号发的是吧,里面虽然用到了harmony,哎,我只是用了这个它CCA整合的一个效果,把它整合的矩阵给它设置成now。就是说大家可以看一下,会一步把它设置成na,我们要用它的原始矩阵来分析啊。好了,我们来看看我们的代码部分,当然代码部分啊,有R版本,有Python版本,R版本去年已经讲过了啊,今年我们来讲Python版本。呃,首先呢,我们要准备一个文件啊,这个文件是什么呢?就是这个三保健CSV这个文件。哎,这个文件呢,第一步就是我们的样本名称,诶告诉他什么名字PAPA就是路径啊,路径就是说我们的这个空间转入组样本的这个路径。
49:09
哎,空间转录组样本这个路径用来读取数据而用的啊。啊,R版本的我已经公开了啊,我已经公开了啊,在公众号上直接就能看啊,然后就是准备好这个文件之后啊,大家有多少样本写多少样本啊,有多少样本写多少样本啊,如果大家要分组,分组怎么分呢?比如说这个sample DS, 如果要分组,比如说多写一个。G分组啊,比如说这个是。呃,Normal.Normal啊,第二个也是normal。哎。啊,要把它分组,哎,就多写一点啊,不分就和我一样,如果说不分的话,就写成这样就可以了啊。
50:00
啊,写成这样就可以了,然后呢,我们来读取数据啊。至于说R版本和Python版本的区别啊?没有区别啊,算法是一模一样的。啊,算法是一模一样的啊。呃,Python也是harmony啊,也是在PCA轴上进行矫正啊呃,取高变机啊,各个方面啊都借鉴了2哎,所以它的方分析方法都是一样的,分析出来的结果呢,也几乎是一致的啊,这个我测试过。然后我们首先加载第一步呢,哎。给大家的脚本是传参类的脚本啊,这个没改过来啊,这个地方我们改一下啊,这个我们主要写这个。还早的啊。然后呢,我们第一步。哎呀,这个地方都没改过来啊。Special.Sample.
51:00
绿fell啊。Egg.还有一个就是。Name.这个呢,就是。开始啊,然后是输出路径,然后是精度了。然后我们来指定一下啊,指定一下我们的样本,样本就是刚才大家准备好的样本,就是这个三宝点CSV这个样本啊。哎,大家可以看一下啊。第一步呢,我们来读取啊,读取我们的样本信息啊。哎,很快啊,很快,Python的运算速率啊,比R要快得多啊,快得多,这个时候呢,我们的第一列就是我们的样本名称,第二列就是这个数据的一个路径。接下来呢,我们就要逐一读取了,注意我们这里是联合分析啊,联合分析大家如果看到那个公司的报告啊,有这个单样本分析的一个结果,单样本分析呢,它也会降为聚类差异负极,但是这种情况呢,是在样本内部。
52:05
啊,现在不过随着呃数据量。呃,现在不过是随着数据量的偏大呀,大家越来越多的倾向于多样本联合分析了啊,包括空间也是多样本联合分析一下,毕竟这个要多样啊,多分组比较,Normal和to欧门都要比较,哎,这个时候比较呢,必须要联合啊,在放在把它们放在同一维度下进行一个分析啊。哎,接下来就是读取了啊,读取。哎,一样的啊,一样的。哎,这里面其实建了一个建职队啊建职队。这里面建了一个建筑队啊,每个样本指定了它的一个。数据路径。建值对啊,就是这个潘森版本的字典啊,然后呢,就是读数据读取了,大家注意数据读取的时候啊。嗯,和R版本的思路其实是差不多的。
53:04
呃,首先第一步呢,要进行一个每一个样本的读取,呃,读取完之后呢,对它的矩阵啊,图像啊,进行一个联合啊。这里面比单细胞麻烦的一点就是既要对数据进行联合,也要对图像进行一个区分啊,不能像单细胞一样合并成一个矩阵就可以了,新版的那个THV5为什么?呃,有了这个layer这一层面了。呃,就是在于考虑到单个样本也有自己独特的信息啊,如果简单的进行矩阵合并,很多这种独特的信息就没有了。一项空间就没有了,你合并之后那个空间坐标呢,空间坐标是无法合并的,呃,这个时候就会存在数据的误判啊,所以说呃,在分析的时候添加了lay页的这样一种方式,呃,当然了,原始的SPV4版本也是可以分析的。接下来呢,就是每个样本的读取了啊。读取每个样本。形成一个列表。
54:00
这个代码大家要看一看,第一个第一行就是简单的读取它的数据,哎,大家都知道这个fire内啊,就是刚才建的建字队那个。这个地方。哎,默认的时成路径啊,大家默认的时成读取就可以了。哎,格式就是这样的啊。有这个special啊,有这个这个文件就可以了,H5文件和这个special文件就可以了啊。这个呢,这一行呢,就是为什么呃,去除重复的基因名,哎呀,这个大家应该都了解吧,就是说很多基因名是重复的啊,但是他们的enem或者是这个HGOCIID啊,是唯一标识符,要把它这个呃区分一下。然后呢,这个地方是为了付给他的样本名称。默认读取的时候是不给样本名称的,这个时候我们要专专门的起一列,哎,让它读取我们的样本名称,以此来代表这个8扣的是属于哪个样本。而不是胡乱的,哎呀把它串号的。
55:00
哎,然后呢,就是说呃,也是一样的,付给样本面,最后呢。哎,删除这个一些无效信息啊,删除这个无效信息,最终呢,大家会拿到一个列表。哎,拿到一个列表,哎,5个数据。大家看看到5个数据啊,不是4个数据。哎,我们来看第一个。哎,他是一个。An登塔一个an data的这个格式的一个文件,哎,它的OBS存储了这个。OBS存储了这个基础的一个信息。哎,就是说这个,呃,八口的一些基础信息,当然这里我们还有没有进行分析啊,只是告诉他是不在组织内,以及行名和列名,哎,行的坐标和列的坐标等等,然后是2,哎,每一个都读到了啊,每一个都读到了啊,就是四个样本都要读到。
56:05
哎,把它放在一个地方,接下来就是要进行Python版本的一个整合了,整合的时候呢,这个地方前面为什么要给他一个样本名呢?就在于整合的时候啊,要依据样本进行一个区分。哎,不能串行不能串啊,这个地方就进行一个整合啊。整合之后呢,我们就会拿到一个联合的一个结果,联合的一个样本,大家可以看到之前呢都是。哎,三百三千八百多,4600多,3600多等等联合之后呢,哎,把所有的就放在一起了。OBS啊,看一下,哎,这个地方我告诉他是哪个样本来源啊,这就是联合的一个基础的操作,不过这个地方啊。这个地方类似于那个单细胞的那个末子。哎,就是墨子。啊,就是把东西啊举着,简单简单的进行一个合并分析。嗯,不过呢。
57:02
这个合并的过程啊,它涉及到图像的一个处理。嗯,相单细胞简单合并就可以了,但是呃,像这个Python版本或者R版本,它在对空间转录组进行一个合并的时候啊。进行合并的时候。嗯,它对图像的一个处理啊,是不能简单合并的。哎,他把它要把它放在这个规整的地方啊,该。把它放在该存在的地方,等等等等,不能像这个木子一样把它合并,哎,这个地方为什么简单的用这种方式,就是在于一方面。呃,数据矩阵要进行一个默制,另一方面,哎,图像信息要把它放在该有的位置啊。哎,接下来就是一些简单的分析了啊。简单的分析呢,大家,哎,基本上和Python版本是也差不多的,哎,Log normal.然后skill。哎,这些都是一些基础的一个操作了啊。
58:00
嗯,大家看到我这个样本4个量,4个样本合并之后呢,大概的细胞量是多少。是一万不到6,一万不不到6000,哎,但是他在基础分析的过程中啊,哎,非常的快啊,非常的快。呃,包括现在这个,包括现在都要找高贬基因啊,默认也是采用那种,哎,Threat那种threat那个方式了,Threat那个找高贬那个方式啊,我们来看一下。它默认也是啊。Thread v3啊,V3和V4找那个都是VST那种方式啊,现在默认都是这种了,知道吧,都是采用threatread,看来thread在找高点基因个,呃,这个方向啊,是比较优秀的哎,导致拍摄版本也借鉴了他啊。然后接下来呢,就是一些,呃,包括一些简单的降维聚类了。
59:00
嗯,这个也是PC啊,PC.如果大家的分析啊,方法和R版本是一样的。啊,如果是一样的。分析出来的结果几乎是一致的啊,这个我在之前都有。这个地方怎么还那个呢。我们来换个节点啊,换个节点。嗯。啊,很多任务跑的时候啊,就会存在这个问题,就是说呃,本地跑呢,因为每个公司啊,给本地设的任务就是让你做简单任务。知道吧。呃,不是让你。啊,不是让你跑这种大型任务的,大型任务都是要投到后台的。
60:09
随便换一个吧,换成25吧。化妆。哎,我们的分析录音在这儿啊,换成25。简单的过一下我们的基础啊。有合适HD合并脚本吗?在我讲课的这个时间点啊,在我讲课的这个时间段,HD目前还没有接到一些,呃,需要整合分析的一个需求啊,从这个实际情况来看啊。HD合并难度其实是比V字母要大的。而且合并的难度大在什么地方呢?首先单样本分析就比较的麻烦。呃,因为单样本分析的那个并8,呃8μm或者说。
61:03
啊,8μm或者说16μm,它的基因数达不到单细胞期,这个时候是不是像它像真正的像官网一样那种说法。呃,用这种类似于单细胞的这种分析,目前还存疑啊存疑。当然方法一直在发展,方法一直在发展啊,最新的一个HT推,我也不知道大家看了没有,哎,已经有了很多的进展了啊。就是说还是以2μm进行分析。还是以2μm进行分析。哎,两微米,它相当于一个图像图片的一个像素了。如果这个2μm包含在细胞内,那就保留,如果这个2μm的点呢,没有组织覆盖,或者说是空的,或者说没有细胞覆盖,哎,要舍弃通果这种简单的分析呢,哎,把该氏细胞的。这个两微米精度啊,给它合并成一个细胞。啊,如果不干呢。
62:02
哎,如果这个区域,如果这个2μm呢,不是细胞所在的区域,哎,就要舍弃,这样的话就相当于把一个细胞啊,尽可能的在2μm的精度上进行了一个合并了。在这个基础上进行单细胞分析是更加合理一点的啊,不过这个方法目前还没有纳入到这个公司的一个流程层面啊。这个还需要再考察考察啊,看看尤其是一方面是经验啊,另一方面是随着我们的这个认知的一个提升啊,看看有没有更加更多的思啊。那个石生最新的那篇HD的文章,大家有空可以看看啊。有空可以看看。其实嗯,他也是借鉴了这个。啊,也是把那个HD啊当成那个微任务那种方式分割,哎,用这个I cctd的方式,哎,进行了节简机分析,然后呢。判断出,哎,如果样本质量好,实验没有问题的前提下。
63:03
哎,实际上没有问题的前提下,8μm近视于单一个细胞,但是也只是近视啊,相似度有多高并没有定论,还是存在很大的问题啊。呃,包括目前这个,目前这个。呃,目前这个就是说当下的这个HD的一个分析呢。当下的这个HD的分析呢,目前还是单样本居多,因为现在做HD的客户相对少一点啊,也就是说一个样本先试试。至于整合的话,哎,还需要在摸索摸索啊,不可能说它的一个,呃,基因表达值中位数只有一两百的时候进行,哎,这个整合分析的还需要再看一看。啊,不过截止到这个时间啊,不过这个呃,技术发展其实很快的啊,一两个月的时间,很可能就形成一套相对完善的一个分析策略了。接下来我们harmony联合分析啊。
64:14
3个片子,哪个做h he背景用哪个片子呢?你在说什么呀?每个片子都有自己的组织,组织切片。20吧,我们来少一点啊。哎,然后就是这些基础的操作了啊,这个大家都应该都。啊,应该都知道了啊,就是简单的哈密整合,和R版本其实是几乎一致的啊。
65:13
My neighbors啊,S.呃,淋浴啊,接下来就是一些简单的操作了啊,用map提示你等等。类的呢,就是聚类啊。底部的he片子不是需要一个吗,用。哪个底部的片子。0.5啊。哎,接下来就是联合之后的一个优脉图了啊。
66:07
然后我们的路径设置在。当前路径吧。哎,来看看map的一个结果。哎,大家看这个u map的结果,当然这种结果啊,放在文章里面多样本联合是可以的啊,但是我们真正要看的是图片,是这个空间的啊,不是看这个单细胞的。类似于单细胞的这种结果,我们不看这些啊。主要看空间。
67:06
哎,我们要画这个空间图了。那我们看看啊。诶,大家可以看到这个空间图了呗。你看。每个结果呢,就会拿到这个相似的一个,呃,联合分析的一个聚类的结果了啊,这个时候呢。哎,大家如果是公司的一个教程,就会跟着这个公司的教程继续往下做什么差异复集啊,但是对于空间来讲,差异复极并不重要啊,群与群之间的差异复习并不重要啊,不是分析的一个重点,呃,还有什么呢?就是刚才提到的啊,大家在分析的时候呢。
68:07
哎,联合分析一定要什么。和这个图片相结合啊,比如说我们这个。喂。比如说啊,比如说我们剧烈聚成了这个现象对吧。聚成了这个现象,那么和形态学到底符不符合呢?我们要把它这个图片拿出来看看,比如说我们以LEVEL2为例啊。哎,我们以这个低精度的吧,看看低精度。啊,为了看的方便呢,其实很多时候啊,大家要把它放在一起看啊,比如说LEVEL2。哎,我们来看LEVEL2的一个图片啊。大家可以简单的看出来,哎,这个大致可以分LEVEL2啊,大致可以分为三个区域啊,像这个区域,哎,这是一个特殊结构。
69:06
哎,大家可以看一下,它单独聚成了一类,联合分析之,联合分析之后呢,仍然是一类,而这些区域呢,哎,就是刚才提到的正常的平滑肌区域,哎,它也聚成了一类,对吧?这个区域呢,是H肝癌,这是肝的样本。哎,肝癌的肝癌的区域,哎,它基本上也处于一种哎明显分界的一个现象,并且内部存在一定的一个一致性。哎,这是这个样本,这个样本粗粗的看来是可以的啊。我们呢,再来看一啊。一呢,大家可以简单看一下啊。这边呢是一些H区,不过这个L分布的不太规律,呃,像这种地方。
70:00
呃,这种地方都是一些浸润癌存在的一个地方,大家可以看到,基本上它也聚成了一类属于交界的一种癌,这个地方呢,你看大家大家可以看。癌和正常区域好像是正在处于这种倾斜的状态,也是一种这种交际的状态,哎,这种基本上可以认为它是一个合理的现象,包括从大类上来看,你看这个区基本上以这个为交界,但是这个交界不是很明显,正常区域也已经有癌了,但是大类从情况来看,基本上从这个交界来看是这样,呃,基本上它也是呈呈现出这样一种分布,内部呢,确实存在一定的一致性。哎,它的分布不像那个刚才那个片子,哎那么明显,包括这些黄色的区域啊,其实已经是黄色的区域,哎,黄色的区域你看基本上有一些I存在了,已经。哎,已经有一些癌存在了,你看这个地方。呃,颜色偏有点深的这种地方说明已经浸润进去了啊。等等等等啊,大家联合之后呢,一定要对照着它的形态学切片,哎,看一看啊看一看啊,千万不要联合完了不管了啊,这个是这个是分析的大忌啊。
71:08
不能这么做。那我们来看看4。哎,是的话,基本上也是想样一种这样的状态啊,基本上和这个沿的交界啊。这个交界明显是存在着一种独有的形态啊,这个呢是I区啊。当然也有一些就是两组织,两种组织相互交叉的一种现象。包括从大体上来看。哎,是可以接受的一种分区结果啊。这个时候呢,不能像单细胞一样,每个群都要有,并且还要相互交叉的这种形态,大家看这个LEVEL3,它就只有几个群对吧,LEVEL2和LEVEL1啊等等等等,他就会发现有的群是没有的,这个在空间上是正常的现象啊,不能像单细胞一样,每个群必须12345678都有,这是不可以的啊。对空间整合的要求呢,是我们分析的第一步,一定要精准啊,一定要精准,千万不能像单细胞那样的一个思啊,空间的思路一定要非常明确啊。
72:09
像这个地方呢啊,虽然我们没有借助病理学家,或者说借助这个病理的一个主管等等等帮我们划区,但是基本上从这个形态学上,我们可以初步的判定整合效果是可以的啊,这也是为什么前面提到了哈密尼的整合方式,其实是呃相对比较好的啊,相对比较好的,这也是公司在运用的时候呢,对这个呃,大部分采用哈密的一个原因,当然也有公司采用CC啊。业务。公司采用CC。嗯,这里面呢,一般联合分析分析到这个,大家做项目的时候呢,联合分析分析到这个地步,哎就可以了,至于下下游的这个差异腹肌,呃,做项目一般是不做的,那么接下来干嘛呢。哎,接下来一般就要单细胞空间联合了,然后识别交界区域,对交界区域的细胞成分进行分析等等等等,下面的一些超高性超高的一些个性化分析就要哎,立马就要上来了啊。
73:05
但是第一步一定要做的精准啊,第一步做不准,那可就下面就全是错的了啊。好了,大家有什么问题吗?对于空间这个图像识别有什么问题吗?我们来看看啊。不还是每个样本单独看吗?没看出联合分析的意义啊,我啊你我觉得你这个好像经验还是太少了,哎,我刚把这图片删了。刚才哎哟,我刚把这个图片删了。再保留一下吧。刚才看了单药门切片对吧。单样本的,哎,是符合形态学的对吧,接下来干嘛。接下来就要跨组织看了啊,跨组织虽然没讲,但是我觉得大家应该都看到了,比如说这个组织。前面提到了这个区域是癌对吧?这个区域也是癌对吧?这个上面也是癌,大家可以看到这个4个,虽然是4个这个肝癌的样本,大家看到这个癌分成了单独的一类了吗?有交叉吗?
74:15
哎,没有对吧,有的很多都是个性化的,哎,但是在正常区域,你看这些正常的区域。哎,他就聚成了。它就就是说正常的区域,四个样本中,正常区域它就聚成了一类,但是肝这个H却没有。哎,为什么有一致性对吧。如果像单细胞的话,这种抑制性是不是认为是批次呢?但是在空间上来讲,这就是对的啊,然后像这种黄色区域,黄色区域这个刚才说了,这个是一个,呃,单独的一个区域,像这种,哎,也是一个,刚才提到了它联合分析之后呢,这些地方已经有一些癌的浸润了,说明这个地方也是癌浸润的一个一个地方。像这种地方都是癌浸润的一个地方,但是在空间分析的时候啊,要分析的更多一点,不仅要分析这个,呃,样本中这个有癌浸润的区域的一个分布。
75:06
也要分析它的周围邻近的一个区域,它的一个分布,你像这个临近区域还是正常组织,但是它分布了一个黄色区域,黄色区域是它独有的,哎,这个黄色区域哎不是独有的,黄色区域是1和4独有的,对吧。啊,不是黄色区域啊,这个这个这个叫棕色区域啊,是1和4都有的,它和这个黄色区域存在交接,而另外的区域却没有,这种区别是什么?就是下面这些个性化,就是课题思路的一个原因了啊。单样本分析和多样本分析一定要会看啊,如果说你做过单细胞,应该不会问出这样的问题吧?啊,当然了,这是基础分析的一种啊一种。哎,对,这位同学说的很对啊,读个样本之间能够横向比较,哎,很好,哎,说的很对啊。还有一个。嗯,有没有其他的问题了,这些问题基本上都回答过了啊。
76:04
对thad版本有要求吗?Thread v4可以吗?哎,我基本上用都用的read v4啊。V5用的不多啊,V5用的不多,那个layers啊,嗯,对大家来讲,尤其是对公司的人来讲,其实难度还是挺高的,如何好好的运用好它,目前还没有一个很好的模板给大家参考啊,当然那个lays也非常重要,保留了单个样本的独有信息。啊,这个也是非常重要的啊。
我来说两句