00:04
哎,好。啊,时间到了。我们来上我们的第26课,关于高精度数据的基础分析框架。啊,其实高精度数据啊,并不是一个新鲜的概念了啊,大家都知道,哎,在之前呢,华纳呀,百麦克啊都出过高精度数据。对于华纳数据的一个分析策略呢?哎,之前在推文里面写过,并且详细过,详细的展示过他们的报告内容。华纳的一个策略是什么?哎,把它合并成一个单细胞剂的一个。哎,Sport叫super sport, 哎百麦克的也差不多。这样的话,如果说是合并成接近单细胞级,比如说接近什么。10~20μm之间,诶认为是单细胞级。哎,这个时候呢,怎么办?哎,就把它当成单细胞来分析了。哎,和单细胞分析方法都是一样的,什么降维聚类差异,负极轨迹通讯等等等等,哎,就是一模一样的了。
01:04
嗯,当然这种方法呢,目前证明是不太,哎,不太正确的啊。啊,看一些华纳发表的文章啊。哎,看一些华大的发表文章的话,如果大家有,哎看过的话,就会发现华纳的那个。哎,精度啊,一般用采用多少。哎,一般采用,有的文章采用并20。B2是一般是多少?哎,1~3个细胞。哎,这个时候也会节卷剂,用RCTD啊,节卷机,呃,像什么肝癌啊,还有发的那些高峰文章一般都用多少,哎,病50病60等等等等。合并到的sport的远超单细胞体,所以它的分析方法就是个性化的分析方法,已经和那个微TH差不多了。哎,这是华大的一个策略啊,当然了,之前也提到过,华大有的时候呢,它内部有一些非常厉害的人。是结,可以结合图像识别的方法,哎,把整个的空间切边,识别出单细胞的一个边界,拿到真正的空间单细胞及数据的。
02:07
啊,只不过只是他们内部研发项目有啊,并不哎商用化。而且华大的很多的方法啊,都是可以借鉴的,它作为国内哎最好的一个空间旋转楼主平台哎,还是非常值得大家试一试的,不过对分析要求是比较高的啊。那么接下来就要来到我们这个HD的这个平台了,哎,大家都知道HD平台是今年呃去年年底我呃去年年底已经说要今年要推,结果今年4暂确实哎推出来了。嗯,第一个呢,就是说他刚推出来的时候,哎,怎么样。哎,引起了非常大的一个轰动,对吧,现在各个公司都开始陆陆续续的引入这个。嗯,HD的一个平台,并且开始把它诶进行当成一个产品往外售卖了。哎,这里面呢,对他的一个,当然大家对实城的认可度是非常高的,对吧?哎,他推出的低精度平台呢,哎,高精度平台呢,哎,大家非常认可。
03:07
呃,主要是什么呢?第一个在于哎,时长确实花了大价,花了很大的代价。哎,用于研发,所以它的产品质量确实是过硬的啊,大家都看到了,嗯,无论是单细胞,无论是空间,无论是Z,还是现在的HD。产品质量确实过硬。第二个是什么?哎,第2个确实它的应用,呃,因为啊实诚在国内的市场已经占据的非常大。啊市称VI姆诶也占据了非常大的市场。师生的HD啊,它并不需要买入新的仪器,直接在原有的微呃仪器上做就可以了。这是为什么啊,引入成本非常低啊,所以是这也是为什么大多数公司引入的一个原因。而且随着这个哎,大家越来越接受度越来越高,对吧。哎,越来越多的人开始接触这个HD的项目。
04:00
哎,包括我现在也开始分析HD的数据了。嗯,其中呢。嗯,其中呢,在和这个HD数据和华纳数据进行比较的时候啊。啊,其实有一华南还是有一些优势的。比如说HD数据,它的一个精度是2μm,对吧。那华大呢?划的是220nm。哎,它的精度是超过2,呃,是高于2μm的,也就是说如果华纳下一步发展的话,能够很好的结合图像信息进行图像识别。拿到单细胞级的空间数据,哎,它的优势是要高于HD的。哎,就看华大下一步该怎么做了啊,对于我们真正的这个客户来讲。哎呀,一般来讲啊,大家都一般认HD,哎,多一点华大平台也有在做啊,还有人拿这个华大的数据和HD的数据什么一起分析啊,也有。只不过啊呃,真正的比较下来的话,还是各个平台内部啊,他们之间的联合分析会好一点。
05:05
哎,这个图片呢,就是HD数据的一个,哎,展示了,大家可以看看啊,很明显感觉出来。哎,它的结构更加的精细化了,不像那个微那样是个圆圈了,哎,现在很多细节部分都可以看得到了。嗯,2μm的精度,当然了,分析出来是合并成8μm或者16μm这样一个精度的话。类似于图片的一个像素了。哎,它可以相呃相比V字母,它的精度划分会非常的高啊。展现的这个,呃,空间域的一个识别呢,就非常好了,类似于什么呢?类似于那种原位平台地,就是很少探针的原位平台那种模式了。哎,然后是和微字姆的一个比较啊,当然微字姆的话大家都知道啊,是一个圆圈对吧,圆圈它的精度并不高啊,55μm的径啊,55μm的一个直径和150μm的两点之间的一个距离啊,这个精度其实挺低的啊,挺低的。
06:06
这就是一个简单的一个划分啊划分。这个就是V字姆的一个,哎,简单的一个,哎,测序的一个方案啊方案。这个据说啊,据说这个方案也是借鉴了一些国内的,比如说华纳的那样的一个思路,他觉得这种高精度平台确实很少,非常有这个商业价值啊,但实际上呢,哎,他确实是。呃呃,当然实诚也做到这一点了,哎,并且配套了很好的软件,但实际效果怎么样啊,目前来讲还没有一个定论。哎,这个就是它的一个策略了,哎一样式,哎一个样的。啊,一个片子上放两个区域,哎,放两个区域,每个区域大概哎,边长是6.5μm 6点,呃,6.5mm。哎,整个的一个探针覆盖率啊,大概就是这样的,它的最小精度是2μm。而且是这种方框型的说明框与框之间是没有间距的,哎,完全全覆盖的。
07:01
全覆盖的一个状态下,哎,一般它合并成8μm,为什么要合并成8μm,就在于前面讲到,我一般单细胞级大概就在这个范围了。像免疫细胞还会再小一点,哎,大多数细胞就在这个范围了,而且这种,而且大家要明白啊,这个实称HD,它主要是为了什么。为了那个FFP切片准备的。F fip切片都是什么切片?哎,都是肿瘤切片。哎,肿瘤细胞大概就在这个范围,肿瘤细胞比较小,而且呃比较致密,哎,所以说它专门设计了这样一种平台,用来分析肿瘤样本啊,这是专门为肿瘤样本做准备的。嗯,第二个呢,就是说有的时候啊,它我们可能会,哎,大家都听说了,有的时候啊,会把它合并成16位。啊,16μm的精度呢,当然比8μm要多4个了是吧。诶,四个8μm,呃,做成了16μm的精度,这个精度啊,目前在公司层面以及诶。出报告啥一般是不用的,哎,大家普遍都认8μm 8μm的一个范围啊。
08:05
这是HD的一个简单的一个策略。哎,这边呢,就是一个哎,简单的示意图了,大家可以看到啊。大家可以看到什么,首先第一个。这幅图他想说明什么意思呢?这是第一个。哎,8μm的精度其实可以直接定位于单细胞了,所以在定义的时候。呃,官方给了一种方案,就是说哎,每个点就直接用马克定义就可以了,所以大家看到的都说,哎,看到这个的时候,空间上基本上就是细胞类型的分布了。哎。它所采用的一个例子就是VHD,哎在分析这个FIP这个啊,导管癌的这个,哎秒这个乳腺癌,乳腺导管癌的时候这样一个片子啊。哎,全主落入,哎,通过这种低精度的平啊,高精度的平台啊,确实在识别细胞类型上有一定的优势。哎,有一定的优势,尤其是在识别到这个,从空间数据上直接识别单细胞,直接识别这个细胞类型,哎,高精度平台是具有一定优势的。
09:06
前面提到过,如果说我们识别这个整个的完整的细胞在空间上的一个形态啊,如果说错误是0。哎,完全的对像Z内那样,哎经过图像分割识别细胞边界那种做法是100分的话,哎,简单粗暴的合并了,比如说合并成8μm 16μm这种的,哎,是60分。呃,60分基本上也是可以用的一个状态,所以在识别细胞类型上还是比较有优势的,像微的话,如果我们呃用这种呃马可定义的话,几乎是定义不出来的,哎,但是像这个精度8μm啊,16μm啊,这种精度的细胞,哎用marker就可以。哎,大部分就可以定义出来了。哎,再结合一定的图像,哎,区域的一个能力,比如说这是什么,哎,上皮区域,免疫区域等等,哎,再结合一些图像区域的一个能力,哎,基本上就可以直接识别出该有的细胞类型。
10:00
这是高精度平台一个比较显著的优势啊。这个就是微热的一个策略,大家看一下微热这个策略大家,哎,简单回顾一下。点与点之间,哎是100μm,每个点的直径呢是55μm,那么在这样一个哎分布条件下,大家都知道每个点内大概还有2到呃10个细胞,通常是2~5个,对吧。哎,点与点间呢,中间有个空隙,这个空隙是45μm啊,也也这个啊,很多的信息是捕获不到的啊,这样的话,每个点大概捕获的是多细胞状态。那么在呃,微。啊,那么在微平台上,哎,怎么样,单细胞联合是必不可少的一步啊。哎,所以说是很多时候高分文章啊,哎,一直给大家强调3TO location, 这是一个高分必备,就是高分文章标配啊。
11:08
当然了,现在不知道这个HD是否能取代V字母啊,现在也有人在做V字母一样的啊,所以呃,再加上之前很多人做了V字母还没有发表文章,所以微ISM姆的分析需求还是比较大的,它的一个捕获策略呢,威ISM姆的捕获策略,第一个哎,它可以捕获这个冰毒样本,就是新鲜样本。对吧?啊,这种POLAA捕获,另外一种是什么探针法,就是fipp,这种捕获V字母也是可以实现的,所以说两种空间切片都是在V字母上可以实现的,哎,它整体的一个探针设计,哎,大家可以看一下。P5P7呢,就是这个测序的一个接头。哎,真实的瑞子1,哎,空间8扣的u mi, 哎,这个结合区域,当然有的结合区域是poly+poly这种,哎,尾巴式的结合,还有这呢,就是那种探针式的结合。
12:01
哎,瑞德2等等等等,构建出了整个哎,完整的这样一个序列,首先大家要记住它的顺序,哎。基本上是8口的u mi力地器,或者说是。哎,探针,哎,最后呢,结合真实的有效的瑞子,最后结合到sample index, 哎呀,最后结合到P7。那么对于HD的一个策略呢,HD的一个策略大家可以看一下,哎,这是它的一个精度,哎精度当然非常高了,但是它在结合探针的时候,大家可以看到,哎,如果大家将来要做这个做什么,哎,研发类的一个工作的话,哎这种就非常小心了,大家可以看到。上面这个地方是什么?哎,测序的瑞兹1就是用来测序的,哎,测序用来的8口的u Miu mi, 但是看到HD的一个策略是什么。哎,U mi和8个的它反过来了,它反过来了,他为什么要反过来呢。哎,将来大家如果做这种研发类的工作,这一点想法就非常重要了啊,尤其在探亲设计方面,诶,想法非常重要,这个u mi为什么要设计在8扣的之前?
13:09
哎,是非常重要的一步,也就是说它只有设计成这样,才能真正实现它的高精度检测。哎,为什么呢?U mi为什么放在之前,把狗的放在之后呢?哎,这个大家留给大家一个悬念啊,留给大家一个悬念,大家可以哎,收获一些关于实生的一个资料就明白了,但是如果大家不关心这个,哎,可以不知道,但是如果大家将来会从事一些哎,比如研发类呀,谈真设计啊,平台设计啊等等工作,哎,这个想法就非常重要了啊。这是它的一个策略,哎,大家可以看看,哎,它的补货啊,呃,基本上现在F,呃,HD的一个接收样本都是这个f Fi PE的,就说探针阀补货的。哎,结合固定区域探蒸发不活,它主要就是为了医院的大量堆积的FFP样本做准备的,也是为了癌症样本做准备的。
14:00
刚才提到了癌症样本大部分都是癌细胞,癌细胞呢相对比较小,而且形态学非常的什么规范,哎,它的结构,它的那个细胞结构啊。非常的规整,哎,所以他这边采取了8μm这样一个规规整整的一个策略,用来分析这个f FIB的这样一个样本。哎,分析到这个地方呢,大家就要明白了啊。等一下啊。接下来呢,我们就看一看关于他的一个,哎,官方发布的一些手册吧,大家在拿到一个真实的新的平台的时候啊,新的平台的时候干嘛?哎,不用着急去分析,大家把一些资料啊,全部拿过来看一看,哎,项目公司也是一样的,拿过来看一看。首先我们来看看它的一个简单的官方介绍啊,关于微啊,关于微的介绍,刚才提到了,哎是这样一个策略,Z呢,哎,它稍有不同,哎会采取这样一种。
15:00
哎,相反的一种设计,包括在。包括在这个设计的时候,大家可以看到瑞达2它插入了多少。啊,2:90啊,但是这个HD呢啊,只有50的一个长度,这就是探针法和polydt在补货上的一个差异啊,补货上的一个差异,他要考虑这种RNA,哎,大量降解的情况下,哪些区域才能稳定的捕获到的这样一个策略。哎,接下来呢,会有一些详细的介绍,包括我刚才提到的这个探针设计,哎,它也有提及。啊,包括它的一个测序深度等等内容,哎,接下来呢,就是一些常见的,哎,数据分析了,数据分析了。在数据分析的过程中啊,有很多需要大家哎呀,值得比较关注的地方。哎,比较关注的地方,第一个是什么。哎,他的一个。哎,基础命令就是比对的命令,不知道大家在这个。不知道大家在这个。哎,之前有没有做过这个微任务的一个内容啊。
16:02
为什么,其实前期啊。做这个IP切班会有一个图像比对的一个过程。哎,就是这儿。打开之后呢,我们就要比对,当然可以比对低精度,也可以比对高精度,像这个里面它有了高精度的一个选项,这个时候呢,就会有哎逐级下降哎进行比对的一个内容,我们在分析过程中,如果依靠这个。哎,如果依靠什么一靠,哎,机器的自我识别啊,很多识别那个位点都是有点错位的,这个时候需要我们自己把它诶矫正过来,形成专审文件。真正的在分析HD的时候采用的目前是space r3的这样一个软件啊,1和2啊,123都可以做微,但只有3可以做HD啊,输入的地方呢,基本上也是一些常见的,如果大家做过上游的话,这个代码应该非常熟悉啊,输入我们的参考基因组,输入我们的探针集,哎,输入这个s slide的编号就是我们的芯片的一个信息啊。
17:01
然后呢?这个地方为什么要放这一点呢?这个地方就是为了放这个。Special a+2,这是用来做整合的,但是呢,目前来讲,目前来讲啊,V字母HD不支持整合。哎,不支持账号。哎,为什么不支持呢?第一方面,它的第一个还是对他整合的认识还没有很深入的一个理解。哎,就是说如果我们是八微米,哎,如果我们是八微米的话,哎,它的基因只有两三百这样的一个样子,那这那这种两三百能不能整合呢。算法上完全可以,但实际上这种整合是否有效,还乘1啊,乘1啊。第二个就是说,哎,算力要求非常高啊,算力要求非常高,单样本R都分析不了,哎呀,R分析都非常的费劲,那么如果再再加上整合的话,哎对计算机的性能要求就非常高了啊,非常高了。
18:00
然后呢,接下来就是要运行我们的命令了。哎,这些都是提交的命令,我们主要关注什么?哎,关注我们的命令。其中呢,这个史皮斯range,这个count,就是我们比对的这个啊,分析方法已经有了非常成熟的一个参数,有一些重要的参数啊,大家了解一下即可。第一个就是这个ID,就是我们的样本名称,哎,参考基因组是否产生BI文件。哎,图片信息,包括这个比对的图片信息,大家要注意啊,HD需要输入2个图片信息。一个是它的一个,哎,明场和暗场都可以啊,一般是暗场它那个图片啊,是T的那种超大的那种图片。哎,就是非常哎精确啊,就是那个像素非常高的那个图片。还有一个image子呢,就是我们诶基本上是一种低精度的图片,呃,JPG就可以了啊,把它输入进去之后,哎,就可以比对了,包括输入我们的s slide的编号,就是我们的芯片信息等等等等。
19:01
啊,其中呢,前面的重要参数啊,大家应该都见过,其中有一个参数就是多了一个参数,就在于这个这个b size.呃,时头默认会出这个8μm16μm的冰塞,对吧?但是啊,有的时候我们需要合并成其他进度,比如10μm。12μm等等,哎,需要在这个参数里面进行指定,哎,真正运行的一个示例呢,它给了一个例子。哪儿去了?哎,这就是他的命令了,基本上占住这个命令就可以了。哎,大家把它复制下来跑就行了。哎,其中呢,参考基因组我们的数据。哎,探针,探针是可以自己下载的,哎,它提供了一个下载的一个路径,包括大家在做微M的FIP也是有探针的,哎,也是这个一样的,然后是s slide编号,诶,哪个区域刚才提到了每个器间有两个位置,哎,Ae和be,诶哪个位置要指定,然后是settle啊,就是那个仪器自动产生的那个图片,是高精度的图片啊,Set as access的那个图片,第二个图片就是扫描出来那个非常大的那个图片。
20:18
那个图片有多大呢?啊,相当的大啊,真的是相当的大啊,一般都快10个G了。相当夸张啊,相当夸张,跑的时候其实非常耗资源。哎,然后呢,就会形成我们这样的一个结果了啊。然后呢,就会形成我们的VI的一个结果。啊,我这么记录,我们来看看他的一个视例数据啊。哎,这个就是它放出来的一个实例数,大家可以看看有多大。这也就基本上杜绝了大家这大家干嘛啊,用公共数据库挖掘的这种可能性,没有服务器真的挖掘不了。
21:01
首先,Web summary.我新打开个网页吧。Loop文件光loop就啊像2.3个G啊。这是它的一个web啊,基本上和我们的实层哎,单细胞空间差不多啊,差不多,其中呢,有一些需要注意的地方是什么。哎,Web默认出8μm的。8μm的时候,哎,大家可以看到这个样本算质量非常好了,8μm的一个精度大概多少个基因呢?四百六四百四百六十多个。如果说我们以8μm当成单细胞级的话。哎,当成单细胞级的话,这个基因显然是不够的。哎,总共检测到的基因一万九,哎,这个就是那个,哎,所有基因的一个种类了。然后呢,就是接下来一些简单的指标了啊,大家一般都见过什么饱和度指标啊,什么平均基因的指标啊等等这些我们都呃,这些大家都见过,包括Q20Q30等等等等啊。
22:07
这些都是一些简单基础的指标,其中有一个需要大家注意的地方就在于这个病。哎,如何选择的问题。支撑微总母,它会给大家呃两种选择,一种是8μm,一种是16μm,对吧,8μm的基因你看平均基因只有300,哎,平均基因per病哎,就只有300多,哎,350多个。呃,16μm呢,就是1000多个对吧,这个时候呢,大家就要有一种选择了啊,有一种选择了,如果说我们真正的想把这个每个病当成一个什么,每个这个病就是帮当成一个单细胞的话。哎,8μm355绝对是不可以的啊,绝对是不可以的,哎,那么16μm1159这个数量计。哎,就可以了,就可以了,大家都知道单细胞的一个,呃,基因中位数在哪儿,在多少啊,一般一两千两三千的一个样子。当我们的这个合并到16μm的时候,它也能达到这个量级。
23:03
哎,基本上我们可以认为这个精度大概是个单细胞级的精度。哎,也就是说呃,基因表达的数据信息量要足够的多啊,足够的丰富,当然8μm目前从这个10层微,10层微的,呃10层这个发布的那个前发的那个文章来看,它采用的是8μm。哎,用的基因,哎里面提到的样本量基因数,哎,基本上就在这个三四百的一个样啊。这个大家要做一个参考啊,质量好的样本8μm大概就是三四百的样子,哎,16μm会上千,哎,说明这个质量测序是合格的。哎,拿到这样一个简单的一个分析。中间还有图像比对的一个结果啊。然后呢,它的矩阵信息有多大呢。光H5文件就1.555g啊,1.55g。如果像是这个。哎呀,如果像这种病呢,大家看看多大啊,相当大啊。
24:01
这是三个,哎,它默认出三种啊,002呃,2μm8μm16μm的这样一个。哎,3种结果。我们看看它有多大。哎,9.3g啊,相当大啊。基本上自己电脑是跑不了的,必须借助服务器啊。然后呢,它内部的一个结构呢,大家可以看看,基本上和我们的这个单细胞的那几个矩阵文件,呃,空间的矩阵文件是一致的啊,包括我们的空间信息,它的这个命名啊都一样。就是在这个矩阵上是不一样的。哎,它的数量变得越来越多了。嗯,没了。哎,我们来看看8μm它到底有多少个sport啊,多少个这个。Spot filter之后,这是图像比对之后。
25:05
如果以8μm的精度来看,我们看看它有多少啊?50万。50万个点。哎,那么50万个点在数据分析上这个量级是相当夸张的啊,大家可以对比一下单细胞级,每个细胞如果一个样本的话,50万是50个样本,目前来讲单细胞的一个通量啊,就是说分析单细胞的通量一般20万就很高了,像一下分析50万这种级别,哎呀,数据非常的庞大,数据非常的庞大。哎,这个就是对他报告的一个简单看法了,大家以后可能会遇到奇更多奇奇怪怪的,比如说基因数过低,哎,比如说这个哎,就mi比较低啊,或者区域等等,但是有的时候我会贴贴多个切片,他们之间会怎样?很麻烦啊,这个分析起来对资源的消耗力量非常的庞大啊。然后这是4×HD的一个分析的一个策略,其中呢,它还会涉及到一个图像校准的一个内容。
26:10
哎,图样校准的一个内容,Input.哎,这个是图像校准啊,不过这个里面还是V字母的一个状态,V字母的SFP的状态。人工比对,这里面人工比对啊,会有一个比较麻烦的点在于什么呢?它人工比对的时候啊,非常的。干嘛?麻烦啊,整体的过程比较长,大家可以看到,哎,就和刚才那个微总我们看到的一样。哎,选择这个VM比对,哎,HD大概有10部吧,啊其中呢分2部分。一部分是用来哎输入我们的这个set assist的,就是这个仪器正常的输出的这个切片。把它上传上去,哎,框选我们的区域等等啊。
27:00
哎,等到来到这个。哎,等到来到这个继续输出的时候啊,就是说要更高精准的一个比对的时候呢。它会输入那个。扫描片啊,非常大的扫描片,就这个。Microscope就是那个显微镜那种片子哇,非常的大啊,当然精度非常的高。输出出来的片子作为我们这个命令行的输入,哎,把它分析出来,比对完之后呢,大家就会拿到我刚才这个这种结果了,哎,它每个样本都会默认出3种结果,如果想用提价精度,就是改那个参数啊,改那个参数,哎,真正拿到这个结果之后呢。哎,大家一般会得到这个loop文件,Loop文件大家用这个自己的loop打开之后啊,就会拿到这个结果了。嗯,大家可以简单看一下这个结果,这个片子非常大,那取了这个区域。取到这个区域啊。大家可以看到有的组织是没有组织覆盖的,你像这种区域是没有组织覆盖的。
28:04
啊,识别的过程中这些点其实是要过滤掉的啊,过滤掉的。所以在V字母分析的过程中啊,这个过滤可能也是哎,需要进行啊,一定啊需要一定的进行啊。然后大家可以看看它这个精度。大家可以看啊,你看这是15米的长度。哎,基本上是8μm的一个切片对吧。8个米的一个起点,只不过呀,如果大家要手动圈选这个区域的话,这个难度比较大啊,像这种太精细化了,你像这地方多出来的这些太精细化了。我们很多时候是人工无法圈寻得到的,所以有的时候还是要借助软件的力量,就是数据分析的力量。哎,把这些。哎,可以过滤掉,这里面提到一个什么。哎,提到一个比较。哎,比较麻烦的点是什么?就是说如果说我们用这种HD来数据进行一个。分析的话。
29:01
哎,怎么样?哎,不是这个。也不是这个怎么说。哎,怎么样?排污是一个很大的问题,排污是一个很大的问题啊,就像我们的,哎,我们分析得到的这个结果一样,如果这个地方并没有组织区域覆盖,但是有基因表达。哎,说明我们需要排一下,而且这种高精度图片啊。这个污染它的一个效应啊,会比Z会比这个viism么?就是HD的一个污染的效应会比viism更高一点啊,因为它是连续的,并没有什么间隔的,呃,它会从波浪式的往外传啊。这是这个第二个呢,就是大家要看一看这种区域识别的一个什么。去识别的一个。这个黄色是class哦,是这个黄色区域,其实是没有没有这个没有这个组织覆盖的。
30:02
哎,所以它呃,通常会聚成一类,像class的阿尔,这一类呢,基本上是没有组织覆盖的,我们需要把它滤掉。啊,滤掉在分析的过程中,这种调整是非常精细的啊。包括五我看一下啊。哎,每个地方都非常精细的,像这种非组织覆盖区域都是要绿的,而且这个时候大家应该明显能感觉到了这种呃,简单粗暴式的分析啊。哎,误差还是比较大的,像这种这种半覆盖的区域,哎,它基本上也都纳入进来了,就是这个点有的部分是组织,有的部分并不是主值啊。还有一个是什么。哎,如果我们不借助图像分割的话,大家可以看到这种点。如果这是一个和的话。哎,他一半占了一半在这个点,一半占其他的点啊,这种的话,其实数据上还是或多或少有一些误差的啊。这是为什么?哎,当然是我们下节课的内容,为什么要对这个,就像微的数据要进行一个图像识别的一个原因啊,很多时候这种图像识别都非常的重要,你像这种的也是一样的。
31:09
如果说不进行图像识别。哎,不进行这个细胞分割的话,你看看这应该是个完整的细胞,它是呈不规则状态。哎,但是它基本上合并了克拉斯的9这个范围之内,继承了一刀分割的这种状态。还有这种状态,哎,基本上都是一种哎,非分割的状态,那么这样的话,拿到的数据我们并不能称之为真正的单细胞级数据啊。而且在而且在这个分析HD的数据时候,第一步啊。哎呀,非常小心这个数据,因为它的基因表达量比较少,大家可以看到那个网页了。啊,一般就是三四百,如果是8μm的话,就是三四百,哎,那么在对一些区域进行过滤的时候,这个值会非常的小啊,如果依据单细胞的阈值这个点,如果少于200个基因就把它滤掉的话,那大部分都会滤掉。啊,但是前面也提到过,空间是不进行如呃这样的指控的,空间只对这个呃是否属于这个组织内进行一个指控。
32:05
所以有的时候啊,如果大家圈选的不那么精细的话。不那么精细。啊,比如说像这样的区域,Class斯达2他分析出来,因为它那个如果说大家实验做的非常完美的话,哎,怎么样?哎,非组织区域其实很少有基因表达的,那么他们应就会自动聚上一类,像这克class斯达尔就得把它踢了。哎,我们不能要像这种,大家可以看到克拉斯代基本上都覆盖在了非主织区域,哎,我们都需要把它去除啊,实验过程,呃,分析,后续的分析过程中都需要去除,还有什么?像这种区域其实也是非覆盖的CLASS8和CLASS10,哎,我们来看一下它这个覆盖的一个内容。好吧,好像。啊,8是真实的组织区域啊。10呢?呃,10好像是非组织区域。
33:00
哎,实施非组织区域,那么在聚类的时候呢,就要把这些非组织区域都去掉,哎,拿到有效数据,这个时候如果我们哎只是简简单单的按照公司的标准流程走报告的话,哎,这些都是大家后续要自己操作的啊。公司一般没有做到这么精细化啊,很难做到如此的精细化。哎,这是分析值,哎,首先重用的一点啊,就是获取真实真实区域的数据啊,不要把那些非组织区域的数据也带进来,像class的2。哎,这种我们就需要后续分析把它去来剔除。哎,因为呃,为什么要后续提出呢?因为我们真正在这个划分区域的时候啊,尤其是那个圈选就是圈选的就是圈选。很难圈的,非常的圈到这个2μm的精度几乎是不可能的啊,几乎是不可能,那只能哎,一边面呃,在圈选的时候识别出大概的组织边界,另一方面呢。哎,把它这个,哎,借助数据的力量,哎,去一去这些非组织区域等等啊。
34:02
哎,非组织区域其实很好去,大家拿每个哎项目拿到之后都会拿到这个入口文件,大家可以把它放大看看,像这种非组织区域,这是哪个区11。啊,实际看看是不是。啊,实际基本上也是没有组织覆盖的地方,也需要把它去除啊,这是第一步需要注哎,大家需要注意的地方。还有这个路分呢,大家可以诶,也和普通的路分一样,可以看到基因表达,比如CD3D啊等等。啊,几乎没有啊,看看这个吧。看看这个吧。他主要出在这个地方的。这种地方得了。哎,大家可以看看这个区域的那个那个啊。如果说我们,哎。比如说这些都是,这些都是一个完整的单位,对吧,完整的单位。
35:00
哎,我们如果用数据分析的话,哎,这种精细结构虽然它已经非常精细了,但是在没有图像识别的情况下,它还是会。分成分到不同的support里面。哎,导致他数据分析还是存在比较大的误差啊。比如说这个这个这个结构,哎,这个结构像这个这。呃,右边这部分呢,有一部分来到了这个黄色的里面。哎,这就是我们如果简单粗暴的合并,哎,造成的数据误差啊。非常的。哎,非常的一个。虽然它很微小啊,但确实是比较重要,你像这种区域。啊,这个区域啊,它明显就分成了两部分对吧,一部分在这里面,一部分在这个外面。等等等等,哎,就非常的这样,在数据分析的时候,必然会造成一定的误差啊,必然会造成一定的误差。这个图片啊,大家如果拿到将来要做这个V字母的话,要好好看一看,要好好看一看。很多这种非组织区域能不能能去掉就尽量都去掉啊。
36:02
一定要拿到真实的有效数据再往下走,可不敢说是拿到公司的结果之后直接就s smart读取,然后往下跑了,很多时候这种读取出来会造成极大的干扰啊,假阳性率非常高,数据都是不能用的。哎,你像那种10,嗯。这是一样的,大家回头要精细的看看啊,当然了,这个呃,Loop还有很多的其他功能啊,还有很多的其他功能,大家可以哎,多多多多查看一下,哎。最直观的现象就是这个了啊,当然他会计算每个群的差异,基因等等等等啊。呃,基本上如果说呃,8μm达到单细胞级的话,这个差异基因基本上可以在很大程度上就能帮助我们识别这个细胞的身份了。啊,才15个群对吧,基本上很大可能就会帮我们识别这个细胞的身份了。
37:01
这都什么集啊,好像经典的马都看不到啊。没有啊。好了,这就是loop了啊,那么拿到这个loop之后呢。哎,接下来干嘛。就是要往下走了,哎,往下走,那么在走的过程中啊,就会遇到一些。哎,明显的问题,首先第1个是聚类的问题。这类的问题呢,大家要明白。我们这个HD的这个数据啊,因为它精度非常高,对吧,而而且紧邻着。如果我们简简单单的按照单细胞空间那种剧烈方式,很明显是不对的。哎,不对的啊。这个时候,必然。要考虑领域的影响了,不像VIVI大家都知道,哎,点与点之间有一定的这个,哎有45μm的空白区域,哎影响比较小,那么等到了这个来到这个vision这种,哎呀无几乎是没有空隙的这种数据的时候。不能仅仅依靠本身的力量,就是本身这个点的一个表达信息作为聚累了,必须要考虑自身和周围是这也是哎,在公司层面达到的一个共识啊,达到一个共识,当然了,像threat呀,SC派啊等等,它都是这样一个分析思路。
38:15
包括banky的出现,哎也是一样的,Banky其实它最开始是为了哎C那种平台,就是高精度平台,图像识别的平台。做准备的,哎。哎,建立一个邻域关系,哎,邻域的可能和空间的一个框架。它在聚力的时候呢,一方面会考虑细胞内部的一个信息。另一方面也会考虑哎周围的邻近关系,物理距离。哎利用细胞的自身的转录组信息和他们的空间关系来对细胞进行整合分析哎并降为聚累等等等等,并且认为相对呃距离较远的哎权重越低,它们的相似度也应该较低才对。当然这个想法当然是非常合理的啊,非常合理的,所以说今天下午我才在群里发了这这篇班写的方法啊,希望大家可以呃,如果将来要做这个HD,或者做这个华纳这种高精度平台的话,合并的这个病非常小的话,就需要借助这种力量进行剧烈了。
39:14
哎,大家可以感简简单单来看一看这个示意图,一个细胞,哎,它必然受到周围最近的细胞的影响,哎,自身的表达会有一些反应,就像我们上节课讲到这个逆势地义一样。哎,平常的状态是一种状态,但是它在不同的细胞环境下,它会改变自身的表达形式,哎,从而导致自己上调一些基因,哎,下调一些基因等等等等,改变自身来适应环境。啊,越是接近的地方,哎,它越能越要适应这种非常致命的周围的微环境啊。这是bank的一个方法。哎,这就是为什么,哎,这里面要放一点班的内容,就是希望引起大家注意,大家在分析的时候一定要哎,引起足够的重视。然后这里面呢,有一个。
40:00
哎,它的输出结果,输出结果里面。哎,8μm的话,基本上也都是一样的啊,也都是一样的。哎,这个路大家可以看一看多大。啊,基本上都少好几个G啊,好几个G矩阵就更大了。啊,还有自己的分析结果放到啊。这就是他的矩阵了,我们下一个分析基础的分析框架都是基于时长这个矩阵而来的,大家注意我说的是基础分析框架啊,基于图像识别的话,那前面处理会略有不同啊。好了,我们休息5分钟吧,休息5分钟,我们来看看代码部分,好吧,休息5分钟。
44:21
哎,目前啊,目前不知道大家听过其他公司对HD的一个介绍了没有啊,有的公司呢,是产品经理做的介绍,有的有的公司呢,是像我一样用生信呃,生信技呃生信人员在介绍,还有的是呢,是技术支持。每个人看到这个HD新平台的一个方法啊,以及内容啊是不一样的。如果我们以产品经理的角度来看这个问题,那么是什么样的一个态度?什么样的一个角度呢?哎,精度更细。结构更加的哎精细化,那么在分析上必然更加的能够表征这个生物学问题,产品经理更多的是从生物学,呃,生物解释的一个角度来看,当然是越精度越高越好,但是前面提到过,我们真正的分析单位是什么?细胞级单个细胞啊。
45:10
亚细胞级其实是不能分析的,哎,他们既然能在接近单细胞级的一个精度,那么它能所看到的信息啊。自然是比V字母要高的。啊,如果从生信分析的角度来怎么看呢?哎,看到哎,它是高精度,我们需要合并,合并完之后呢,合并完之后,如果说简单粗暴的合并,仍然是达不到理想的效果的。哎,需要借助图像识别,就是说生性更多的是从方法论的角度来论证这个技术,哎,到底具有哪些优势,还有哪些劣势等等等等啊,对于现在的代码分析啊,尤其是公司级别的一个代码分析,目前存在着两种,哎两种比较差异化比较明显的一个争端。第一个是什么?我们应该用Python版本还是用R版本呢?R版本呢,呃,当然因为R版本有这种专门的这个是吧,未来HD专门设置了一个简单的一个教程。
46:08
哎,完成了它的一个基础分析的部分,但在实际测试的过程中会发现什么?哎,耗资源非常的高啊,耗资源非常的高,刚才提到了一个样本大概50万个点,哎,我们以8μm为例,刚才提到了是50万个点。我们再看一下啊。我们来看一下啊。哎,50万个点。呃,50万个点对于R这种语言来说,处理起来太麻烦了啊,而且算力要求非常高。呃,时间非常长,哎,这个是没有办法的事,哎,这里面稍微提醒一下,就是说我们的HD的这个细胞的一个标记啊,不再是大家那种常见的。
47:04
前面一串字母后面杠1了,而是采用什么。哎,精度像素化的一个,哎,像素化的一个命名方式啊。大家要注意。哎,分析的时候对这种数据要,哎拿到这种数据千万不要,哎,千万不要说和微总不一样啊,那巴克的本来就是这种设计,那么在分析的过程中呢。R语言的分析能力啊,其实是非常的,就是计算能力其实是非常的低的。非常的低的,当然。哎,他自己知不知道呢,啊也是知道的啊也是知道的。这里面的多题依据是什么?好像这个TH好像,哎,很多时候大家如果看的话,好像是我们中国人参与的啊,大家看看V4是谁写的。哎,他的全名叫郝玉涵,我不知道,我不认识这个人啊,不知道大家有没有认识这个人。哎,V5版本也发明也这个发了一个,那诶NB非常高的一个文章啊。
48:02
哎,第一座也是这个中国人啊,说明这个方法中国人出了非常非常大的一个力啊,叫郝玉涵啊,好御寒,当然他肯定是国外实验室的啊,然后呢,它升级了V4和V5。哎,前三个基本上是没有中国人民的。呃,4和5由中国人,哎,就是这个叫好御寒啊,也不知道念的对不对啊,然后这个中国人发明,中国人升级改进了什么。哎,非常一个好的方法,大家知道V4L级了什么吗?哎,微视升级了多模态。哎,微视升级了多模态,就是那个。单细胞和A肽那个数据的多模态啊,这里面有简单的提到。呃,V5L级了什么。哎,V5就是变成大家特别特别讨厌的那种layer式那种模式啊,Layers那种模式,但是V5确实在这个性能上有了更大的提升,第一步是什么?多主渠道纳入lays,它其实就是为了放置多个主学的一个矩阵信息。
49:03
啊。从这个发展的角度来看,就是数据分析的角度来看,他们的容纳的信息更多了,性能更加强大了。第二个是什么?哎,他就是说更新了这些高精度的分析方法。高精度的分析方法。这是他发的一个文章啊。啊,非常的高分啊,这个中国人确实非常厉害啊,不知道最后能不能回国啊。然后呢,就是它更新了很多高分的,就是高精度平台的一个计算方法,包括这个多组学和计算方法,基本上多组学和高精度空间平台都是这个叫郝玉涵的人。哎,开发者。然后呢,大家可以简单看看它的一个流程。哎,基本上和我们的普通流程差不多,只不过啊,其中有一个比较注意的地方是什么呢?哎,读取呢,这些都是很简单的事情啊,大家自己读取就可以了,哎,分析的时候呢,目前认为8μm还是主流啊,大家拿到公司的报告也是8μm。
50:02
啊,只是在这个用Python还是用R上,公司存在分歧,有的公司用Python,有的公司用R,就是对算力把它能够计算出来,哎,公司现在有的公司开始买GPU,对吧,把它计算出来。哎,这里面呢,前面的过程呢,基本上都一样的,哎,聚域化空间高,呃,空间的基因的一个展示,降维聚类等等等等,其中有一个地方是什么,哎,他也知道R算不了这么大算力,所以在所以在计算的时候啊。把那50万个点抽出来5万个点作为计算啊,就是说用抽取的方式下采样的方式来进行降维聚类,差异负集等等,最后把信息填补回去啊。这是它的一个,这是R语言的一个策略,这也是公司目前采用的一个策略,因为50万确实算不了啊,算不了。其中呢,有一个非常值得注意的地方是什么?哎呀,到热度这是差异啊,分析到这儿基本上就结束了,其中有一个在空间识别域的时候啊,就用到了刚才提到的什么。
51:02
哎,Bank啊,Bank.哎,这个地方呢,它。简单的做了一定的介绍,就是说空间数据啊,细胞哎,不能仅仅是依靠他们的邻居,哎,也要看它们的空间背景。空间and neighbors, 哎,域也要看它的空间背景,也就是说不仅要考虑自身的表达,也要考虑什么环境的表达啊,环境的表达这里面呢,在banky的一个介绍方面,它就把这个哎,聚类的一个过程啊,不仅考虑自身的表达,同时要考虑什么。哎,平就是黄金表达基因值的一个平均。哎,它的一个作用的权重也要提到一定的省水平了,这对于高精度平台是非常必要的啊,大家在分析的时候这一步千万不要省略啊,像低精度平台,V字母像单细胞可以不用它。但是高精度就必须要用了,像Z,像这个HD都是要用的啊。然后呢,用这种哎banky的方法来识别空间域。哎,识别出来的效果就会比之前简简单单用数据合并这种要效果要好得多。
52:02
好的多啊,然后呢,接下来下面呢,就是一些。简单的分析了空间展示啊等等内容。还有一个非常注意的地方就是前面提到了,如果我们的HD是单细胞级。哎,如果是单细胞级的话,是不是可以用马克进行进行定义呢?啊,事实证明不可以啊,不可以。哎,前面我给大家展示过这个。哎,这个VM这个平台,那么这个HD的这个数据啊,大家可以看到每个群呢,呃,基本上分了这十几个群,对吧,有的群是空值,像这种10群如果是。呃,这个竹子外区域。哎,定义它是没有用的,因为它不可能是有效细胞,对吧,这些要过滤到,哎前面刚哎刚才刚说了,还有一些像这种class的2。哎,非组织区域一定要过滤掉啊,一定要过滤掉,因为它不是组织内,你把它定义成,哎,如果它是有效细胞能定义出来,那整个的数据分析都是错误的。还是呃,这个地方比较重要,还是要强调一点,就是非组织区域,大家一定要把它过滤掉啊,能能能,呃都去掉啊,非组织区域都去掉,然后剩下的有效组织用来做分析,嗯,还有提到过就是说关于图像识别的问题,如果不识别的话,经常会有这种点。
53:16
这种点也很麻烦啊,也很麻烦,并不是有,哎,其实也并不是有效数据啊。像那种一半在组织上,一半在外面的这种啊,这种点分解起来也非常的麻烦,说明他也不是有效细胞,更多的是一种,还是处于那种亚细胞的一个状态啊,这种数据会非常的麻烦,但是我们在尽可能的范围之内。要把无效的数据给他剔除掉,剔除掉之后呢,然后计算差异基因,对吧,计算差异基因,计算完的差异基因呢,如果按照单细胞的思路来讲是怎么样。哎,依据这些基因进行定义对吧,实际效果是什么呢。实际效果就是那个web summary那样一个结果,如果我们的平均值非常少,比如说每个点的基因只有三五百。哎,他们计算出来的差异基因啊。
54:01
差异度非常小。哎,差异都非常小,如果有大家用这个threatad之前用threatad计算过的话,就会发现,哎,PCT值几乎没差异。还有那些基因啊,都非常少,因为它每个点的基因就非常少,那么在计算出来的差异基因就更少了。哎,很多都不是马克基因啊,马克基因可能都没有抓到,哎,这个时候哎非常的麻烦,哎定义的时候就会产生很大的一个歧义。哎,那么在真实的过程中呢?真实的过程中干嘛?Python和R不约而同的都采用了这种反呃接卷机的方式。哎,就新的方式,哎,这个也是当时HD刚推出的时候。哎呀,大家没有想到的一点,包括我也没有想到啊,以为这个HD可以用这种。呃,马来定义的,实际上是定义不出来了啊。当然了,如果借助图像识别的话,可能会更好一点啊。然后呢,前面一直强调过,对于高精度平台,呃,是要用RCTD的,就是说它的细胞范围大概在1~3个之内,用RCTD的这种双细胞模式来进行一个空间注释啊,空间注释哎,结卷的这些过程呢,大家回头看看就可以了,其实并不是很难啊,基础分析部分都不是很难。
55:16
哎,结转机之后呢,基本上就可以拿到细胞类型的一个在高精度平台的一个空间分布了。哎,下面又展示了一个肠道的例子,也是一样的,哎,基本上流程走了一遍。这就是R版本的基础分析过程,其中很很多啊,需要大家自己额外的一个注意的地方。哎,格外的注意的地方啊。哎,这是二二版本,大家可以看到这个,哎,基本上分析思路来讲,还是怎么说。比起微,我有什么不同呢?第一个呢,就是说在上要把非组织去哎去掉啊,因为我们圈选组织没有那么。达不到那么高的精度啊,就是那么高的精度一个一个圈出来,这是不可能的啊。
56:00
只能圈个大概范围,那么在剧烈的时候,要把这些非组织区域的一个剧烈给它去掉,这是第一个不同,第二个不同是什么?剧烈的时候要考虑领域。哎,就是banky要考虑领域,哎,不能只结合本身点的一个表达信息,周围点的表达信息也要有一定的权重,哎,识别这个空间域就是它的聚类结果,哎,大家要应用bank c这个方法,哎,这是R版本的第二个不同,第三个不同是什么?哎,在识别细胞类型的时候,依靠马克还是不足以啊,不足以识别细胞类型的还是要借助结转基的方式,哎,不足以识别细胞类型的原因呢,就是说它的这个每个点的基因呢,只有三五百,哎并并不足以代表整个这个细胞。呃,很多信息都没有抓到,呃,更别提在这个,更别提在这个微字上,如果简单粗暴的合并啊。哎,怎么样?哎,怎么样,很多都是一些,呃,就是并不是真正的单细胞,在这个框里面很多都是这种,哎,从形态学看都是这种,不应该划分成单个点的一个区域。
57:05
哎,一些明显的点都把它一起一分为二,去了不同的地方了。哎,就更别提这样一种情况了,那么在定义的时候很明显会存在很大的问题,这个时候呢,采用了这种非复,哎。解卷积的方式,RCTD的方式,哎,把它截出来。哎,这是3.3个大的不同啊,随着大家项目进行的越来越深呢,这种不同也会越来越多啊,越来越多个性化分析也会越呃和微字母存在很大的不同啊,很大的不同。这是R版本。那么Python版本呢?Python版本其实也是借助实干派。它的一个分析思路其实也是差不多的啊,也是差不多的,它采用的是这个,哎空间模式,空间模式呢,它也要考虑这个什么。哎,背景就是它的微环境信息啊,空间模式,他在考虑空间模式的时候也会这样,只不过Python它的一个分析方法呀,相对于R要快的多啊,快的多。
58:05
哎,我们也,我们来看看他这个例子。哎,大家可以看一看啊,16μMR版,呃,Python版本确实非常快啊,读取数据之后,它确实在哎识别这个哎这个地方就是哎既要考虑自身表达,也要考虑微环境的一个信息啊。啊,然后在降温剧烈等方面确实要快得多啊,要快得多,不过呢,他在拿到这个结果之后啊,大家也要看到啊。刚才那些,哎,组织区域,非组织区域等等等等,他也都纳入进来了。纳入进程。哎,这是R版本啊,这是Python版本,Python版本当然它计算能力诶比较强啊比较强,这个时候为什么他会选择呃一些区域呢。哎,一些群呢,哎,就在于他想把一些非就是非组织群,哎或者其他无关紧要的群把它剃掉。哎,进行一个展示,最后呢,计算差异及。来画热图和R版本是一样的啊,R尔版本画导热图,基本上这个标准分析结果就结束了,当然后续通常还会有一部什么负极的结果。
59:05
大家现在拿到公司的HD的报告也基本上只包含这4类,就是降维聚类差异负极到这儿就结束了。啊,再往下你要说你要做细胞定义,要做结计算机要做什么,呃,共定位淋浴等等等等。哎,目前来讲还处于一个收费比较高的一个售后阶段啊。然后这是它的一个简单的一个划分啊划分。哎,大家可以看到这个结果。哎,基本上采用了这个ST model这种方式,ST model是什么?就类似于那个bank啊,它要考虑领域的关系。然后把它识别出来,画到空间图,哎,基本上都可以了,这就是这个基础分析的一个简单过程。技术分析的一个简单过程,哎,包括后面他也展示了一个肠道的例子,和那个R版本是一样的。Python版本和R版本,呃,用哪个呢?哎,都可以啊,都可以。算力如果非常够的话,R也行,但是通常来讲,我们的计算机算力达不到那么高,那只能用R版本了,对吧。
60:04
啊,那只能用Python版本了,说错了啊。最后呢,我们来看看关于这篇这个他的前方文章啊,前发文章,他的他的文章能发到多高呢。哎,目前没有定论,但是从这个10成这个平台的发文情况来看,一般都不会低于30分,或者30分低一点点,像NG这种状态,像单细胞平台,哎,微平台,Z平台等等,他们的本身技术都发了,都发了文章,大家可以回头看看。哎,它那个发展的分数都非常高啊,而且很多时候我都怀疑这里面有中国人在参与。这个名字我感觉像是中国人的啊。啊,也就是说我们中国人其实参与了这个大潮,里面都有一些中国人参与,就像那个threat一样,那个叫郝御寒的,哎,中国人他肯定是发挥了非常重要的作用,他作为一座更新了V4和V5,像这种实诚的team,哎也是一样的,哎,我听说很多国内公司的老总都是实诚的那个公司出来的。
61:08
啊,说明中国人,我们国人啊,参与了整个的一个过程啊,有很多非常厉害的人啊,不知道他们能能不能都为国效力啊,当然国内也要提供机会啊。然后呢,我们来看看这篇文章,这篇文章呢,其实啊。哎,介绍了一个结直肠癌,结直肠癌的一个内容呢,来介介绍他的这个。呃,HD平台。他用这个HD平台在检测的时候,同时做了微,同时做了单细胞,同时做了这个Z作为这个交叉比对,对吧,交叉比对,交叉比对的时候呢,第一步干嘛。哎,我们来看它那个结果图,哎。不仅做了,哎首先做这个微哎微米哎微米这样一个set access的这样一个图像识别。然后是什么?哎,各种各样的实验过程吧。然后呢是Z平台,然后微等等等等空间都做了,包括单细胞也做了。
62:04
做完之后呢。他为了能够比较啊,是为了能够能够比较才会把这个平台,嗯,才会把多个空间平台给做出来,为了能够保证HD数据的一个有效性。大家看看这个,他这个是他分析的一个结果。哎,当然精度非常高啊,从粗看来看,确诊精度非常高,像这种区域当然自动会聚成一类。对吧。哎,绿色也能聚成一类等等等等吧,啊,当然这种精度已经非常高了啊,再再放大又会出现那种不匹配的情况,但是从这个比V字母来讲。哎,这个精度已经非常高了,微就是个点儿对吧,很多区域都覆盖的都有问题。啊。然后像。哎,ROI区域等等等等,哎。这是V字母,他为了和V字母进行比较做了什么呢?哎,用这个FIP,这个单细胞的这样一个work flow就是说用FIP样本做了这个单细胞的一个数据。
63:06
哎,然后呢。呃,用这个,呃用这个单细胞的数据去结缘机HD的数据,HD这里面用到了多少呢。哎,用到了这个。8μm的一个进度。哎,我们首先来看一看它的一个数据集吧。它那个数据集啊,采用的是官方公认,呃,就是公布的这个数据集啊,大家可以看到它那个基因数是多少。啊,200多就更低了啊,特别低。哎,8μm的精度基每个点的基因才表达100。哎,很少啊,很少,如果借助基因的力量,就是它自身表达的力量,其实是不足以支撑到下一的分析的啊,所以说他在这个识别细胞类型的时候,文章采取了这个。
64:01
那你拿去了文章采取了这种节卷机的方式,哎,基卷机用了什么方法呢?啊,是用了RCTD的方式,然后呢,来展示这个空间HD,它的一个细胞类型的一个分布状态。嗯,同时呢,它也用50μm的精度把它解卷起来,看它一个细胞分布状态是否是一致的。啊,是否是一致的啊。啊,第一个就是表现了,表现当然啊,他自己发文章肯定表现非常好啊,挑了一些好的数据啊,第一个是表现非常好,第二个呢,就是说他和这个微这比对的时候。哎,用这个V字母V2,哎,就是比对的时候,然后会发现。哎,精度确实高了,精度高了之后呢,确实能够干嘛提升敏感度。提升敏感度。然后就是在这个。哎,M lav检测上,哎,确实比V字母要,哎,效果要好一点啊,这是它的一个比对的一个图片的一个结果啊。
65:05
哎,大家可以看一下,确实在精细划分上,确实它比V字姆的微字姆的什么精度要高很多。哎,识别上就会更加有效。哎,然后呢,他和这个他这个剧烈结果大家可以看一下。哎,定义的时候,刚才提到了定义是什么。空间mapping的SIM什么方的计算机,哎,它的节,它这个注释方式是节卷机的方式,并没有这种,并没有用这种mark基因的一个方式。哎,它解卷积的方式是什么呢?就是刚才thread提到的RCTD啊,解卷积之后,我看每个细胞类型的一个分布状态。哎,以及他和什么。哎,其他空间平台的一个相呃,一致性,是否是具有很明显的一致性。哎,这个是这个空间分布,哎,基因分布的一个状态,哎,首先是细胞类型啊,然后是不同区域的一个比例等等啊。
66:02
哎,识别和罗卜成图2文小啊,两种细胞类型的一个识别。最后呢,是和这个zme平台比,哎,这个情本上就体现了这个HD平台和z name平台的一个差异了。你像HD平台大家看到了这种,哎,方框式的是吧,方框式的。放大点儿。哎,方框式的。哎,很多时候就像那个loop展示的一样,存在数据偏差。存在数据误差。哎,很多时候呢,都存在这个数据误差,导致它的信息啊不是那么的有效,哎,还是之前那个观点,如果说准确的识别是100分,错误是0分的话,那么它这个简单粗暴的8μm16μm合并大概的分数是60分。那么在VZ内平台,也就是原位,就是结合图像识别识别的这个平台呢,大家可以看到可以准确的几乎识别这个空间域,哎,每个细胞的形态,包括它的一个状态等等等等很多区域呢,其实并没有细胞分布的那么接触图像识别呢,它的划分会更加的精细,哎,拿到的这是真正的什么。
67:06
单细胞、单细胞及空间数据。这个呢,其实就是刚才提到的2μm,如果结合空间信息的话,它的划分,哎,会近乎拿到单细胞级的空间数据,哎,这个时候呢,就不是简简单单的像这种简单粗暴的一个点的合并了,而是在2μm的经度上,哎,把一个细胞内,哎,它属于一个细胞内,就把它连起来。哎,不处于一个细胞的,就把它剔除,包括细胞之间的边界都可以识别。哎,这种分析策略当然是什么更为哎,更为优秀的策略,这个方法也是实成自己的体,哎,自己的这个科学家们,哎,提出来的,也发布了这个前发的文章啊,我们下节课会详细的聊他。啊,这就是简单的一个策略了。哎,下面呢,就是一些常见的分析了,大家看Z分析分析的。哎,我个人还是比较喜欢Z这种分析结果的啊,确实是比较棒啊。
68:01
哎,整个细胞的识别边界等等等等,哎,都非常的好啊,非常好,包括这个细胞的这个不结,呃,不规则结构状态都能给你识别出来。哎,这种状态呢,其实才是我们真正的组织分布状态。像句式啊,肿瘤啊等等这样真正的一个状态,而且它是真的。真真正正拿到这个单细胞及数据的,哎,每种颜色代表一个一种细胞类型啊,一个细胞哎,不同颜色代表不同的细胞类型,大家可以看到。哎,对细胞的分布状态是一目了然的,哎,所以我个人啊,个人感觉这个zip好像啊,就是原味平台可能发展潜力会更大一点啊,因为它在表中组织的真实性方面确实更高。哎,这就是他简单一个平台,当然对于我们这个HD平台的话,因为它还是就算是2μm的精度,还是这种方格式的。多多少少不像这种,哎,图像识别这样的一个什么。哎,真实啊,真实啊,所以说即使借助图像识别它的一个。哎,数据啊,只能说是更接近这个单细胞级了。
69:03
嗯,但是还不是还没有完全达到这个时候呢干嘛。哎呀,就和大家就和我之前讲到的一样,他的分数可以达到85~90分,哎,离真正的100分还有点距离啊。这是一个HD的一个分析策略,大家可以从这篇文章中,大家可以看到官方的态度是什么。官方对HD的态度是什么?第一个官方的HD态度。哎,它是可以近乎哎配合这个微数据和这个Z数据的,也就是说他们数据的水平重复是非常高的。HD的优势在什么?相对于V字母而言,它的一个精度确实非常高,对吧?确实非常高,能划分到很精细的结构,这是HD的一个优点。啊,那么相对于来讲。哎,Z来讲,如果结合图像识别的话,HD也可以近乎拿到什么单细胞级的空间数据。哎,这也是它的优势,只不过它是一种2μm的精度,或多或少还是有点信息损失,但是比微总已经非常的强了啊,当然比,如果比其他的平台的话,比如比这个。
70:11
华大呀,比这个DS那就更那就更好了,是吧,这是他为了宣扬它自身平台的一个优点。第三个是什么?哎,空间注释层面,空间注释层面它还是采用了这种节卷机的方式,而不是采用这种mark的方式,这就是官方的态度。也就是官方对这个平台的认知啊,研发人员对这个平台的认知,哎,我们基本上在这个基础之上会进行一定的这个。数据分析啊。我们来看看他的一个关于代码的一个部分,大家可以简单的看一下啊。MS.哎,结卷机。Fix的单细胞,这是单细胞的分析,哎,这是核分割,核分割一般是要借助Python的,没有R的合功能,R分R语言在处理对处理图片上,呃,几乎没有能力啊。
71:10
直卷机,我们来看看他的方法,哎,基本上大家可以看到啊。哎,读取我们的数据,读取RDS等等。然后他的一个计算机的方式是什么。哎,RTD啊。依然是ICTD啊,整体的思路,目前基础分析的思路就是这个样子的啊,大家要注意啊,今天聊的是基础分析思路啊,也就是说基础分析只包括什么。只包括我们拿到数据之后第一步干嘛,哎,拿到有效数据。哎,当然前面有一些图片圈选等的内容啊,但是圈选还是那句话,我们不,我们达不到那种两微米精度的那个圈选啊,只能说大概范围,这个时候呢,哎,图接触图像识别之后呢,要把这个第一步要干嘛,获取有效数据啊,就是刚才提到的非组织数据把它。
72:01
扔了啊,不要了。哎,非组织数据,你像这种没有组织覆盖的,把这些数据都剔除不要了。哎,它一般都聚成一类,把它剔除就可以了,当然有的时候会存在这种呃间隙,嗯,就是既有组织覆盖半组织覆盖区域这些点。对吧,也会存在这种半组织覆盖,就像2,你像这种地方本来是2是吧,那这种地方有组织覆盖也是2,说明它什么。组织表达非常接近这个地方基因表达值也非常少。哎,这种时候去除的时候也是非常小心了。第一步干嘛?获取有效数据啊,有效数据就是真实组织覆盖的数据,第2步干嘛?哎,第二步正正,呃,就是最正确的做法应该是什么。排污啊排污。就是刚才给大家哎看到的那个内容。哎,排污。哎,就是把一些,哎用port clean把一些数据进行矫正,因为它是因为它是无空隙的,哎那种一旦有一个点污染,后面所有点基本上都存在污染的现象啊,所以说一定要排污,把这些刚才那些非组织区域的一些基因表达的一个特征给它识别出来,哎,拿到真实有效的数据。
73:13
哎,第三步干嘛。哎,第三步就是刚才提到了,简简单单的这些读取数据,哎,用这种。降为剧烈差异负极,只不过这个这时候降为剧烈差异负极要干嘛?要考虑礼遇,像R语言要用这种bank c的方式,像这种Python的话,要用这种ST的模式。啊,也是考虑这种领域,呃,和它协同性的一个内容啊,所以它聚类上和单细胞和之前的单细胞空间略还是有不同。啊,这是空间域的识别,哎,和这个之前的微总可不一样啊,可不敢瞎跑啊,最后一步干嘛在注释的时候依然采用了这种反卷积的方式。哎,就是RT的方式来注释我们的空间细胞类型。哎,不能用那种marker,实际效果是我们聚完了之后用HD的一个差异,基因数量非常少,很多都不是马克基因,无法注释。
74:04
哎,这个时候只能借助RCTD的方式把我们的数据给注释出来,那么做到这里呢?哎,做到这里呢,基本上技术分析就结束了。哎,就是前面提到的降维聚类差异负极,拿到这个,呃,负极的结果基本上就结束了,至于后面的反卷机,都属于个性化分析的部分了。哎,所以说公司出报告一般都出到这个什么。哎,负极这块。复习这块啊,好了,这就是我们今天的一个基础分析的一个内容了啊,而且提醒大家一句。HD分析非常耗资源啊。即使是服务器也不能这种交互式界面的跑。啊,必须投到后台,用大算力大节点跑,最好装上GPU。好吧。好了,这就是我们关于HD的基础分析导论的一个内容了啊。哎,同学们有什么问题吗?没有问题,我们就下课了啊。
我来说两句