第八课：单细胞空间联合分析（cell2location）与空间细胞富集原创

2024-07-122024-07-12 07:43:50播放3.7K

点赞0 收藏 0

第八课：单细胞空间联合分析（cell2location）与空间细胞富集

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:02
好啊，已经差不多了，我们来上我们的第8课，关于单细胞空间联合啊与区域细胞复极的一个内容。嗯，在上联合之前呢，首先对大家对这个空间的这个平台啊，做一点简单的一个简单的一个区分，像我们常用的这个VI，哎，还有这个其他的一些呃，低精度平台，哎，它都它那个sport呀，它是高于一个细胞的，哎这个时候呢，我们就需要借助单细胞的力量联合分析一下，看看每个细胞的含有的细胞类型。都有些什么？第二种呢，是类似于HD这样的平台。HD这样的平台呢，它和华大那个平台其实概念都差不多啊，都是一些高精度平台。高精度平台的一个，哎，一个现状呢，就是它每个点啊，它是一个亚细胞级，但是亚细胞级是无法进行下游分析的，哎，必须要进行合并，像这个HD啊，就合并成8μm，哎，16μm甚至更多啊，华大也一样，哎，合并成了一个大的sport叫super sport.
01:11
哎，用于下游分析。嗯，他们这些平台的作者开发呢，也都知道，哎。细胞不可能是这么规整的存在。所以说在华大和这个。HD平台的时候啊，也需要做单细胞空间联合分析，来精准的分析啊，合并后的每个点到底含有哪些细胞类型。还有一种呢，像这个Z啊，像这个呃，原位啊等等，它的细胞类型识别呢，主要是靠依据，主要是依据这个图像识别。哎，根据它的细胞核和细胞质的染色，精准的划分这个细胞的一个区域，从而达到真正的空间单细胞级啊。这就是三类平台的一个差异。嗯，这里多提一点呢，就是说低精度平台，比如就像10层的VI55μm。
02:02
呃，或者是像其他的一些低精度平台。它这个每个点呢，含有2~10个细胞类型。哎，这种的这个时候呢，用单细胞联合分析的方法就是CR to location.这也是今天为什么要强调这个方法的原因，而且sal to location是高分文章必备啊，就是说只要你发高分，做的单细胞空间，哎，必须用这个方法进行联合出结果。之前呢，合作合作的一些文章呢，哎，只要你用的是其他的，比如说用的threat，用的spotlight等等软件。哎，审稿人会告诉你，哎，你补充一个CL location的分析结果作为补充啊，把它放进来。像HD呢，像这个s slide seek啊，它接近于单细胞机，但是大家合并的时候啊，会合并的它诶。接近单细胞级，但不是单细胞级啊，像这种分析方法呢，就是另外一个高分分析软件叫RCRCTD。
03:02
大家都知道RCTD呢，有两种模式啊，一种是这个单细胞模式，一种是双细胞模式，也就是说如果一个点含有一到两个细胞的时候，哎，用这种方法是比较合适的，像华大的数据啊，像HD数据啊，哎都用的这个方法。接下来呢，我们来简单看一下关于这个单细胞空间联合分析的一些，呃，简单的一个说，呃，技术原理啊，对于这个普通的这个空间转录组来而言啊，哎，这里面提到了单细胞空间联合分析的一个整，呃联合分析啊，主要就是这两类。一类就是取卷机啊，这个是比较公认，哎，也是审稿人比较倾向的一种方法，另外就是一种投射，投射呢其实就是计算相关性。哎，越相关，还有这个细胞含量越高啊。去卷积的是根据单细胞数据呢，首先呢。对单细胞数据，诶，每种细胞类型进行一个特征提取。
04:04
诶，提取每种细胞类型，它到底的表达特征是什么，尤其是亚群的特征是什么，然后呢，从每个sport里面，这个sport指的就是这种低精度的了，还有多个呃，多个细胞类型，哎，还有这种呃。尤其是这种不同的细胞类型混合的这种状态，哎，然后通过前面提到的哎，识别到的，识别得到的单细胞的这个细胞类型的一个表达特征，把它给解卷积出来。哎，从而得到了每个sport，它含有每种细胞类型的含量，以及细胞类型带空间上的分布，啊，分布的一个特征。映射呢，第一个映射呢，就是大家常见的那个re，那个单细胞空间联合分析方法。其实呢，就是说把每个细胞类型，它的表达特征啊，直接投射到哎，我们的空间上。呃，刚才刚提到他投射的主要的分析方法呢，就是相关性。
05:00
一个sport和某种细胞类型的表达特征进行相关性分析。哎，相关性越高，自然就越可能是这种细胞类型啊，相关性越低，自然的含量就更低啊，依据这种原理呢，再把单细胞的数据，哎，单细胞的每种细胞类型的数据。定位到哎，空间的一个slide上啊。嗯，目前来讲的话，去卷机的应用方法更多一点，大家常见的那些高分应用方法，包括cell to location啊，RCTD啊，啊，包括一些其他的像spotlight呀等等，哎，基本上均是在哎结转机器方法的基础之上。哎，结合一些其他的新的方法，哎。把这个空间数据和它细胞数据诶，联合分析起来，得到细胞类型的一个空间分布特征，呃，曲卷机呢，也是这个现在公司啊，尤其是这些大一点的公司，它的一个分析的标配。大家呃，大家都知道在这个呃，空间的这个分析过程中啊。
06:02
尤其是这个出精度的分析过程中。嗯，有的时候呢，呃，因为我们没有匹配的这个单细胞数据。啊，有的时候客户说能不能用marker来注释一下。啊，事实证明这种方式呃，经过无数的项目验证是不可以的啊，或者说效果非常差，导致了现在每个公司都会标配这样一个单细胞空间联合的一个啊，有的公司算作是售后分析啊，有的公司算作是标准分析，他会前面给客户要这个单细胞数据。如果客户提供不了哎，公司会让哎会让客户提供公共的一些单细胞数据，通过这种去卷积的方法，哎把这个空间的数据哎很好的注释出来。嗯，区间机呢，主要有两种方式，一种是推定一个胞德的细胞比例亚，呃细胞亚型比例，哎，这个是最流行的，哎也是最常见的，另外一个就是评分啊，评分这种方式呢，其实也和刚才提到的那个啊，刚才提到的那个1呃计算相关性的个方法类似。
07:09
啊，但又不是啊，评分呢，就是根据一套评分系统，哎，得分越高，说明含有这个细胞类型的含量哎越多啊，从而把这个每个sport它的细胞类型的含量给它，哎分析出来，拿到这样一个空间的一个注释结果啊。如果大家在公司做项目，呃，如果说做的这个空间项目，一般公司呃会提醒你，哎，去卷氨机的效果会更好啊，第二种是映射，映射呢就是刚才提到的，哎，Threat的那种联合方式，哎联合方式呢，它这个主要是计算相关性。相关性越高呢，还有这种细胞类型的可能性越大等等等等，依据这种方式呢，哎，把单细胞投到这个。空间上。右边这张示意图呢，就是一个单细胞空间联合的一个简单示例，哎，首先我们拿到单细胞数据。
08:02
哎。这里面要提醒大家啊。大家做项目的时候跟公司搭流程可是两回事啊。哎，拿到单细胞数据的时候，如果大家自己做项目，一定要把单细胞数据注释好之后，再进行下游的一个分析啊，但是公司在搭流程的时候呢，它没有这些个性化的一个部分。哎，单细胞直接就12345直接就联合了，通过这种方式呢，搭建一个普世化的流程。啊，流程呢，就是一个相当于一个模板啊，每个数据来了，哎，都一样，一样的分析啊，一样的一个操作，只是生物学呢，生物学意义上可能就有点。哎，不太符合大家的预期，而大家每个人的项目呢，又都是一些个性化的项目，都有自己的分析点，以及不同的分析方向，哎，导致了这个现在有一种这种冲突。啊，这个时候呢，要求大家在做自己课题的时候，一定要对方法有一个深入的理解啊。嗯，首先单细胞数据要进行一个精准的一个注释。
09:03
这个精准的注释不只是说注射到大类，而且要注射到亚类，尤其是像T细胞。嗯，这种哎很容易，就是有很多亚类的这种也要注视到。第二步呢，就是联合，联合之后呢。借助单细胞，哎，提取细胞类型特征的一个力量，哎，看看空间这个混合物，每个点的混合物。它在这个结卷积之后呢，含有细胞类型的比例大概是什么一个样子？然后呢？Co embedding啊，这个是以前的一个做法，就是单细胞空间会放到同一个维度上进行一个比较，不过现在呢，一般都是在空间上直接看细胞类型的一个空间分布啊。然后呢，最后呢，最后这一个步，哎，最后这一步是最新，哎呀，也就是今年或者去年年底刚出现的一种新的，哎，能够识别空间细胞类型。呃，精度更高一点的方法，呃，就是依据makeport它的一个图像信息。
10:02
哎，大家都知道染色的时候啊，He染色的时候啊，那个核染色比较深。啊，那么55μm这样一个精度的一个sport里面到底含有几个核，哎，大致推断一下，大概有几个细胞类型，哎，几个细胞。哎，通过这种方式呢，把它进一步分解，哎，每个点比如说含有3个核，那就把它分解成3个细胞，哎。所以就会拿到像cell track, 哎，也是一种单细胞分析的，单细胞空间联合分析的一个软件，哎，节卷仪的精度会高一点。嗯，不过这个方法呢，目前引用的不多，呃，因为它是依靠核来识别这个，哎，每个sport里面有多少个细胞的。啊，但是更多的呀，我们希望能拿到细胞的一个边界，就是细胞质的一个区域啊。当然这个方法也发了一个很高的文章啊。这个呢，就是我收集的哎，也是公司哎层面收集的一些高分的一个频率比较高的哎，单细胞空间联合分析的方法，以及这些方法本身发的一些文章。
11:07
大家可以看一下，像threat threatre这个是最早的啊，最早的单细胞空间联合分析最早的，呃，但是呢，它没有专门为这个单细胞空间联合发一篇单独的文章。啊，Threat这个软件自身发了好几篇高分文章，但是它在针对单细胞空间联合部分是没有文章应用的。呃，是没有，就是单独发一篇文章的，但是呢，很多文章应用了这个方法，尤其是在这个空间分析的早期，哎，很多高分文章还是引用它的。哎，这里面写到了它一个特点，其实就是计算这个相关性，哎，单细胞空间的一个细胞类型和空间support的一个相关性啊，从而。拿到这个空间的一个细胞类型的注释信息。下面两个呢，就是刚才一开始提到的高分分析方法s location和RCTD。
12:00
哎，这里面再强调一下，就是说c to location它是专门啊，可以说它是专门为55微微米精度诶。分析的一个软件，它在处理这个初精度，哎，也就是说这个含有多个细胞的时候，哎，它的它的这个表现啊非常良好，并且呢，它会在这个出精度的里面，诶，尽量评估出稀有细胞类型的一个含量的一个风度。这也是为什么在大家在用这个。出进度的一个空间平台的时候啊，发的文章，哎，审稿人一般都要你补充3TO location的结果了。啊，这现现在这都成了公司的一个正常的售后分析了。第二个呢，就是RCTDRCTD的分析呢，它的特点就是说对这个呃，空间数据要求更加严格一点，要求这个空间数据啊，空间的这个s support呀，啊，最多还有两个细胞类型啊，最多含有两个细胞，这样的话，它在结卷机的时候呢，就有两种模式，一种是单点模式，另外一种是双细胞模式，哎，从而推断出这个哎空间上诶美细胞类型的一个空间分布，哎，像刚才提到的HD数据。
13:10
哎，它在合并了8μm16μm之后，虽然说8μm啊，它可能是单个细胞啊，但是大家现在目前来讲，8μm的基因数太少。哎，分析难度比较大，一般会合并到16μm或者20μm这样一个样子，这样的话它很可能就含了含有1到两个细胞类型啊，一到两个细胞啊，口误啊说习惯了，呃，那这样的话就用RCTD的这种方法，哎，进行一个集卷机，哎识别出这个细胞的混合状态。嗯，还有一种呢，像华纳华纳那个数据合并成这个super sport的时候，也是经常用这个方法，RCTD啊呃，像那个什么百麦克那个平台呢，也经常用它。哎，它在这种就是最多含有两个细胞的这种精度的情况下，它的表现就更加好一点了啊，这两个方法是大家必须要掌握的啊。
14:02
接下来还有一些其他的像DSTG啊啊sru啊等等这些方法呢，大家了解了解啊。啊，极个别情况呢，可以用一下啊。大家可以看到这个方法越是发的文章比较偏低。嗯，就是说发的文章没有那么高的时候啊，操作性比较强。啊，你像c to location, 它的这个操作性就没有那么强了啊，因为它要进行大量的训练，确保结果的一个准确性，所以对资源的消耗就会更大一点，RCTD也是差不多一个道理啊，嗯，像这种低分的就操作性比较强了啊，大家可以拿着练练手。嗯，但是做项目的时候偶尔也会用啊，不是说完全这个方法就不能用。还有一个就是刚才提到这个cell track.啊，Cell trackk它本身你看它也发了一个很高的文章，它在这个图片的，哎，低精度图片的一个基础之上呢，哎，通过细识别细胞核的数量。
15:00
来判断每个点到底含有几个细胞，从而解卷积的呀，更加的深入一点。哎，比这个SAN location r7san location更近了一步。啊，精度会更好一点。不过3图鲁，呃，这个3TRACK啊，嗯，它还需要一点实验的验证啊，因为它在识别图像方向方面还有很多一个值得验证的地方。呃，接下来还有什么special scoop啊等等，当然我这列了1234567个啊，当然还有一些其他的像spotlight呀，DSTG啊等等总共的软件。大概啊，当然我不知道统计的全不全啊，不低于20个。然后呢，这个就是发文章的一个现状啊，也是刚才提到的最多的。第一个就是文章呢，拿到空间数据啊，当然首先是看我啊基因的空间表达了，有些老师经常会说我感兴趣哪个基因啊，是吧，哪个基因是靶点啊，一般会直接在空间上，第一步先看看它的空间表达情况。
16:02
第二步呢，就是说做单细胞空间联合了，哎，想知道具体的细胞类型，它的空间分布。我们单细胞空间的分析的一个最小的单位呢，就是细胞啊，所以说在分析的时候呢，单细胞空间联合现在也是标配。大家可以看到引用最多的就是sal to location, 哎，早期引用最多的是thread，现在引用的不是很多了，诶，RCTD, 哎，应用的比较多，它它们之间的区别呢，刚才强哎已经强调过了。第三呢，随着时间的推移呢，最新的文章一般都采用这个style to location来进行联合分析，哎，这个大家可能如果不在公司待，或者说自己没投过文章啊，可能没有感觉。呃，如果自己投文章用了这种低精度的，哎，申告人一般会要求你补这个结果。呃，你像我一样，大家如果跟我一样在公司做这个生性分析，做合作项目。哎，有些文章如果没有用这个方法进行联合，得到的分析结果呢，审稿人一般会，哎，回一个意见，就是说让你用31特鲁克森再做一下。
17:04
哎，作为一个分析的补充啊。第4个呢，就是联合最好采用匹配的样本，哎，这个对大家要求也比较高，呃，首先成本高了是吧，既能做单细胞又能做空间，哎，这个成本是相对比较高的啊，第2个呢，就是说这样的话，哎，结果更准确。即使是相同组织，哎，不同病人之呃，不同人之间或者不同来源的时候啊，他的表达情况还是或多或少有一些差异的。嗯，这样就会导致在计算单细胞细胞类型特征的时候啊。呃，有一些偏差，这样的话，结卷积的结果就没有那么的准确了。所以就会有这个联合呢，每个软件，几乎每个软件啊，都建议大家在联合的时候采用这种匹配的样本。呃，第5个呢，是目前的一个趋势啊，就是时间，随着时间的推移呢，这个空间的文章也越来越多了。
18:01
现在单细胞文章发了1万多篇，哎，空间发了多少呢？呃，按照样本类型来算，呃，包括这个，呃，冷冻切片，嗯，FFP等等，包括zenium这种HD啊，就把这个，把这个所有空间平台都算上，呃，不到1000。那么这样的话，在分析。分析，哎，分析的已经走在前面的一个情况下，呃，样本数量没有那么多的一个，呃情况。呃，说明啊，空间的这个发文章潜力是远高于这个单细胞的。啊，这个大家也都理解啊，物以稀为贵啊，越少肯定越有价值去研究，包括之前提到的那个单细胞AT以及单细胞VDJ发的文闸，跟单纯单细胞转录组比，哎，都不是一个数量级啊，当然分析难度就会加大了。拿到读组学数据，如何进行一个很好的分析，对人的要求是比较高的啊，虽然发的文章比较高，当然对人的认知以及分析能力要求也是比较高的啊。
19:02
下面这张图呢，就是一个简单的一个单细胞空间联合分析结果的一个展示图啊，拿到一个切片第一步干嘛？哎，上节课刚刚说过啊，第一步干嘛。空间，空间这个组织区域的一个识别。啊，大家可能不知道什么区域，但是大致要看看这个区域的一个分布，比如说颜色深浅等等，第二步，哎，通过这个数据联合之后呢。数据和图像是一种相互呃，相互印证，就是相互呃，相互印证哎，缺一不可，就是两者是相互一个补充的一个状态。哎，拿到这种东西呢，就会看到不同的区域啊，它的细胞类型分布的一个特点。比如说像这个外延区域是这样，哎。中间区域呢，会掺杂一些其他的细胞类型进来。这个细胞类型的这个空间分布，以及空间含量的一个变化，正是我们下游分析所关注的一个非常重要的一个部分啊。
20:00
接下来就是一些呃注释的结果了，这个注释的一个策略啊。大家可以借鉴一下，我放这个图的原因呢，就是说大家在结卷机之后呢，可能会拿到比如说。哎，每个点都是一种混合的一个状态，对吧。但是呢，有的文章呢，为了进一步凸显这个组织的一个，呃，排序的这个。这这个叫组织性，叫扩谱学结构。哎，会在这个，如果这个含量足够高的话，就把它定义成同一种细胞类型。哎，如果这种还有多种呢，就定义成这个mixture。这个策略呢，目前仍然是有效的啊，仍然是有效的，只不过呢，随着这个呃。发展到今天啊，对于空间样本来说，诶，当然是越精确越好啊。这个呢，就是刚才提到的基于细胞核的一个高精度基卷机，哎，之前前面提到的软件叫celltrak啊，当然还有另外一个叫special scope, 大家都是啊，大家可以看到每个圆圈呢，其实就是呃，微字M的一个点啊，径直径大概是55μm。
21:10
哎，它通过识别每个每个点里面啊，到底有几个和。啊，有几个和。哎，从而给他一个初步的判断，告诉他，诶，这个点里面有两个细胞，有三个细胞，有几个细胞等等等等，啊把它进行核识别之后呢，再进，再通过结卷机的方式，哎，来告诉来它来做一个更加哎精度会更高一点的这个空间的一个细胞类型的一个注释。啊，这个方法呢，大家可以借鉴一下啊，随着这个方法论的发展呢，这种售后也变得呃越来越多了，大家越来越意识到这个单细胞精度的一个空间的一个重要性啊。整体的分析流程呢，大概就是这样的，哎，首先呢，我们输入这个单细胞，参考这个单细胞一定要分析好啊，细胞类型要注释好啊，最好是注释到亚类啊。
22:03
然后呢，空间数据呢，就是大家常见的这种，哎，低精度的。低精度的啊。然后呢，和分割就是来识别和的，每个点里面有几个和。就代表了有几个细胞，最后呢，通过节俭基，哎，节俭基就是参考细单细胞的一个细胞类型的一个表达特征，通过节卷基的方式来识别，哎，这个核到底是属于哪个细胞。属于哪个细胞啊，接下来呢，就会拿到一个整体的一个。更加精度更加高一点的一个细胞类型的空间入室啊。嗯，接下来就可以做一些空间临近通讯啊，哎，相互这个数据矫正啊，等等等等一些下游的个性化分析了啊。嗯，31CHECK之前提到过了，跟刚才那个special scope的原理是差不多的啊，也是依据每个点它识别几个核，然后来进一步推断一下这个单细胞级的空间细胞类型的一个分布状态。
23:08
嗯，这个图呢，其实大家可以简单看一看就可以了，哎。他的一个总结呢，我已经写在右边了。第一个就是将视细胞直接定位到组织切片上，切片的照片上，呃，因为它识别了核，呃，对核进行了一个识别，所以它的精度会相较于之前更高一点啊。而我们前面强调的那个c location RC, 那个RCTD啊，更多的还是依据这种节选1的方式来分析这个SPA的内有多少个细胞类型啊。第二个呢，就是说它这样的一个分析啊，对下游的分析，哎很有一个好处啊，比如说哎做细胞类型的共定位，哎空间基因的共权重等等，当然精度越高，这种分析就更加的哎越更越更加的准确，哎所以说呢，这个方法大家可以借鉴啊，可以借鉴已经成为公司售后的一部分啊，会在这个跟客户介绍的时候推一下他。
24:04
啊。RCTD是相关性，去卷积有计算相关性了吗？去卷积啊，去卷积的原理呢，就和大家怎么说呢？炸一杯果汁是吧？用了苹果，香蕉、梨榨了杯果汁。呃，要计算这个含用了多少苹果，多少香蕉，多少梨。啊，虽然不能直接的预测出来，但是有其他的一些指标，比如说呃，知道苹果的甜度，香蕉的甜度，呃，梨的甜度，还有果汁的甜度。还有一些其他的，比如说含糖量啊，酸度等等等等，依据这些指标呢，来推断出含拥有了多少这个。哎，苹果，哎，多少香蕉给它混合而成的这样一个果汁，哎，大概这样一个聚卷机的过程啊，相关性当然就是threatre，刚才提到的计算相关性呢，其实是一种投映射的一个卷积方法啊。
25:05
音色的卷积方法呢，其实就是计算相关性，相关性越高呢啊，自然含有这种细胞类细胞类型的比例就越大啊，但是这这里要注意啊。这些呃，无论是哪种结转结节的方呃，无论是哪种联合的方式。都是基于在单细胞特征计算的基础之上。进行一个呃，基础之上。进行的一个分析啊。匹配的样本怎么理解同一个样本还是其实就是同一个组织切一切两半，一半去做了空间，一半去做了单细胞啊，这样的就当然更准确一点啊。如果没有匹配斥资的方案，那就是公共数据了啊。不过公共数据的话，大家。呀，能找到那种很匹配的公共数据，现在这个难度也是也是不低的。是不是单细胞核测序的和这个匹配更精准，单细胞核测序呢？现在血因在做啊，如果真正能达到单细胞核测序的话，其实就不用结卷机了啊，已经知道这个细胞类型的空间的一个位置了，只不过单细胞核测序现在有很大的问题。
26:15
一个就是细胞丢失率太高了。呃，最高能丢一半。那这样的话就不是我们想要的一个。结果了对吧。所以说呢，更多的还是用现在这种方法更多一点啊，细胞核测序什么时候它能达到捕获率达到80%以上，就是说空间的核呀，它它这个经过空间处理之后，哎，拿到中标之后呢，细胞核的丢失率呃，低于20%，哎，那这个时候技术就可以了啊，当然还要配套很好的分析软件才可以啊，这个还有点长啊，不知道能不能做的更好一点。最大释染法吗？计算机有的方有的软件用的最大释染法，嗯，有的不是啊，像塞图洛克逊不是用的最大释染法啊。
27:00
有的用的是线性模型，有的是一种随机森林模型等等，各种模型都有啊。嗯，当然模型之间的一个，呃，准确性的话，其实都是鲜艳的。就是说在评估每个软件它到底对不对，其实是鲜艳的，比如说我已经知道空间这个部分，哎，细胞类型含量是多少。并且甚至有可能都知道了细胞类型的空间分布了。哎，这个时候来验证，哎，软件到底几卷集的准不准啊，通过这种方式来验证哪种方法会更好啊，当然通过这种时间的验证的话，三头location开当然会更好一点啊。呃，相同的组织单细胞，呃，转录组和单核转录组与集转移的空间组织哪个更合适呢？这个还没有定论啊，在文章中，哎，在文章中大家看过那个。呃，心肌梗死那篇文章发到了内侧，那篇文章他就用的呃核测序与空间的结算剂，当然也有一些其他的文章，比如说像研究这个卵巢发育的时候。
28:03
他就用的单细胞转录主义捐献剂。节俭机的一个，呃，节转机一个过程啊，涉及到一个叫共有特征的一个提取，也就是说。空间转录组表达的基因与单细胞转录组表达的基因，哎，其中有一些高变基因重叠的部分，哎，把这些拿起来作为主要的一个特征输入进行一个分析，所以在分析的过程中啊。单核和单细胞目前都是可以的啊，都是可以的啊。我说的单细胞核测序是不是比单细胞测序去匹配空间转录组更准，就是精准啊，不一定啊，不一定，单核测序如果大家了解过的话，单核测序测到的基因数是比单细胞转录组要低的啊，低很多，而且在做细胞类型注释的时候，大家就可以看到单核注释和单细胞注释还是有区别。说明有些marker啊，哎，并不是那么的适用适配啊。
29:00
哎，然后这就是，哎，就这篇文章啊，就这篇文章，哎，刚才提到的他这个用31TWO鲁森在结卷机的时候啊，就用的是单核数据，当然他还做了a attack数据，哎，结像仪的效果其实是相当好的啊。通过这种联合的方式呢，拿到这个每种细胞类型，它在空间的一个分布状态。哎，从而拿到了我们接下来往下走的一个非常重要的一个矩阵，就是细胞八口的矩阵啊。中间有几个矩阵呢，这个之前在之前的推文中，哎，写了已经写过了啊。矩阵有多少个第一个。哎，就是我们常见的这个基因8g的矩阵，每个点的基因表达值，第二个就是细胞8g的矩阵，就是这个的，就是这个结转基得到这个矩阵第三个。淋域矩阵啊，淋域分子矩阵，就是说每个点它周围的细胞特征的一个矩阵，第4个呢啊，当然和共定位有关啊，就是邻域细胞矩阵，就是一个细胞它周围的细胞的一个表达情况，形成这样一个矩阵啊，4个矩阵加上CV啊，打分啊，这种矩阵就更多了啊。
30:06
你像这个，你像这个做这个，哎，发育的过程中，哎，做这种。做这种发育的过程中呢，他用的这个单细胞和空间联合分析的时候啊，啊也用的是31图鲁科的一些个高啊也这个方法，哎，发的文章都非常高啊，发的文章都非常高，所以说现在大家比较公认这个方法，哎，认为它解卷仪的效果最好。而且对细胞类型的一个趋势啊。哎，更符合它的形态学特征。通过这种方式呢，拿到这样一个比较好的一个细空间细胞类型注释的一个结果。啊。这都是高分文章啊，都发到那了啊。啊，它的一个联合方法也是用这种三图location啊，所以说3LOCATION在单细胞空间联合结转机的一个地位啊。相对比较高的。这也是为什么空间转录组。呃，方法上更多的是Python版本的一个原因啊。
31:03
这个地方呢，有一个需要注意的地方，就是说它这个样本啊，不是完全匹配啊，不是完全匹配，哎，咱用的同阶段的就是尽量匹配。同阶段的。啊，这样的话，结卷仪的结果呢，也是可以接受的啊。也是可以接受的。哎，接下来呢，又有一些其他的高分结卷积的分析方法，大家可以看一下啊，这个呢，在在上一节课讲，哎，讲课的时候讲到过节卷积的结果呢，大概率。啊，就是说完全的就是说在正常的情况下，应该和我们的形态学啊，呈现出这个大致一致的一个分布，就是细胞类型，酒卷机之后呢，它的一个细胞类型存在的一种混合状态。和特定的区域特征有关。哎，这个方法发到了N，这个文章发到了NG啊，它也是用来这种高分的，这个借卷机方法。
32:02
哎，大家可以看一看啊。像tracker基于这种核识别的。啊，用cell ranger输出的高精度图片能做吗？还是要用原始的T？嗯，目前来讲公司都是用T的啊。呃，用三轮子出中的高精度图片，其实已经压缩了很多了，呃，原始的下级数据那个TF文件啊，几百兆。啊，但是那个高精度已经压缩到几十兆啊。它那个肯定图片像素越高，哎，对核的识别越精准，就像z name那个图片一样，非常的大。嗯。你像这种也结卷机的方式也是可取的啊。诶，拿到这个组织切片之后，简单的进行一个画区，然后呢，哎，进行一个简单的注释，这个地方呢，它也是用了这种，哎，不同颜色深浅来代表细胞含量高低的一个，细胞含量高低的一个。
33:04
图片，沙拉图鲁黑浅大家都知道有这种现象，就是说可以展示多种细胞类型，哎，颜色的深浅呢，代表了这个细胞含量的一个高低，从而来从而能直观的看出来细胞类型的空间分布，以及细胞类型在空间分布上的一个变化。哎，这个图也是一样的道理啊，对于我们空间呃转录组来讲啊，尤其是对那种哎，结构非常的明确，哎层次分明的结构，这种细胞类型的分布啊，通常会呈现这种梯度式的变化。这个时候在下一个分析中啊，就会有，就会成为我们很好的一个分析的一个点。哎，包括这种细胞网络，哎，哪种细胞离得近，哪种细胞离得远，包括这个细胞含量，不同区域的细胞含量的一个问题等等等等，就成为我们一个关注的重点了啊。这是呢，收集到的一个高分文献分析方法，它的一个简单的一个总结啊，当然现在高分文献已经发了很多了啊，这里面简单的罗列了一些啊，其中把一些高分的给大家罗列出来了。
34:08
呃，大家可以看到在这个单细胞在这个空间转录组啊，尤其是微任务存在的情况下，主要的分析的一个方下啊，首先单细胞空间联合分析是频率最高的。哎，基本上都要做，也就是说在对空间注释啊，还是依据单细胞注释更加的好啊，依据marker注释确实存在很多的问题。第二个呢，就是通讯啊，这个和单细胞通讯一样，基本上都必做啊，来理解细胞类型，它在这个相互作用上有什么区别，尤其是亚群，比如说5个亚T细胞有5个亚群，它的空间分布肯定有差异，那么它在和周围的细胞类型进行一个通讯的时候。哎，到底有怎样的一个区别，这个是研究的一个核心，呃，研究的另一个重点啊。第3个呢，就是说主要就是固定位了啊哎，固定位呢，主要是研究细胞类型，它的空间排布问题。
35:02
哎，谁和谁挨得近，谁和谁离得远，为什么他俩离得近要离得远，甚至哎，会说两种细胞类型，为什么？呃，正常情况下离得近，哎，疾病状态下离得远了。通过这种差异性的表现呢，来分析空间排布随着这个不同的处理的一个变化。嗯，大家可以看一下，这是和这就是说高分文章常见的一些。哎，分析点，哎，单细胞联合通讯供定位啊。最后一个呢，体现给大家，诶来一篇更加这个高分的文章啊，这篇文章哎，也就是刚才那个文章，嗯，大家都知道单细胞呢，分类亚群，看到它的空间位置，甚至看到它的一个临近状态等等等等等等那些吧。有的时候啊，第一节课讲过啊，突变是基因组上的事儿，它的突变，它的一个变化呢，更加的这个重要，所以说呢，现在有一些文章呢，在借助这个单细胞空间的一个基础上呢，会把突变的信息进行引入啊，这个突变呢，就和第一节课讲的那样，虽然单细胞捕获的突变啊，有一定的范围限制，但是有一些常见的突变啊，刚好就在这个范围之内。
36:15
像KR，哎，就12在第12位发生了这个变化之后呢，就会严重的影响酶活性，导致它细胞的这个状态发生了极大的转变。嗯，还有一些其他的常见的一些突变呢，都是非常的，就是刚好在单细胞捕获范围之内，而且现在随着技术的发展呢。SC单细胞级别的NGS，哎也慢慢的问世了啊，就是对单个细胞的全场转录组的突变，或者说单细胞基因组上的突变，哎，进行了一个识别，哎。结果更加的越来越准确了，啊，这篇文章呢，就经典的用了这个方法，这个方法呢，主要是来告诉一个很重要的一个生物学问题，就是说不同的突变。同一个细胞类型，它如果拥有不同的突变，比如说。
37:02
哎，肿瘤细胞的抑制性诶分了5个区域，它的抑制性是由为突变导致的话，它的微环境以及周围负极得到的细胞类型，哎，都存在比较大的差异。肿瘤抑制性啊，是现在研究的一个重点，因为呃针对比如说5个，呃，肿瘤抑制性很高，分了5个群。呃，治疗了其中一个群，另外4个群还在，就会获得生长优势。哎，导致这个肿瘤不见好转，所以对他一个更加全面的认知呢，哎，对我们之后的研究啊，都非常的重要啊。嗯，突变和空间的关系呢？哎，这个大家也是研究的一个比较新兴的一个点啊，呃，当然空间转录组他做的是三片数据，它在一定范围内也会捕获到突变，哎呀，这个在第一节课已经讲过了啊，大家如果有能力的话，可以做一做不同的突变的细胞类型，它在空间上的一个排布状态。哎，包括微环境状态。
38:00
呃，这是一个比较非常新的一个点啊，不过慢慢的也在售后中开始运用它了啊，也在运用它。哎，这个地方也是一样的啊，单细胞它在分析突变的时候，不同的突变通常会聚累成哎小的芽群，大家看看这个突变能涉及到多少，呃，TB53。啊，各种deal delicious, 还有扩增cur us扩增等等等等啊，它在这个单细胞上会呈现出一种不一样的一个状态啊。这种不一样的状态呢，对吧。来到这个首先呢，是影响它表达的变化，其次呢，就是影响他微环境的变化啊。所以说呢，现在多组学是未来的一个趋势啊，比较重要，比较重要，大家如果将来想要跟上时代，甚至想要发很高的文章的话啊，其实这种多组学来源的数据啊，已经是非常的普遍了啊。还有一些其他的文章，Very well, 比如说这个呃，Development cell这个文章，呃，也是用这种转机的方式来看这种每种细胞类型，它在空间上的一个分布的一个趋势。
39:11
哎，各个细胞类型它待在固定的位置啊，然后呢，分析这个细胞类型它和周围细胞类型，它怎样的一种哎状态哎，无论是通讯啊，还是区化因子啊等等等等下游的一些个性化分析啊。都非常的重要了。最后一个呢，我们就是要识别区域细胞类型的一个细胞分析，呃，细胞的一个负极状态，为什么要分析这个呢？这个是为下游的做空间临近通讯做准备的，大家都知道31TO location, 呃，不是大家都知道那个31分DB或者31T等等其他一些分析空间通讯的软件啊，它需要一个文件，就是生态位文件。来表征这个生态位啊，就是每个区域到底含有怎样的一个细胞类型。我们要分析得到这样一个文件，哎，生成这样一个生态位文件，就是空间区域，细胞类型，腹肌的一个状态等等，所以说要做到这一点啊。
40:06
好了，这就是对单细胞空间的一个简单的一个。哎，简单的一个了解啊。当然了，其中涉及到很多内部深层次的一个算法啊，但是简单的来讲就是说首先对单细胞的一个表达特征进行一个识别。哎，单细胞表达特征一个识别。然后呢，通过通过这个联合分析的方式，哎，来对这个空间的port精进基计算机拿到它，哎，细胞链接含量的一个变化啊。这个替货哪里了啊？公司会给啊。啥叫依靠marker注释呢？就和单细胞一样，单细胞注释大家不都是依靠marker吗？但是空间它因为它是混合状态的话，注释的就不准了。经常会出现这种一个marker很离散的这种现象。
41:02
而且对它的含，对这个每个细胞的含量，就是说我们想知道这个区域细胞含量有多高啊，完全没有帮助啊。如果是公库，呃，公共数据没有提供T啊，我跑了一个PNG，然后转成TF。啊，这样的话在识别和的数量上就会有很大的问题啊。在这个识别图的，在对图像对和呃图像的和识别的时候啊，对图像是有要求的。去跑space range啊也不行啊也不行。呃，精度要高一点啊，精度要高一点，不过这个地方呢，我建议你把它转成之后呢，用loop人工的把区域圈选圈选生成一个专审文件。哎，那个就好多了啊。他这种突变做的是拍脑，是SRN去扣啊，现在还是RN，呃，就是单细胞数据直接扣啊，单细胞没法拍脑啊。一般审稿人。
42:01
认不认这种转录组靠的图片呢，他既然文章都发了，肯定是认啊，都发了这么高了，肯定是认啊。好了，我们休息5分钟啊，休息5分钟，我们来看看代码部分好吧。休息5分钟。
45:09
这种突变频率靠谱不，需要IGV看一下吗？啊需要啊需要。尤其是那些非捕获区域的更需要啊。开发了一个用病理斜边推断空间转录情况的，这个在之在19年20年就已经有了啊，只不过这种数据推断呢，需要很庞大的数据进行训练。啊，这个训练量是非常庞大的啊，目前还没有一个很好用的一个训练机，呃，就是这个训练的成果出来。能达到RD的精度吗？现在RD阴性的预后也很差，单细胞能解决这个B吗？这肯定解决不了啊，哦，你还知道RD啊，你也可以啊。说明你在这个医呃医疗圈子还嗯知道的挺多啊。
46:04
单细胞解决不了这个问题啊。好，这里面再强调一点，就是单细胞空间联合啊，首先第一步。单细胞要，诶很好的注释。最好能注射到亚类。啊，因为s location它在识别稀有细胞类型是非常有优势的啊，当然如果大家用的是那种华大呀HD啊这种哎单细胞也要注释的哎，相对精准一点。啊，用RCTD进行一个联合分析，第二步呢，就是说通过单细胞特征的一个表达值，哎，每种细胞类型的特征表达的一个情况，哎才节卷及空间上每个点的一个分布状态，当然这种节卷机的算法呀，非常的多啊，像c location就本身就自带了好几种，当然还有一些其他的像这种NMF的节卷机算法，包括这个线性模型的计算机算法，包括随机森林的计算计算机。
47:04
啊，最大释然率也有用的啊，等等等等各种方法吧，节卷起来的效果，但是评判它节卷机是否准确的一个原则呢，就是先验。哎，我已经知道了空间上它的一个细胞的分布状态以及含量变化，对不同的方法进行一个测验。看看哪种方法最好，哎，哪种方法最好我就用哪种。目前来看，审稿人包括这个高分文章更加青睐赛to location啊。好了，接下来我们来看一看我们的代码部分啊。关于山头location啊，大家在跑的时候啊，可能那个遇到的麻烦会比较多啊。不太容易解决。一方面对算力要求比较高。呃，另一方面对这个，哎，大家的逻辑思维啊，要求也是比较高的。
48:06
我们来找个节点啊。哎，找个空闲的节点。29吧。首先呢，我们来加载啊，加载我们的脚本。首先我们来加载啊，也是封装类的脚本啊呃，这里面，哎，跑代码的时候大家会遇到一些，哎呀，我觉得可能是需要大家考虑的问题。第一个就是说单细胞。哎，可不可以多个样本，哎去节简，哎去解一个空间转录组呢。哎，可不可以呢？
49:02
3亚托鲁维克森呃，塞亚托鲁培森给了这样一个计算机的方法，就是说多个样本可以匹配单样本。包括其他软件也有类似这样的算法，Threat自己啊，自身就自带这种方法，哎，多个样本计算细胞特征类型，然后进行解卷机啊。可不可以呢？可以，但是中间会涉及到一个批次的问题。这个批次如果处理不好，结卷积的结果很容易也是错的啊，所以我推荐大家在做结卷积的时候，最好还是1对1。哎，这是最好的，也是这个高分文章，就是前面提到的那两篇内水文章啊，用到的一个方法，但是也有一些其他高分文章，比如刚才提到那个卵巢发育的那个。哎，他用了同阶段的一个单细胞数据。这种不匹配的数据结卷机，效果也还可以啊，当然还有一些文章呢，是多样本结卷机的。啊，同类型的，比如说同类型有三个样本，它为了呃，因为单样本确实存在一些信信息丢失的一个情况，三个样本进行联合的一个细胞类型特征的提取呢，啊自然他认为会就是文章认为更准确一点，用的多样本精选机。
50:11
啊，但是我这边个人建议大家还是最好能一对一最好啊，就是说。嗯，我这个样本一半去做了空间，一半去做了单细胞，联合的时候呢，就把这两个两部分的样本进行一个联合就可以了。啊，我们接下来读取我们的空间数据啊，这空间数据大家用这个10层的这个文章就可以了啊。然后呢，第一步干嘛。哎，数据整理。数据整理大家看一下，读出来之后啊，有一些基础的信息啊，包括他是不是组织。我们来看一下啊。
51:05
啊，有一些，哎，常见的基础信息，包括基因的一个信息。等等等等啊。这个在处理的过程中啊，为了保证分析的一个准确性啊，沙托鲁文森采用了这个基因ID的一个。呃，基因ID作为它一个行名的这样一种模式，而不采用基因symbol，大家可以看基因symbol通常有点1.2这种现象。哎，说明他们起的名都一样。啊，就是多个实验室一同发现的，同时起了这么个名儿。哎，导致它的这个命名不唯一，而ensemble呢，是它唯一的标识服务。包括HD n cid也是一样的啊。第一步呢，就是要对它进行一个数据的替换。Sample sample, 呃，这里的sample我们随便起个名啊，我们起成test，这个sample啊，就是大家的这个样本名称。啊，我这里测试呢，就用test。
52:02
首先呢，添加这个样本的一个呃名称。这个三宝啊。然后呢，是这个申保刚才好像已经转换过了啊。导致他这一步跑的时候出错了，已经转换过了基因ID，已经成了行名了。啊，不过把这个symbol给破坏掉了啊，我们重新读取一下。重新读取一下啊。然后是第一步，先附行，呃，先附样本名。哎，拿到这个样本名称，第二步呢。把它的行名进行一个转啊，把它这个行名啊，转换成它的某一列信息，大家可以看一下，一开始行名是这个H，这个金symbol，哎，把它提取进来。提升新的一列。
53:01
同时。把这个基因ID这一列换成毫米。他这样啊，是为了这个基因的结卷机更加精准，为什么要这样做呢？因为就是刚才提到的，呃，基因C存在这个多个多个基因一样的一种情况，它在识别的过程中匹配不到。然后呢，接下来就是一些简单的处理啦，包括去除这种基转基不需要的一些特征，比如说线粒体基因这种就不需要啊，我们基转机不需要这样的基因特征啊，就把它剔除。接下来呢，是读取单细胞数据啊，单细胞数据呢。有2种读取。哎，两种录取，这个和大家的分析习惯有关。呃，你像这个在这个，呃，如果说大家的单细胞数据是这个，呃，Threat这个分析之后呢，Threat当然它可以直接转化成H5AD对吧。啊，当然也有人，也有人呢，是把这个外这个矩阵啊。哎，给它写出来，包括它注释信息写出来，写成个CSV文件，写成个metadata.tsv文件，这样的话在分析的时候啊，就要需要有两种读取方法。
54:09
一种呢，就是读取时成的这种默认模式。哎，就是刚单细胞也是实成的那个文件。呃，或者说这个地方啊，同时兼容那种读取H5AD的模式。还有一种呢，就是说读取CSV的，就是说thread把这个矩阵写出来，哎，把它的细胞类型注释写出来，要读取这个CSV模式。两种模式呢，大家在这个写脚本的时候要兼容一下个人推荐啊，既然个人推荐啊，如果大家非要用这个threat进行一个。哎，单细胞分析呢。啊，就把这个矩阵写出来吧。你像我这里演示的就是这个。啊，演示的就是这个矩阵的模式啊。不值啊，不是等于。就是这种。哎，矩阵的模式啊，来我1的一个单细胞矩阵，大家可以看到，就把咱们的矩阵写出来了。
55:04
列式八口的行式，这个基因啊，包括它的Meta data塔，就是这个细胞类型注释的一个信息，包括它的一个属于哪个样本的信息，这这里面啊，涉及到一个多样本的问题，这里面有确实是多个样本啊，但是在分析的时候，我希望大家能一对一啊，但是有的时候啊，单细胞那个捕货项细胞量太少了。呃，比如说。嗯，一个一一个样本呢，直播了3000个细胞。而平行的样本呢，有的捕获了1万，这样的话在细胞识类型识别上就存存在问题了，有些细胞类型它确实过少的话，也不行啊，也不行。就是在正常的情况下，比如单细胞也捕获了1万个细胞，各种细胞，各种细胞类型呢，都比较齐全。哎，这个时候呢，一对一的计算机，如果说这个单细胞样本比较差。啊，细胞量也少，某些细胞类型甚至都没有，这种情况下，那只能多样本联合了，多样本联去直接连接了啊，这个大家要视情况而定啊。
56:04
哎，这个里面指定一下我们的这个单细胞数据。啊，然后是。啊，应该没有了，我们直接读取吧。哎，我们稍等一下，读取一下这个单细胞矩阵啊。啊，随着这个现在的发展啊，对单细胞研究啊，越来越靠向临床了，就像刚才同啊，刚才这位叫这个。录的同学提到的这个MRD这种，呃，临床检测的一个手段呢，呃，希望呢，当然从临床的角度来看，希望单细胞这种高精度数据能够解决我们的这个预后的一个问题。呃，但是呢，实际上还是解决不到啊，虽然说单细胞精度比较高。但是它检测的基因数很少，而且是转录组水平。而RD呢？RD是要干嘛的？是要检测基因组片段，而且经常要拍呢，捕获不到单细胞根本就没法捕获啊，哪一管血根本就捕获不到啊。
57:10
你看像poly它怎么补货对吧，肿瘤细胞它那些。有单细胞的DNA啊，有现在有单细胞DNA，不过成本非常高啊。你像肿瘤，它释放出这个CTDNA啊。根本就没法捕获啊，它是DNA片段存在我们的血清中啊，根本就没法捕获啊，单细胞得首先得捕获到一个活细胞啊，所以说根本就不可行啊。Mid更多的还是要加大测序深度啊，加大测序深度，尽量的检测到那些。呃，微小这个肿瘤片段的一个含量啊。当然了，现在对于这个零件行业来讲。Midd啊，还是一个mid，包括这个肿瘤早塞各方面的精准性。还是没有，还是没有一个非常靠谱的方法啊。
58:01
来我们稍等一下啊，我们读取一下啊。All.干细胞这个有点慢啊，沙拉图鲁根这是相当限速的啊，相当限速的它需要GPU，它需要这个大的训练模型。熬夜啊。忘了加载OS了。背部在这儿，忘了把这行代码粘进来了。啊，不过我们的这个数据应该是读进来了啊，这软啊，这个应该是读进来了，只不过他在删除这个临时文件的时候，哎，没有删除啊，忘了加载OS了。接下来呢，单细胞的处理和空间的处理是一样啊，先对信息进行处理，把刚才的那个啊，基因信息啊，换成in三包啊，包括我们的注释信息也要换到这里面的class的，就是我们的注释信息啊，就是刚才提到的这个Meta data的这个信息啊。
59:12
它的细胞类型，包括它的一个样本分组等等。哎，我们拿到这些数据啊。把它附给附进来就可以了啊。把它附进来就可以了，这个时候呢，拿到的单细胞数据啊，就有了我们想要的一个内容了，包括它属于哪个样本，诶它的细胞类型啊，有这个信息就足够他训练了。哎，我们来看一下。哎，Self type.哎，3TYPE除于那个类型，当然这里面我是大类啊，需要细胞还是大类，大连自己分析的时候啊，哎，更多的还是要依据小类。小类更好一点。因为c location, 如果大家看了它那个文章的一个内容的话，就会发现他在发现这个就是。就是叫什么稀有细胞类型号，哎，很有优势啊。
60:02
接下来呢，就是一些简单的处理了。哎，这里面我专门标注了啊。非常的限速啊，非常的限速，像这个地方，这是限速的第一步。哎，这个地方在干嘛呢？计算单细胞的表达特征，哎，非常限速啊，250的话得计算计算老半天啊，但是我们演示的话就计算的少一点啊，计算10吧。10其实他也得好，也也也得一会儿啊。啊，为什么要设那么高呢？训练的越多精准确度越高啊，大家可不敢跟我演示的一样，设了个10啊，不可以啊，我这里写多少，大家就不能低于这个数，比如我这写250，绝对不能低于250，如果计算机不允许，哎，也要把它投到后台，或者借助别的计算机的力量来进行计算，千万不要牺牲准确度啊，大家做项目千万不能牺牲准确度。啊，其实这样，它其实计算量也是比较大的啊。
61:06
哎，比较大。稍等一下啊，我让他计算一下。哎，再往下呢，其实就是对单细胞的一个特征计算之后呢。哎，挤转机了，哎，挤转机的计算量就更大了啊。啊，你看大家我只写了个10大概运行了大概。不到两分钟啊，不到两分钟，如果写250这样一个高的数字的话。大概得运行不到一个小时吧，哎，相当限速啊。当然这还不是最限速1。
62:01
啊，接下来就是一些简单的一个数据处理了，啊，就它的一个全局特征的一个提取，包括它的一个。啊，包括他的一个信息的一个信息的一个，哎，付给空间数据，哎，放到空间的一个sloe里面。嗯，放进来。拉进来之后呢，哎，提取了就提取它的一个基因表达信息了啊，我们来提取一下啊。提取一下。提取完之后呢，进行简单的一个数据处理啊，大家可以拿到单细胞的一个基因表达特征的一个信息了，我们来看一下。大家可以看一下每个的每个细胞类型，它的基因表达这个特征信息啊，就已经提到了。大家要注意啊，这个不是表达值啊。这个是特征值，就是相对特征值啊。经过训练得到的啊，当然这个值啊，我是用的这个10。啊，我前面设的10，所以这个训练值啊，不是很准，大家可不敢设10啊，设至少250啊。
63:03
接下来呢，就是什么。首先呢。单细胞和空间共有的基因就是高变基因的部分，共有的基因先都抽出来。他们既然要计算特征的话，首先要计算相同的特征，特征的第一来源就是基因。特征的第一来源就是基因，这个基因要双方共有，就是单细胞空间共有啊。第二个呢，就是对它，哎呀进行一个啊模型啊，其实就是大家所谓的这个继续训练的一个模型，单细胞的一个特征来训练。哎，空间数据啊，这个地方就相当的限速了啊，大家可以看到它这个值有多大。3万。大家觉得3万这个值高吗？哎，3万这个职高嘛。哎，其实不算高啊，不算高啊，仅仅是单细胞空间的一个联合分析，如果大家像做那种肿瘤早筛啊。
64:00
或者说是那个，呃，其他的一些机器训练哇，那都是几十万的训练量啊。举一个最简最极端的例子，就是大家常用的那个TRY的GBT。的GPT。它的训练量多大呢？几十万亿，相当高啊，相当高，但是呢，3万的数量啊，对我们计算机的性能要要求也是相当高的啊，一般都顶不住啊，本地演示更就更加顶不住了，所以说在演示的时候呢，一般要数量小一点啊，我这里就写20吧，大家自己跑的时候这个代码封装类的代码。参数配好之后呢，就把它投到后台就可以了啊，虽然跑的慢一点，可能跑个一两天，但是千万不要本地演示，很容易崩啊。这个地方呢，还有一个刚才前面提到的，如果是多个单细胞样本，哎。会有这个批次的问题，这个批次就是每个样板大概抽多少个细胞作为它的一个特征来源呢？啊，一般是2500啊，不过我建议大家不要这样啊，就最好是一对一。
65:00
最好是1对1。大家看到，哎呀。20他认为20是最，20已经超出最下限了。啊，任务超出最下限不能训练。50吧，啊也不行，大家记住啊，一定要投到后台啊，千万不要本地运行啊。我的计算机已经，哎不行了，像这个GPU啊，没有可用的。呃，TPU也没有可用的啊，IPU什么的都没有，就是说高算高算力的一个核心啊都没有，所以他在预算的过程中啊，就会不让你运算啊，这是这是计算机的一个自我保护功能啊。大家在计算之后呢，简呃计，其实计算完这一块之后啊。就开始干嘛。哎，可视化了，就是拿到我们刚才PPT演示的那些结果了。就是刚才的这些结果了。哎，像这种结果，哎，包括这种结果都能拿到了啊。
66:03
都可以拿到了，然后最后呢，仅仅是演示，呃，仅仅是这个可视化一下，把它写出来就可以了啊，这就是31图回的一个脚本，大家根据自己的服务器性能，哎，拖上去。这里面简单给大家看一下这个跑出来的一个结果啊，跑出来的一个结果啊，这个结果是我跑出来的。Assp.h为0。保存的格式啊，这个H5AD就和lite一样，是RDS格式啊。对。大家可以看到有很多的信息，其中啊，大家如果跑完结卷机有这个信息，就是OBSM有这个单细胞空间的这个细胞八库的信息啊，我们来看一下。电。一般采用Q05的状态，哎，为什么是Q05呢？它是一种显著性的一个判断指标，知道吧，就和大家0.05，哎是一个显著性的一个指标一样，低于0.05说明它的一个。
67:12
哎，可信度就比较高了，这个时候呢，大家就会拿到我们一个8扣的。对应的细胞类型的一个信息，当然前面是一个前缀啊，这里面就是细胞类型了，AT1AT2，大家可以看到这个有多少列啊，有多少列。啊，这么多列啊。呃，这里面就和前面提到的那个特征有关了，就是3个透鲁可诊，在识别稀有细胞类型人比较有优势，哎，所以在定义的时候一般会定义的更加细致一点。哎，拿到这样一个更加细致的一个分析结果。嗯，脚本还有一个小问题，还有一个值得注意的问题是这个。前面的这个。哎，创建训练模型的时候啊，每个点大概大概有多少个细胞呢？这里写了30个，大家觉得这可能吗？肯定是不可能的，就是说一个点怎么可能含有30个细胞类型呢？那为什么要写这么大呢？
68:13
就在于这个细胞类型，就是说写这么大的一个数值啊，不是说它真的含有30个细胞类型。而是要告诉他这个地方我要解卷积的。更加就是说。精细一点，把它分割的更加精细一点啊，合理范围呢，这个值越大，检出的稀有细胞类型哎，越越多就是越合理。但是呢，这个值不能过大，过大就是空放大了，哎，很容易造成假阳性的结果啊。这个地方大家要注意，官网给的是30啊，有的时候呢，也写成20啊，在在做这个项目过程中啊，这个值。呃，在10和30之间都可以啊，一般写成20就可以了，有的时候呢，如果说哎空间的它那个基因表达过度，比如说基因中文书四五千。
69:04
哎，这个是这个时候呢，值就要写的大一点，因为它可能在这个，呃，基因表达量就是说细胞含量上更加丰富一点，哎，这个时候就要写的大一点啊。哎，接下来呢，拿到这个HH5VD文件啊，接下来我们要干嘛。哎，我们要实现这个这个这个内容区域细胞类型负极的一个分析啊，这个分析呢，刚才提到了就是为了为了干嘛，为了这个做临近通讯有关啊，临近通讯的准备文件就是那个生态微文件，我们要准备一下，大家拿到这个结果之后啊，都一样的啊。都优先把这个文件先拿到，为后面的邻居通讯做准备，如果采用CDB或者CL tradet或者net这样的一个分析方法的话，当然还有其他的分析方法，像ST德恩啊，像。啊comment啊，这种信号流的方法，哎，是另一个方向了。当然下一节课会讲一个配受体供定位的方法，也是一个通讯的一个方法啊。
70:06
我们来做一下啊，脚本我会发给大家的啊。哦，Sell AB羊皮碗啊。这个脚本我会发给大家的啊，大家一定要哎。一定要会用啊会用。啊，接下来我们来啊，直接演示就可以了啊，这个地方啊，不知道大家。哦，等一下啊。学校。啊，刚才读成a data了啊，刚才这个读成a data了，前后的这个不一致了，这里面的变量是a data的with啊，With前后这个变量要一致啊，要不然它识别不了啊。这个地方啊，不知道大家有没有关心过最后一个PPT，哎，这个地方是什么内容。哎，可能大家也没有细看啊，不过这里我要强调一下，行，不用看了，就是细胞类型对吧，列是什么。
71:01
不同的区域，它为什么能注释到呢？就在于和小苏脑一样，哎，海马区各个区都注视到了，那我们真正分析的时候，这个区域是什么呢？啊，大家聚类之后，当然是12345了，对吧，如果说像那种呃疾病样本确实无法区分这个呃，它到底是什么区域的时候呢，就采用这种命名的逆史一。历史二这种这种这种现象啊。像这里面呢，哎，我是注释到了，这是一个项目啊，这里面是注释到的。哎，注释到这个文章，这些各同的不同的一个区域，呃，血管区域，平滑肌区域等等这些区域都已经注释到了，我们就想知道这区域到底富含了怎样的细胞类型。哎，这个时候呢。哎，进行一个简单的绘制就可以了，大家可以看到基本上用的就是Q05。这样一个细胞风度的一个矩阵。哎，然后呢，就是一些简单的分析了啊。
72:02
首先呢，创建一个恐惧症。这个红矩阵呢，就是。我为细胞这个风度做准备的，大家可以看一下，现在是空举症的一个状态啊。然后呢？计算，哎，就是这个时候就计算。每个区域内细胞含量的一个风度了。啊，这个地方用采用的平均值，不过这个时候啊，大家要注意。肌酸的细胞含量丰度啊，要进行归一化啊，不要因为某个细胞含量过高，或者某个细胞含量过低，而忽略了它的一个在区域细胞的一些负极的的影响。负极，负极只是针对于自己而言，就是说我比如说T细胞在这个区域负极，它在另一个区域不负极是相对于自己而言的，但是不同的细胞类型之间会产生比较大的一个干扰，比如说这个细胞类型，哎，它腹肌的程度非常高，另一个腹肌的相对低，这样的话，不同细胞类型在比较的时候啊，啊就会显得这个细胞类型好像不那么重要，实际上啊，它已经在这里负极了，这个这个是大家要注呃。
73:10
额外关注的一个点，所以在复习的过程中啊，要进行均匀化处理。哎，均匀化处理就是这样的零一均匀化啊。01均域化，0~1之间的一个均域化，哎，均一化之后呢，接下来就是简单的绘图了。啊，这个大家，哎，很简单啊，大家拿它画一画就可以了啊。哎，画出来其实就是这张热图，哎，刚才和类似于PPT那张热图啊。嗯，我们出来。应该就是这个路径下的。那不是吗？
74:03
啊，就是这张啊。哎，这个时候呢，我们就拿到了，哎，每个区域它细胞类型负极的一个状态，大家可以看一下。啊，当然这个好像长宽比例不太合适啊，我们把它拉长一点。脚本把它拉长一点。我们拉长一点。哎，不是拉宽一点，宽的高稍来点嘛。嗯。这个稍微宽一点，就12吧。哎，反正大家这个图像啊，要根据自己的调整，像我这种细胞类型特别多的，可能要再调整一下啊，像大家如果细胞类型这几个的话，可以把它这个长宽啊，稍微缩小一点啊。啊，脚本暂时就先这样啊，我们拿到这个结果呢，其实就知道。
75:03
不同的区域复集到什么细胞类型了，比如说这个细胞类型，哎，主要在这个区域复集。尸体细胞类型主要在这个区域，哎，这个区域估计等等等等拿到这样一个结果之后呢，哎，大家如果看过是呃，CFNDB或者其他的一个CL tra啊等等它的一个空间的一个注释文件之后呢，它一般需求两列，一列就是空间位置，比如说这个地方位置。什么区域啊，另外一类呢，就是负极得到细胞类型，就把这些细胞类型啊写在另一列就可以了，拿到这个生态位文件就帮助我们来分析空间领域通讯了啊。这就是CDBCT以及ni net, 它的一个分析策略，它就需要这样一个文件，也是我们需要准备的啊，为什么要强调这一点呢？因为在售后分析过程中啊，很多客户希望能做到这个。啊，所以跟大家说一下，大家如果想用这种方法也可以，当然了也有其他的可替代的方法，比如下节课要讲到的配受体固定位的分析方法，以及后续要讲到的comment ST n的信号流方法，好吧。
76:07
好了，这就是这节课的几乎所有的内容啊，啊，大家有什么问题吗？可以提问啊。这个EPOO公司一般选择多少工资选择的都比较高啊，我刚才提到的单细胞训练是250，哎，这个挤转机的时候是3万工资，工资一般会比这个还要高一点啊。Mid测距还是10万乘5，那当然了，不，你不测那么深，没办法，检测不到啊。最大的。呃，用的一般一般超过5万啊，一般最高我见过5万的，再高没见过了啊。你选择这个多个单细胞的样本原因是啥？就是刚才提到的，如果单样本啊，如果单细胞配对的那个样本质量比较差。细胞捕获比较少，而且细胞类型不全的，这种情况你只能多样本联合进来，哎，把它放进来进行一个急诊去分析了啊，这个没有办法，如果说单样本质量非常好，细胞量也足够，也不去，呃，细胞类型都很都很齐全啊，这种一对一分析是最好的，因为多样本涉及到一个批次的问题，哎，他在分析的时候啊，因为批次的问题的原因，可能会对他，呃，就是原本的这个组织块的一个表达啊。
77:21
扭曲一点点，哎，不是真实的啊。NCLNCL一般10~30之间啊，刚才提到了，呃，公司的话会视情况而定，如果空间的经营中位数特别高，达到四五千，一般会写到30，因为它细胞含量会丰富一点，当然有的时候啊，它那个基因中位数两千一千的这种状态啊，会写的低一点就十二十了，这种状态，这个大家要根据自己的项目而来啊，很多阈值呢，是根据项目来的，不是大家呃一刀切的那种方式啊。这个初试是怎么搞到细胞的？我看到的就是一个简单的list。这个注释曲是什么意思啊？我不太清楚你在说什么？
78:01
这么多细胞亚群，怎么不标注到空间图像上？其实就是画图啊。跟这个一样的。啊，也是画图啊画图。当然了，不是说每个细胞类型它都要搞到空间图像上啊，它是关输他关心的啊，就和这个。就和这个一样，他也不是诶。啊，就和这个一样，他也不是把所有细胞类型都放上去了，他就关心他那几种，像这个他没有那就不放了。我咋知道细胞类型算不算齐全的？很简单呀，现在单细胞都是平行样本居多呀，对吧？一般同类型样本要做两到三个呀，如果你配对的那个样本和其他细和另外两个样本相比，细胞数又少，而且在这个聚类的时候呢，有它不存在的群，那说明这细胞类型不全啊，对吧？啊，现在应该没有说是单个样本直接往上分析的了吧，都应该是有水平重复的啊。如果是这种数据需要计算机吗？不需要啊，不需要。
79:04
你这个有去批次吗？多个样本，我这里面已经是用去批次的矩阵来分析了啊。不过我不建议大家这么干啊，这只只有在极端情况下用一下啊。Z的分析策略和空转是不是还不太一样呢？哎，这个时候就要提到一点了啊，像HD，呃，Z前面的处理不一样，就像我今天讲到的这个单细胞空间联合，它是为了获得细胞类型的一个空间分布。像Z它已经是单细胞级了，它已经得到了细胞类型的空间分布状态了，像HD也是一样，当大家拿到细胞类型的空间分布状态的时候，哎，很多的下游分析都会依据细胞类型的这个空间分布状态展开，这个时候很多下游的分析就是就是一样的了啊，但是前期处理不一样，前期为了能拿到细胞类型的一个空间注释信息呢，会有一些不一样的处理，像这个vim就用c to location处理，对吧？像HDG要用RCDG间基一下。
80:05
啊，像zium它已经拿到了单细胞机了，接下来就要分析空间排布的一个状态了，等等等等，但是Z呢，啊，因为基因素现在比较少啊，据说达到了5000，但是有没有5000有没有人做呢？估计现在还没人做啊。所以说下面的空间排布的一些个性化分析呢，诶各种平台就串起来了，就都是一样的了啊，包括什么coexs cosmic等等都可以啊。就是你那个no的不是注册一个区域吗？怎么注射到细胞类型的呢。嗯，这个你结卷机之后啊，每个点它含有的细胞含量已经知道了，只是把它综合起来，比如说这个区域含有50个sport吧，把这50个sport含有的细胞类型给它综合一下，看看哪种sport。呃，负极程度高，哪种细胞的负极程度低啊？不是定义一个区域吗？怎么做？呃，因为我刚才提到了啊，这个单细胞空间联合三角图鲁黑森这个脚本太麻烦了啊，就是说跑本地跑肯定是演示不了的，所以我就专门把它跑出来的几个果给大家演示一下，其实这里面已经拿到这个矩阵了。
81:12
就是这个单细胞空间联合的这个矩阵啊，就这个矩阵。OBSR.呃，拿到这个单细胞空间联合的矩阵啊，下游的负极，下游的这个细胞类型负极就是基于这个矩阵展开啊。5万其实也是单个单细胞找了个高啊，5万就相当高了啊，像单细胞空间的web summary也就几千两三千的样子啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

追风少年i

第八课：单细胞空间联合分析（cell2location）与空间细胞富集原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐