00:01
好,哎,时间差不多了。我们来上我们的第5课啊,第5课哎,单细胞的这个a tag的数据分析。啊,我不知道大家对a tag的数据接触的有多少啊,我相信应该是比较少的啊。啊,是多方面原因造成的啊。嗯,首先第一个主要的原因呢,就是公司的宣传。大家可以看到公司在大量的宣传这个单细胞转录组啊,很少有公司说,诶所需主力宣传ATC数据的。哎,公司为什么要这样做呢?啊,其实原因很简单啊,A tag的成本比较高啊。无论是试剂成本还是这个测序成本啊,包括分析的成本都是比较高的啊。单细胞转漏组经过这个,哎,各个公司经过试剂优化之后呢,成本已经很低了啊,现在大家做这个实成应该1万左右就能做一个样本了。
01:00
啊,国产的可能更低。嗯,那是a tag, 没有人,没有公司花大大呃,花大的力气去呃优化a tag的数,呃,这个事迹啊,所以它的成本还是比较高的。而且测序来讲,如果严格按照人家A泰克的这个数据分析啊。测序是要用这个P50的。哎,P50的测序数据呢,就比这个P1150要贵好几倍了啊。而且ATC的数据啊都比较大。生成的文件都很大。所以在存储啊,分析啊,成本各方面都比较高啊。第二个AT数据比较。少见的一个原因呢,在于它的一个分析难度比较大啊。大家,嗯,都是在单细胞分析了很多了,对吧。大家看那个网上的教程啊。啊,反正大把大把的这个单细胞的这个分析教程啊,简直可以用这个铺天盖地来形容。啊,这里多说一句啊,大家看这个营销号的这个官方教程的时候啊。
02:04
啊,要有甄别的看啊,不要所有的人都信啊,很多人都是直接翻译官网。关系翻译人家观望的,哎,翻译的还不对,哎,会有误导的作用。对于那些只翻译官网的公众号呢,大家就看官网就好了。呃,当然还有一些比较研究的比较深入的人,他会写一些,哎,文献的思路,包括文献的分析脚本等等等等,包括复线等等,这个就值得大家看一看了。啊,甚至有的人他会在这个分析的角度啊,加上自己的理解,哎,形成新的一个分析角度,或者啊新的分析方案等等,哎,这个就更值得大家看一看了啊,不过这种教程比较少,大家看看这个教程的时候要诶有甄别的看。而相反呢,这个ATC的教程不知道大家看过没有,网上很少啊,相比于单细胞很少。为什么?就在于ATC,它本身的数据难度比较大。对硬件要求比较高,对人的要求也比较高,能够深入理解AT数据的呀。
03:04
不是很多啊,不是很多,分析的好的就更少了。当然了,这个单细胞数据啊,如果想分析的很好,其实难度也是比较大的,但是a tag数据难度就更大了,嗯,第2个还有一个难在于难于理解。比如说我给客户讲单细胞,哎,告诉他单细胞可以做这个细胞类型识别呀,做这个轨迹分化,或做这个什么细胞通讯啊,做这个行为判断恶性细胞啊等等,客户都基本上都理解。但是如果在宣传a tag的时候告诉客户,哎呀,这个a tag数据可以告诉你染色是开放区域。呃,这个调TF调节的某序列。还有一些其他的,包括这个什么染色质,开放的皮克风等等,哎,理解这个的人。啊,立马就从指数下降了。所以综合来看啊,A tag的数据啊,其实无论从理解上来讲,还是从分析上来讲,哎,难度都是要高于单细胞的。
04:07
但是啊,随着单细胞分析的一个饱和,大家都知道现在单细胞发的文章已经非常多了,分析慢慢趋于饱和了,然后现在4个单细胞文章都要求你补实验或者补其他助学等等等等,慢慢的人啊,开始转向这个多组学的一个角度了。而多组学的一个角度呢?ATC就是一个重要的方向。A tag, 它其实是基因组上的一个信息。凡是涉及基因组信息啊,哎,分析难度和理解程度都比较高啊,包括我自己也经常自费呃去听一些一些这个基因组资深的人,听他们讲这些基因组的一个课程啊,都比较难啊,因为基因组包括很多的调控,包括甲基化呀。包括甲计划呀,包括基组装呀,包括这个。呃,可变剪切啊等等等等中间呃,过程非常复杂啊。
05:00
所以说呢。哎,综合各方面来讲呢,AC当下数据啊。呃,就是人们接触它的这个程度啊,并不是很高啊,但是他的一个未来的趋势啊,多数学的趋势必然会引导大家走向。呃,多个分析角度来分析我们的生物学问题啊。我们首先来简单了解一下啊A数据啊。我们简单,呃,简单了解一下Apex数据,比如说这个你看我们的染色质啊,大家都知道是一个高度浓缩的一个状态。如果把我一个把一个细胞的染色,染色质就是它的DNA序列,哎,完全拉开拉长。啊,统计下来呢,可以,这个长度有多长呢。可以从这个地球一直延伸到冥王星,就这么长。可想而知,它到底又是多么庞大的一个信息链啊。但是这个地方呢,有一个。呃,有一个就是说生物学问题,就是说如如此长的一个序列,要把它高度浓缩到一个细胞内。
06:06
哎,细胞我们肉眼都看不见的那种细胞类,这个时候它就要经过高度的浓缩化。包括一级浓缩,二级浓缩,核小体浓缩等等等等,这就是基因组上的事儿了啊,这个理解这个在。基因组层面是非常重要的。然后呢?但是高度浓度缩化之后呢,有些基因需要表达,怎么办呢?哎,就需要从这个高度浓缩化的一个状态把它给释放出来,就和这个哎图片演示的一样,哎,高度浓缩化,但是要表达某个基因呢,就要把这个相应的基因的这个区域诶给它释放出来,让它成为这个RNA聚合酶。可以结合的地方。哎,可以结合之后呢,哎,包括这个TN5转中酶,TN5转中酶本来是一个。本来是一个那个啊,不是人工,呃,不是我们人体表达的一个酶啊,是一个这个从这个其他好像是细菌还是病毒我忘了,反正从其他生物上来了一个酶。
07:05
它可以专门结合到这个开放区域。在开放区域呢,并且把它的序列给它提取出来,经过人工改造啊就可以,我们就可以拿到这个每个细胞,哎,染色质开放区域的一个序列都是什么了。哎,后续经过一些测序呢,就知道这个细胞,哎开放了哪些区域。开放了哪些地方,然后哪些地方没有开放,哎,等等就拿到了。那么,A的数据到底能做哪些事情呢?哎,做这么多啊,细胞类型鉴定。啊,像这个其实这个很简单,它只有开放了才能转录出他的marker基因嘛。大家分析单细胞多了之后发现,哎,我用CD3DCD3E等等定义T细胞。啊,那么CD3DCD3E的上一个步骤是什么呢?哎,就是这个地方它要先开放出来,哎让它可及一下才能转录出来,对吧,第二个发育过程。
08:05
当然,单细胞也可以分析发育过程,但那些发育过程啊,都是一些成熟的RNA分子了。而它的上一个过程呢,就是这个开放区域,这个开放区域其实是先于RNA转录的,它在分析发育的时候是有一个先导性的这个作用啊,它比RNA10合,就是RNA单细胞RNA的这个。嗯,数据呢,更靠前一点,哎,分析的更加好一点啊,精准一点,这也是AT的数据一个主要的一个分析方向。然后就是细胞状态转换了。这个也,这个理解起来就是说呢,不同的染色质开放区域,它必然会导致细胞朝向不同的方向分化,对吧,你开放了A,它开放了B,哎,你必然是朝着两个方向分化的,这个和细胞的分化过程以及细胞的抑制性有关,包括在研究肿瘤和疾病的时候呢,细胞类型受到外界的刺激。哎,它在染色质开放的一个区域啊,也会有不一样,呃,通过这些不一样的开放区域呢,我就可以判定细胞类型,它在各个方向上的一个分化状态,包括状态转变的一个情况等等等等啊,包括研究疾病和肿瘤啊等等,这都是一样的。最后一个就是a tiger, 它比喻单细胞一个优势。
09:16
什么优势呢?就是说它是基因组上的事情。凡是涉及基因组的内容,都可以作为临床应用的一个,诶参考。如果说我们的药物,就是说大家喂了药了。如果只看它基因表达可能没有变化,因为细胞具有这个耐受性,或者说是细胞,呃,现代单细胞测序呢,它是它是一种job seek的状态,所以很多基因测不到,如果变化不大的话,完全就看不出来,但是一旦引起它染色是开放区域的一个变化,哎,这个是可以测到的啊,所以在进行选择的时候呢。就会就会依据他进行开放的一个程度,来看看这个药物是否对。是否对这个细胞产生了哎,该有的影响,表达了一些能够哎,哎抵抗抵抗肿瘤的信息,比如说对T细胞治疗之后,发现T细胞可以合成这个,呃,相应的VDZ序列,相应的基因进行了开放,并且了转录,哎,发挥了它的生物学功能等等啊。
10:18
所以说a tag在这个应用潜力上是要高于单细胞的啊。嗯,还是那句话,大家对a tag的数据的理解啊,目前还。不是很深入,没有单细胞那么深。哎,从公司层面,呃,层面上来讲呢,公司虽然一般不接这种纯分析的项目啊,但是有不停的客户提这个提需求嘛。然后啊,从大多数的客户来看。比如说他要挖掘公共数据。啊,一般都是挖掘单细胞转录组。哎,稍微高端的点的客户呢,他说我要挖机由空间装入去。从来没有一个客户说我要挖掘a attack, 为什么?就在于它难于理解和这个分析难度比较大啊。
11:04
然后这项下面呢,就是一个DNA,呃,转转酶TN5的一个简单的示意图了,大家可以看一下。首先呢,我们的染色质从高度螺旋的一个状态,哎,释放出来,释放成这个可及的状态,可及的状态之后呢,这个TN5转弱酶在这种状况下,哎,就结合到这个。开放的一个区域。哎,我们就可以拿到开放区域的一个序列信息了。还有一些基因组上的一个核心信息啊,包括核小体,它在高度螺旋化之后,它呈现一个怎样的一个状态。长度直径等等,这个如果大家将来,哎,单细胞研究的已经很深了。需要扩展自己,需要,呃,朝着多主学方向演进的时候,基因组上的事儿,哎,就是大家一个很重要的一个方向了啊,当然蛋白蛋白组上的事儿也非常重要啊,大家要有一个方向进行延伸啊,不能仅局限于我会单细胞分析啊,这是不可以的啊。这是新时代对家的要,对大家的要求啊,如果是5年前,你回单细胞已经很厉害了啊,但是现在不行了。
12:07
嗯,至于ape数据能分析什么呢?其实人家官网已经给出了很多的分析例子了,哎,首先第一个前面都是一些数据处理的过程,哎,不,这个我们持续的数据的一个filter就是指库,哎和比对,和基因组的比对。哎,Buck口的count这个单细胞一样,每个buck扣的呢,代表了一个细胞啊,识别这个转录组的cut set, 哎,Cut set什么减轻位点,哎,前面提到了我们的染色质只有在开放的时候,哎,天5转轴酶结合到它这个区域上,这个时候呢,我们需要知道这个开放的区域它位于染色体的哪个位置。哎,这个经过比对呢,就会告诉你,哎,它这个在基因组,比如说在染色体一号啊。第1万个位点这个区域到一万五啊,一万零多少个区域,哎,是开放的这个数据就拿到了。然后这个就是检测可染色剂可及的一个pick pick是什么?
13:03
皮克直接过来就是风。风,哎,像三风一样,呃,但是在DNA的一个数据里面,当它处于可及的状态之后呢,因为TN5转中酶。哎,结合到它了,结合到它之后,它开放的越多,哎,能测到它的睿子数就越多,从而形成一个诶,它的睿子数多嘛,用这个可视化的角度来看,就形成了一个风,哎,Pick.然后就是cell calling, 就是看它是不是有效细胞了,包括产生这个转录因子和PK的一个矩阵,这个矩阵怎么来的呢?这个矩阵就是从这个。呃,A tag测序那个frament就是片段文件而来,这些片段文件都是基因组上补货的一个信息啊,然后是降为聚类,包括差异化,差异化就是。嗯,这个差异化和单细胞的理解是差不多的。比如说单细胞是基因8g的矩阵,哎,那么我做差异化差异的是什么?就是基因表达的差异,对吧?但是AT数据是什么?AT克的数据是这个基因的开播,呃,开放的染色质的一个捕获的一个区域,那么我做这种差异呢,就是不同细胞类型或者不同亚群之间,它染色质开放的一个差异。
14:15
哎,这个就是时辰官方给大家列举出来的AT能够分析的内容,大家别看我简单介绍了一下每一个内容。啊,理解起来和分析难度都和都比较高啊,都比较高。哎,这个是10层的web summary常见的一个,哎,它是不是有效细胞的这个曲线图,单细胞也是这样的,哎,ATC也差不多,哎,但是它大家要理解它这个。哎,理解它这个内容啊,单细胞这个地方是u mi数据对吧,这个是B扣的,哎,Buck code的都是一样的,但是在在AT里面这个就体现了fragments overlapping peaks.Paks就是刚才提到的染色质开放的一个结合区域,哎,它的如果结合的很多,就会形成一个pickak,那fragment呢,就是测序到得到的片段,大家都知道测序呢,有很多噪音啊,或者有一些细胞坏死啊等等导致导致的这个呃,高度螺旋的状态,有一些不该解,不该开放的区域,它开放了等等等等这些非生物学因素吧。
15:18
然后呢,看看这个fragment和这个peak就是开放区,哎,重叠的程度有多高,当然越高越好,越高说明这个细胞质量越好啊。通过这样一种曲线的分布呢,就能识别出有效的一个细胞了。这个呢,就是开放区,就是刚才提到那个peak,不过这个peak分布啊,有一定的一个特点,大家都知道我们的一个基因想要转入翻译,哎,要把它释放出来,成为可及的状态,哎,那么优先释放哪儿呢?呃,优先肯定是优先释放这个转录起始位点前面的一个区域在基因组上,这个叫开放阅读框。
16:00
前面那个区域呢,哎,TF因子就是转录调控因子,结合上去告诉他,哎,我要准备转录了啊,同时呢,DNA聚合酶诶过来。结合到这个开放的区域,然后慢慢往下转录成这个,先是转录成这个原始的这个MRNA分子,后面经过一些转入啊,调控啊等等等等,形成成熟的麻逊分子,从而生物行使我们的生物学功能,那么在这个基因组上的一个体现就是什么呢?体现就是说。开放的区域啊,往往位于一个基因TSS区域的,诶,TSS这个区域的左右两边。TSST就是转录起始位点,T就是转入组那个单词s start, 嗯,那第二个S就是set啊,就是位点的意思啊。大家看一看这个就是说相对的位置哎。0就是转录起始V点,哎,它的相对位置大家可以看到基本上分布在两边啊,然后是相对负极,就是说肯定是转录起始V点,它的一个开放程度更高了,对吧,因为要转录它,哎,前面的一段区域呢,是TF结合的因子,后面呢是形成成熟的mna分子等等等等啊,这样的话就会形成这样的一个pickak,哎,这是一个非常完美的pickak啊。
17:17
右边的呢,就是说每个8库的它有多少个pickak了,对吧,它的一个数据覆盖了多少个peak等等等等,这个第二张图呢,是用来大家识别有效细胞的啊,你看。随着细胞的增多呢,它的fragment overlapping, 这个overlapping越低啊。说明有效数据越少。越高越好啊,当然了,细胞数量也是一个判断的标准。嗯,A的捕获细胞量呢,和单细胞差不多,一般比单细胞还要高一点。呃,这个时候呢,就会有形成这样一种,哎,形成这样一种分布。啊,有疤口的地方,它的一个首先要判断它的fragments哎,第二个要判断它fragment是不是覆盖到了这种常见的这个TSS区域,如果覆盖到了,说明这个数据是有效的。
18:02
如果大部分都没有覆盖。甚至说覆盖到其他区域等等。哎,说明这个细胞受到了损伤,哎,或者说有一些非生物学因素来刺激它等等等等,导致这个数据是失效了,这种细胞我们要去除啊,保留有效细胞的一个分析。接下来呢,我们拿到这个fragment这个文件呢,经过像单细胞一样,经过简单的处理之后呢,第一步也是一样的,要对细胞类型进行一个识别。识别和单体细胞,哎,不同的地方在哪儿呢?单细胞当然大家都知道,诶,我用这个马克基因是吧,看看他表达没表达就可以了,但是a tag可以吗?诶,他想拿到的数据啊,它是那个矩阵啊,是那个金属片段和八扣的这样一个矩阵。这个时候呢,第一步要干嘛。哎,我们要知道这个开放的这个TSS区域,哎,它是哪个基因啊,对吧。
19:01
首先要注释一下,看看它是哪个基因,但是前面提到了很多片段,它位于基因的一个上游,对吧,它不属于转入的一个部分。哎,只有后面才属于转录的一个部分。所以说呢,这个时候我们不能仅考虑后面转录的部分,前面的这个测序道的片段也需要考虑,所以说a tag的时候啊,他在这个对这个。哎,片段文件进行注释的时候呢,采取了一种基因活性的一个方式。就是说对这个基因整体开放的一个程度。进行一个打分儿。进行一个打分,哎,开放程度越高,哎,分数越高说明他这个基因转入活性越高,哎,这以此来判断他这个基因是否啊有高表达低表达这样一个状态。哎,经过这样这种一种基因评分的时候啊,会形成一个基因活性矩阵。基因活性矩阵就类似于大家单细胞那个基巴克的矩阵了,在这个矩阵上进行一个细胞类型的一个识别啊。
20:12
大家看下面这个图啊,你看啊,这个因set interest, 这个因set interest通常就是大家的这个mark基因,或者大家啊通路打分的那那几个基因啊。哎,推拉这几个基因的这个TSS区域就是转录,其次微点的开放的一个P的这样一个区域呢,哎,要进行一个研究,看看它开放的一个程度。哎,程度越高,活性越高,说明它越可能是这种细胞类型啊,呃,当然打分也是一样的啊,打分打分打的越高,说明它这个。啊,这个通路的基因活性啊,越高啊,下面这个图呢,就是基因活性权重的一个计算公式了。哎,有这种模式,这种根据这种数学的这种,哎算法。来计算它这个TSS区域,这个风,它的一个基因活性,大家可以看到。
21:00
基本上啊,它考虑两个地方,第一个地方呢,就是开放的一个数量,就是它测序得到的一个片段数,第二个呢,就是要考虑呃,Distance, 就是距离这个TSS区域的一个远近,当然越远它的权重越低,越近权重越高,这个是合理的一个范围,要把它诶权重化一下等等等等。通过这样一种。计算方式啊。哎,我们就可以看到每个基因它开放的活性有多高,哎,或者说它就不开放等等等等,那么这个距离大概多远呢?呃,这个图啊,是RR那个ARHR那个软件的,它计算的距离呢,大概要这个TS区上下有5KB啊,这个距离相当相当长了啊。但有些软件不计算这么长啊,有的软件认为这么长其实并不太合理啊。嗯,有的软件只计算500。啊,有的软件只计算1000啊等等等等,但是从这个实际效果上来看,这个距离太长和太短都不合适,一般认为。
22:06
哎,5KB是相对远,但是比较合理,还在合理范围内的一个数啊,这也是公司层面在计算基因开放活性的一个距离值啊。然后呢,这个地方有一个需要注意的地方,第一个就是这个。啊,并不是所有的基因都有良好的表现和基因得分,这个是很正常的,比如说有一些管家基因,它的一个开放程度啊,就是比较低,只维持低度的一个表达,这个时候呢,就在这个A数据上体现的不明显。还有一个呢,就是基因密集区。什么叫基因密集区呢?就是有些基因啊,它行驶同样的功能,但是在基因的位置上,他们都离得很近。这样就会导致TSS这个区域啊。连都连起来了,两个基因都开放程度很高很高的话,并且在基因组上离得很近的话,都都开放了。这个时候就无法识别到底是哪个基因活性高了,哪个基因活性低了,对吧,因为他们合在一起了,判断不出来了。
23:03
哎,这个时候呢。哎,就要把这些特殊的地方进行标注,哎表示它判断不出来,不过在大家下周进行分析的时候,哎,很多时候还是不需要这个考虑这个内容啊。下面呢,就是一些a tag的一个技术分析内容了,和单细胞是一样的,我们首先来看右边这个图啊,右面这个图在单细胞识别它的时候呢,我们通常用这个马克基因来进行一个识别,对吧,看到马克基因的开放高低等等,但是从AT的一个数据上来看,我们更多的是开放,相对应的基因的一个开放,哎,染色质的开放程度。它开放程度越高呢,我们会认为它的一个。哎呀,基因活性越高,这个时候再判断基因,哎,判断它细胞类型的情况下呢,就可以用这种马可基因开放质的一个活性程度来判断它,它到底属于哪种细胞类型啊。
24:05
左边这个图呢,就是简单的一个分析流程,哎,首先我们要识别这个马卡基因set之后呢,首先第一步,哎,聚类细胞和单细胞一样,哎进行class,第二个呢,就是bears BIS, 就是我们所说的这个。细胞背景。嗯,单细胞也有细胞背景,不过在单细胞的细胞背景大家一般都不太处理它,一般在细胞排污的时候会考虑它一下。啊,不过在这个A里面,由于它的一个数据的吸附性啊,是比单细胞要更高的,所以它的一个细胞背景,我们是需要进行一个去除和过滤的。接下来呢,就和单细胞的数据分析一样了,单细胞分析它的一个呃呃矩阵要进行normalize scale等等等等,但a tag数据呢,它也是根据这个Pak信号,就是我们的这个转录,其实位点它开放区域的一个信号呢,进行一个呃也是normalize那个呃,Skill等等来识别它这个。
25:02
啊来对他心情,来来来对他的数据进行一个简单的梳理,最后呢。最后呢,哎,聚类成一个细胞类型,哎聚类成细胞类型呢,要进行一个呃细胞类型的识别,最后呢,比较细胞类型之间的一个,哎,它的一个开放质的一个区域。和比较它的一个呃,比较它的开放的区域和基因活性得分等等,最后呢。识别每个细胞类型。它开放的区域。这个开放区域啊,还是基于这个。细胞类型之间的,比如T细胞和其他细胞类型之间,哎,T细胞的一个开放的一个情况,这个和单细胞的那个马可基因的很多事情其实是差不多的。比如T细胞的开放区域啊,比如比如T细胞的马克基因啊,是CD3DCD3E等等,它相对于其他细胞类型的一个开放区域也是差不多的。啊,也是CD3DCD3D它的开放活性更高一点啊。通过这样一种方式呢,我们就可以得到大类细胞,大类每种细胞类型开放的区域有多,有哪有哪些。
26:05
啊,补助我们识别细胞类型。哎,然后呢,这个就是简单的一个示意图了,大家可以看一下细胞类型A,诶它的一个开放区域,细胞类型B诶它的一个开放区域,细胞类型C它的一个开放区域等等等等,但是大家注意啊,大类的一个开放区域啊,其实并不是很关键。比如T细胞,我知道CD3D开放啊,CD3D开放等等等等,它只是用来辅助我们识别这个细胞类型。真正的a attack, 它在数据分析的过程中啊,它有一个非常,哎,非常一个巧妙化的设计,就在于它在分析雅群的一个开放区域上,会更加有这个生物学意义。比如说大家在研究肿瘤抑制性的时候呢,哎,肿瘤抑制性大家用这个单细胞数据,比如说聚了5类,聚了6类,认为它有抑制性,但这种抑制性其实舒服性并不是很强啊。因为仅仅表达它。在这个。
27:02
啊,数据本身上啊,单细胞数据本身就是一种招这个数据啊,所以说基因表达本身就有一定的很大的一个误差。但是在AT数据上,大家通过这个a tag数据聚类啊,就可以看到不同的这个。哎,不同的,这个叫这个肿瘤亚群呢,它的开放区啊是不一样的。这种开放区不一样,是基因组带来的,哎,它的准确性呢,就会比转录组要高很多啊。哎,这个时候呢,接下来就会有一些其他的一个分析了,包括这个细胞类型,它在。呃。以及pick它的overlap等。一个Overlap。就是不同的细胞类型,它这个呃,相同的开放区域有哪些。包括相同开放区,它的活性高低有呃有一些什么样的差异,最后呢,诶对它进行一个简单的一个fix fix就是修正啊,就是类似于大家那个单细胞的那种啊,叫那个回归啊,把它一个进行简单的一个分析啊。
28:03
左边右边呢,就像就是克cluster了,Cluster也是一样,和单细胞是一样的,呃,聚了类之后呢,对它聚类的结果诶,和它整体的一个开放区域程度进行一个区差异分析啊。最后进行修正,那修正拿到这个真实的peak的一个set,就是每种细胞类型的pickak的真实的一个分布,大家要注意啊,这个peak分布和前面的pick分布是两回事啊。前面的pick分布是从单个细胞的角度来看,哎,我的pick分布,比如说一个T细胞,哎,它的pickk分布是怎样的,但是大家到了大类的之后,比如说到了这个class的水平,到了这个。呃,细胞类型的水平的时候,我们要看。同一个细胞类型,它共有的这个PK是什么?这个地方就是要体现它共有的,比如T细胞群。尤其是T细胞亚群,分了5个亚群,每个亚群呢?共有的开放区域是什么?等等等等啊,这个和前面的单个细胞的皮革是两回事儿啊。
29:00
哎,接下来就是一些简单的复分析了,哎,前面提到了一个基因的开放区域啊,它由前面的调控因子决定,TF先结合它调控区域,然后呃,RNA聚合酶结合上来,翻译成它一个原始的MRNA分子。这个时候呢?如果大家做过单细胞转录因子分析的话,就应该,哎,有知道,就是转录因子结合的一个序列啊,它那个序列叫某欺夫序列,哎,直译过来就是积序,那么在D,呃,这个ATX数据上呢,也是一样的,前面结合的转录因子的一个积蓄呢,通过我的染色是共有的开放的一个pig风,把它前面那个序列进行一个分析之后呢,会发现它有一个也发现他会发现把它的序列整理起来也是一个积蓄。和某府一样。这个时候呢,就去数据库里面查。查到底是哪个转录因子来调节它,这个某体序列和它是怎样的一种对应关系。这样的话,通过这样一一对应的关系。就可以知道哎,哪种TF因子在调节这种T细胞的一个基因表达信息啊,通过这种基因表达信息呢,简单的分析呢,就会拿到下游的一个分析了啊。
30:11
这样一个,当然这还是处于细胞大类的一个状态,是只处于一种演示状态啊,呃,不同的细胞类型,它必然TF因子结合的这个母体复是不一样的,正因为结合的不一样,才会体现出我们细胞类型的,哎,各种各样的细胞类型的一个差异。比如T细胞它就该表达该有的基因,B细胞它表达该有的基因,哎,有些基因都是共有的啊。真正体现威力的就在于它的亚群的一个分布,比如T细胞分了很多亚群,如何识别他们呢?就是它在于他们开放的一个区域啊,不一样,哎,导致他们转入的基因也不一样。还是那句话,它是基因转录组上游的一个分析啊。嗯,接下来就是a tag联合了,前面通过细胞定义啊,是通过这个基因活性进行定义的。
31:00
单细胞A肽和联合rnar,其实它本质上就是在于要给A肽的一个细胞类型的一个信息。嗯,安na,大家定义好之后呢,和ATC进行一个联合,哎,通常就用threat那什么label transfer那种方法,他就会给AT细胞群一个身份信息。哎,给了他这个身份信息了之后呢,下游分析都是一样的啊,也是开放区域的pickk风的一个共有pick峰是什么?呃,结合的转录因子是什么等等等等啊,包括它开放区域的一个差异等等啊。下一个分析都是一样的,呃,至于它就是在细胞类型识别上有三种方式,一种就是哎,基因活性矩阵,呃,另外一种,呃,第二种呢,就是联合单细胞。啊,当然这个地方啊,AT数据和RNA数据啊,还是分开的,就是一个分成了两份。一份去测了a tag, 一份撤了啊,那两个数据呢,进行联合分析之后呢,就可以拿到这个a tag的一个身份label。从而分析它的这甚至开放区域差异,呃,TF结合差异,以及它的这个。
32:05
啊,以及他这个就是pig的一个差异。啊,现在啊,有高很多高分文献啊,已经开始用这个了,但是现在做这个AT的数据啊,一般都还是大课技组在做啊,大课技做的时候呢。单细胞和RNA联合基本上属于基础操作啊,像这个呢,大家可以看到,哎,它主要关注。啊,他对a tag的数据啊,主要关注他在染色及这个区域上固定的区域上的的开它的一个开放程度。也就是说这个地方,哎,不同的亚群有共有的开放区域,对吧,说明它这个地方是它身份的一个label的一个呃特征,还有一些区域呢,是它每种群独有的,哎,这个就体现出细胞类型内部的一个差异了。至于他在行使怎样的功能,哎,或者说和其他细胞类型交流不一样,甚至进一步讲,它在空间上是不是和其他细胞类型。
33:01
呃,它的空间排布会有差异等等等等,这个就是下游的一些个性化分析了啊。接下来就是这个单细胞和a tag的一个多主角。呃,现在呢,石城推出了一个新的产品,当然也不算很新了,到现在也就是说同时可以测一个河内的转录组和a tag数据。这个时候呢?哎。对它一个身份的识别就更加容易了啊,因为它ATC和na来源于同一个B口的,如果大家对RNA定义好之后,自然而然就对ATC数据进行进行一个定义了。只不过呢,在前期分析的时候,AT的数据质量,哎,有好有差,RNA也是一样的,这个时候呢,大家要取这两种数据,哎,都好的,这种情况的把扣的作为下游的分析啊。只是多了一步啊,就是两者都好的一个情况,进行下一步分析啊。嗯,它真正的作用呢,其实也是RNA,就是单细胞的,呃,数据分析好之后呢,对AT的数据进行一个label,给他一个label,让它进行一个。
34:04
呃,下游的包括PK方的差异啊,开放区域的差异啊,TF结合的差异啊等等,下游分析其实都是一样的,只是在给这个AT这个8库的这个label的过程,哎,不太一样啊。然后呢,这就是多组学了,这多组学当然难度就比单细胞要高很多了啊,单细胞现在属于一个基础分析的一个状态,但是a tag目前。啊,可接受性以及分析范围还不是很大啊,大家如果有实力的话,可以接触接触这个数据,把它分析分析,大家可以看一下它的一个分析的一个难度啊,首先是。当然,这是突变信息啊,突变信息其实也是基因组上的事儿啊。然后呢,就是它染色质开放区域结合的这个某替补序列,这就是他的一个积蓄。哎,积蓄就是说它有一些固定特征,但不是那种恒定的序列,比如at TCD, 没有这种说法,包括这个VDZ也是一样的啊,它都是一些某tif序列,它只有这种序列特征,而不是准确的哪个剪辑就是C或者那个啊,没有啊。
35:05
也就是说这个简介上是哪个都可以。只是它的活性高低不同。然后呢,对这些叙利亚,大家可以看到进行整体的一个分析比较之后呢,对这些开放区,对这些开放的区域的一个某推步分析,就可以对它,哎,对它进行关联分析。这个时候呢,在a tag的一个数据上,就会体现出基因共表达的一个现象啊。右边这张图呢,也是一样的啊,RNA数据,TF表达信息,包括AT数据,染色质可及信息,两者信息一结合呢,首先单细胞可以得到大量的一个分析内容啊,这个大家自己做就可以了,但是A态的数据呢,又会得到很多的个性化分析,包括就是前面提到的。哎,开放区第一个就是结合的TF,结合的开放区TF在结合基因组的时候,引起它基因的一个开放,哎,某贴福是什么?就会引起它的一个基因表达的差异,哎,从这个a tag数据上就体现出开放区的一个差异,PK的一个差异。
36:05
等啊。接下来就是一些哎呀,反正难度比较高的个性化分析了啊,大家如果感兴趣的话,可以把它作为自己今后发展的一个方向啊。嗯,这里面多提一点,就是识别这个driver regulator.什么叫driver?叫驱动调节子。驱动调节,这是什么?就是它会起到一个主动性的作用,驱动它发生这种细胞转变,这种驱动哪来的?这种驱动哪来的呢?就是不同组织之间,它不同组之间,它在识别了外界信号的一个差异之后呢,引起细胞内的反应,导致了他主动的改变自己。哎,从而形成一个。啊,Regulator就和大家得了,呃,就和不是大家啊,就和得了癌症病人一样。啊,它细胞内部的环境会主动的去改变。
37:01
如果说消灭不了癌细胞,那只能适应癌细胞了啊,所以说它会改变自己的一个状态,这个时候会有一些驱动的一个调节子。这些驱动调节者目前是靶向药物,以及这个呃,免疫治疗的一个把底啊,当然制度还在发展的一个阶段啊啊。常见的一个,呃,常见的一个文章的一个分析呢,基本上就是这张图体现的,哎,每种细胞类型,它在开放区的一个差异,但是细胞大类并不,但是细胞大类并不是我们研究的重点,主要还是细胞亚群,你像这种亚群,哎,它两者之间,哎,或多或少都有一些差异,这些差异开放的PK风啊,正是我们生物学研究的一个重点。就是同一种细胞类型,为什么他一个有这种不同的开放区域,是为什么开放的区域,到底是开放了什么基因,这个基因在干什么?哎,这个就成为A泰数据研究的一个重点了啊。包括后面的一些,哎,都是一些,呃,都是一些围绕在开放区域的一个分析内容啊。
38:02
这里面提到了,哎,我们ape的数据主要是来体现它核心开放区域以及调节因子的一个分析过程啊。这个就是a tag的一个分析了,所以大家抓住一个重点啊,重点是什么呢?重点大家要了解a tag数据它的一个核心的一个本质。它毕竟是这个ATD,呃,它毕竟是这个染色质开放的一个数,一种数据,所以说在对它进行一个数据分析的时候,一切都是围绕它开放区域的差异而言。肿瘤的开放区域差异说明了体现了肿瘤的一致性。T细胞的一个开放区域的差异体现了T细胞亚群以及它对不同环外界环境的一个反应。等等等等啊,主要是体现在这个地方,然后进一步的话来分析它开放区域差异的一个某结合序列。呃,是哪个调节因子调节它有了这种开放的一个现象。然后呢?前面提到的a tag和单细胞联合还是活性矩,针对这个a tag数据,A tag这个类,呃,身份的识别呢,其实都是一样的道理,都是为了给a tag数据每个8库的一个label,告诉他是什么细胞类型。
39:09
在识别细胞类型的基础之上呢,进行下游更多的个性化分析啊。这就是A数据的一个简单的一个介绍啊。我们休息5分钟吧,休息5分钟后回来我们看看代码部分啊。
42:09
到底是通路得我的活性分数,还是某个独立的基因活性啊?真正分析的时候,先拿到的是单独单一基因的活性啊。刚才不是A有了细胞类型了吗?啊,APEC在识别细胞类型的时候,可以用基因活性矩阵,也可以用RNA联合,或者用多组学,直接诶付给他就可以了,嗯,基因活性啊,毕竟还是一种推断啊。而且刚才提到了A泰的数据啊,哎呀,噪声比较高,而且有些基因是存在一种,就是说离得很近,它的P风会融合在一起的这种现象啊,在识别细胞类型上还是会有一些,呃。难度。不是说A识别细胞类型更准吗?更准的前提是你的分析能力要强啊,但是现在能够很好分析那个数据的人不多啊。
43:04
液态单细胞数据,嗯,现在那个都组学出来之后啊。可以同时测一个。细胞的一个a tag数据和转录组数据了,那么对转录组数据定义好之后,自然而然对AT数据就有了。哎,就有了定义了,对吧。因为他们是同一个细胞来源嘛。大家还有问题吗?还有问题可以问一问啊,AT数据其实还是相对比较重要的啊,大家如果能学会AT分析,那相当厉害啊。而且这是一个未来的一个发展方向,哎,多组学是未来的发展方向啊。
44:00
会单一的单细胞组学是不可以的啊。具体的图哪一个什么具体的图。哪个你要看哪个图啊。某个基因在某个细胞类型啊,你说具体点啊,你这问题都太笼统啊,我不知道你在说什么。代表部分呢,首先我们这边都是刚才那个。我这这。PPT的图,我每个图都都解过,都解读过了吧。比如说细胞类型,开放区域的一个差异,这是核心啊,当然这还是属于细胞大类,细胞亚群差异就更好了。当然这些呢,都是一些个性化,超高个性化的一个分析啊,需要很多的一个算法,包括背景,包括TF和TG的这种转录调节的一个潜能啊,这样都是一些上游分析啊。
45:10
包括它的核心积蓄。呃,细胞类型识别,嗯,联合联合的开放区域的一个差异等等啊。大家抓住一点,ATC数据是进行开放的一个差异,哎,开放的一种数据,它的其它的一个差异呢,就是进行开放的一个差异,进行开放会影响下游转录因子的一个表达的一个差异,它是基因转录的一个上游的上游的一个部分啊。哎,好了,我们来看看代码部分啊,代码部分的话,大家首先要准备一个文件啊,现在单分析单独的这个AT的数据啊,很少,几乎没有啊,现在无论单细胞AT还是空间都是这种多出去那多个样本联合分析啊,甚至要跨主学,比如说单细胞和空间,单细胞和AT,或者单细胞和VDZ等等啊。这样的话,大家准备一个文件啊。
46:01
这个文件呢,其实如果大家做过AT数据,会发现a tag数据它的一个。AT数据它那个量啊,它那个文件都比较大,你看我这才500个细胞,它已经106兆了。大家一般都是1万个细胞左右。一万个细胞大概多大呢?超过两个G,也就是一定要把它的一个fragment的这个文件啊,超过两个g fragment fragment文件呢,就是大家测序得到的基因组开放区那个片段文件啊。这个文件呢,就是我们分析的核心,当然师成会分析一步给大家pick文件,包括一个motif文件等等啊。转录因子文件等等啊,但是那个是时生自带的分析啊,很多时候并不用它,还是要用一些专业的软件。像RR啊,就用S,或者说AR,就RR那个软件,像Python呢,用snaps,呃,Snap two啊,或者用这个呃派匹配的那个a attack软件也可以啊。
47:04
准备好软件之后呢,准备好这个文件之后呢,我们就要开始开始我们的分析了啊。哎,多组学。嗯,大家要有这个准确的一个方式啊,我们首先来加载。把我们该的软件都加载上啊。大家注意,一般在Python版本分析的过程中啊啊,一般嫁接的就是。是看派了啊。然后这个就是我们刚才准备的这个。Sample文件啊,就是刚才我们准备的这个文件啊,这个文件两类啊,一类就是file,就是大家fragment放的那个绝对路径,写绝对路径啊,然后起个名字。啊,这个样本叫什么啊,是比如说这个样本是这个疾病组,你就写DELETE12345啊,如果是这个normal组就是NORMAL12345可以了啊。
48:04
然后呢,读取这个文件。哪个?哪个右下角有记忆名字?那个这个吗。这是区域啊,哪个名字。是这个吗?这个吗?基因的一个活性开放区域。这个基因代表的是它的一个核心区域啊。基因主上的区域啊,第一章哪个章啊这个。那啥?这个这个。这也是区域啊,染色体4的一个区域啊。
49:05
啊,你这位同学,你多了解了解,我觉得你对A的了解太少了。好了,我们继续啊,看我们的文件,当然我们在测序这个F文件有两个物种,一般是两个物种啊,像这种human和这个。Mo啊,这种居多,当然也有其他物种,其他物种对这个转入区域的一个。哎,分析啊,可能需要难度就更大了啊,难度就更大了。首先呢,我们要进行一个数据读取。数据读取这个过程啊,相当耗时间,如果大家是正常的这个ATX数据的这个样本,每个样本超过2个G3个G的这种。读一下,哎呀时间非常长。非常的长啊。这个时候呢,大家就需要把这个数据啊,投到服务器上啊,这也是分析的硬件要求之一啊,所以说一般在挖掘公共数据的时候,一般客户不挖掘一台没法挖掘啊,硬件就跟不上。
50:06
这个时候呢,我们来读取它的一个数据啊,大家稍等。一会儿啊,我这个数据很小,读的很快啊。读的很快,它会形成,它会形成Python版本的这个H5AD文件。这个文件呢,就是大家存储基本信息的一个文件啊。哎。大家可以看一下。啊,500个细胞大概形成了50兆的一个大小。1K大概是97兆。啊,如果是1万个细胞的话。1万个细胞是它的。嗯,20倍,20倍乘以50,哎,就是一个G了啊,非常大,这个文件度非常大啊。
51:06
然后计算TSS开放区啊。这个开放区啊,大家注意基因组的一个版本啊,我们通常都是HG38的一个版本。啊,当然有一些客户会要求HG19啊。通常就是HG38这个地方在计算TSS就是TSS刚才提到了就是转录骑驶V点啊,这个地方呢,就是在计算哎,这些片段啊,是否分布在转录起止位点周围。并且把这些片段进行保留,哎,用于下一个分析。这个是判断是否是活性细胞一个非常重要的一个部分啊。嗯,接下来呢,就是简单的处理了啊。像单细胞,在这个去除低质量的细胞的时候呢,比如说大家会考虑呃,质量过低的是吧,表达基因过少的,或者线粒体比例高的,但是在ATC数据上,它就是要看它这个片段啊。
52:03
它在这个TSS区域,哎,负极的一个程度,如果说负极的很少,说明这个细胞质量非常差。基因上啊,都已经就已,反正已经细胞已经呈现一种病态的一种状态,导致它基因组已经解离掉,经常的正常来讲,一个健康的细胞,它只开放它。转录的基因的那部分,就是转录基因的一个前啊上下游呃,多少BP的一个距离,如果有一些其他的距离,其他的方向分,比如说。呃,原则上,呃,其实这个地方大家应该对这个基因组的背景有一个了解,就是说我们的基因组绝大部分是不开放的。我们人类表达三五个基因,每个基因啊,其实这个表达的基因占据我们基因组的比例非常小。哎,它只有在固定的区域开放表达它相应的基因,如果有一些其他的地方也开放了,呃,说明就会体现出这个细胞质量开始变差了啊。所以说我们要对它指控,指控呢,就是来看它这个,哎,是不是在正常的一个开放区域开放,如果都是非正常的,说明细胞质量差,就该扔掉了啊。
53:07
然后呢,这个地方在干嘛。前面提到了,哎5000什么意思呢?就是TSS区域的,哎,上下有5000个G,哎5000的地方,这个时候呢,就会形成所谓的这个T矩阵。其实就是活性矩阵啊,和前面讲到的是一样的啊。只不过他把这个基因啊,它把这个区域啊,它不像单细胞,单细胞就是一个基因,它已经告诉你了,但是我们A泰克数据啊,它因为它是一个染色体上的一个位置信息,这个时候你不能说。呃,开放,比如说这个转录期是位点,它位于基因组的5000这个地方。哎,五千这个地方。哎,它的一个活性是5吧,不能说只能说一定的区域,比如说5000~1万这个地方,哎,它的活性是20这样的一种状态啊,所以这个地方呢,就是在对它进行一个区分。嗯,用一个专业术语上来讲叫分病。
54:03
就和大家做空间数据划大数据一样,哎,2μm肯定是不能分析的,只能把它合并,合并之后呢,合并多少呢?并20并50这种状态啊,基因组量其实一样的,对一些区域进行合并,它的一个整体区域有一个活性得分啊。哎,接下来就是挑选feature啊,这个和那个单细胞挑选高面基因是一样的啊。就是提取它的主要特征啊,用于下列的分析啊,不是说所有的特征都能用啊,有些特征像管家基因,它的特征呢,每个细胞都差不多,这种特征我们就哎不用重点关注它啊。只把它作为一个识别是否是呃有效细胞的一个判定啊。然后呢,就是去除双细胞了,包括这个F的双细胞,当然我这里细胞很少啊,没有双细胞啊,500以前没有双细胞,而且这个地方很限速啊。
55:01
哎,这个地方很限速。标注一下。这个地方很限速啊,就是因为它在识别双细胞的时候啊,APEC它的数据量非常庞大,都是片段文件,它不像单细胞,已经是基因给大家准备好了。所以大家分析的时候不要一步一步分析,要投到服务器上,自己后台分析啊。然后呢,就是数据合并了啊,我们要进行一个数据的合并,就是多样本要进行合并啊,简单的处理之后呢,对它进行多样本合并。合并之后呢,就会形成诶新的一个文件了,大家可以看看它这个矩阵啊。哎,矩阵是这么多,哎,这么多,你看它的数据量是多大。60万。哎,单细胞太多了是吧。然后我们来看看他的OBS啊。嗯。
56:01
OBS.哎,大家可以看一下它的三序列,就是刚才我们定义好的啊。它这个行名是什么呢?行名就是我们的这个基因片段的一个区域,比如说染色体11~5000 2~5000等等这样一种说法。嗯,这个没有这个稀疏矩阵,看来这种矩阵和单细胞矩阵其实还是很有差别,还是很大的啊。你看它这个S都不一样。所以说在液态分析中啊,它的格式啊什么的啊,都和大家想象的是有区别的啊。推大。
57:03
嗯,这个提取不太好提取啊。进行简单的合并之后呢,合并成这个data文件,Data文件就是大家常见的那个SC派那种格式的文件啊。也有OBS,也有us等等,参考序列等等。你看这里面包含了2个。啊,贝塔清晰对吧。我来看看能不能提取出来啊。不可以。A data object.他合并之后仅仅是能拿到他的一个。样本信息和举证信息啊。啊,反正能拿到样本信息。这个里面它有一个两个这个地方啊,一个就是我们刚才提到的两个样本,如果大家哎提供了两个样本,就是两个样本了,多个样本也是一样的啊,提取就可以了。然后是点us。
58:05
参考序列。大家可以看一下参考序列。它的格式明显就和大家那个单细胞也有很大的出入啊,它都是一些基因的区域信息。哎,然后呢,我们就先要进行一个简单的数据分析了啊,包括付给他这个8扣的信息啊。独一无二的八扣的啊,你看。这个就是大家常见的这个8扣的信息了啊,前面给了样本名,后面是他的8扣的,这个是为了区分两个样本啊。当然大家也可以写成杠一杠二啊,也是一样的。然后是特征提取信息啊。这个里面特征为什么要提5万呢?刚才提看到了啊,它的特征超过60万。数据相当庞大啊。
59:04
然后我们来看看他的一个特征啊。对啊,我。Next.大家force force.哎,这个地方只是体现出它这个特征,是不是属于他刚刚才我们提取的一个特征啊。但是它这个特征信息啊,主要还是这个矩阵信息啊。Count的值,这个count是什么?就是刚才提到的,我们进行5000的一个片段分割之后呢,诶,我们测取到的这个fragment是不是在这个区域内,如果在就算作一二三啊,慢慢加起来啊。哎,接下来这个地方呢,就类似于单细胞的PCA了,但是那个算法上虽然类似于PCA,但是不是PC啊。
60:00
因为这个ATC数据的特征啊,和那个。哎,单细胞还是差异蛮大的,刚才大家看到了差异比较大啊。呃,所以说呢,他在这个计算PCA的过程呢。啊,其实类似于计算,类似于PC的过程呢,采用了更加一种更加适合AT数据格式的一种方式,啊,不再是简单粗暴的A的那种PC了。哎,然后我们来看一下。哎,这个地方呢,就会多一个OB。那只。PC的一个成分啊。这个PC,呃,类似于PC的一个矩阵呢,和那个单细胞分析PC那个矩阵,哎,格式是差不多的,也是一样的,在每个轴上,哎。呃,主要的特征是什么,等等等等,把它主要特征给提取出来,用于下游的这个降维聚类啊。
61:00
然后呢,在这个AC多样本处理的过程中啊,有一个和单细胞是一样的,就是这个批次处理。平时处理呢,通常在这个。呃,比较公认的一个状况,包括公司在分析的时候啊,认为哈姆尼的一个去批次效果是非常好的,所以说无论是Python版本还是R版本,更多的倾向于诶做这个。Harmony的一个去皮次啊。哎,这里面就是哈姆,你去皮字了啊,注意这里面,But, 我这里是沙漠啊。大家写成什么,就是把你,你把你的样本列命名成什么,你就写什么啊如果大家。哎,跟我的习惯一样,哎,就写成3就可以了啊。然后呢,就是在PCA去批次之后呢,这个去批次啊,那也是像单细胞是在跑了这个PCA之呃之后去这个harmony去批次。
62:00
但是。这个AC数据啊,他在去PC的时候也是类似于跑完那个PCA的过程。啊,只不过它不是PC,它的算法上是不一样的啊。哎,然后呢,就是简单的u map了啊,这个u map啊,其实和单细胞的u map就一样了啊,然后我们画一画图啊。这个地方为什么那个了呢。计算量超出那个超出他的一个计算的一个能力了啊。哎,计算量超出它的一个计算能力了,可见它的一个可见本地的一个头发呀,并不太适合大家运行啊,大家在运行的时候一定要。哎,最好有个大计算量的服务器啊,把它一个简单的一个。哎,把这些任务都投到后台去啊,本地运行很容易出现我刚才那种现象就崩溃的一个现象,我这才多少细胞类型,哎,五百一千的一个状态,哎,它都很容易崩溃啊,更别说那个大家正常的那种A他的数据。
63:06
上万了。如果多来几个。哎,如果多来几个几万十几万。那本金完全运行不了啊。哎,我们简单过一下前面的过程啊。三文件可以看一下吗?就是三保文件就是这个啊。两列一列写你的这个Frank门的一个绝对路径啊,这个文件的绝对论,另外一个起个名啊,起个名。啊,大家一定要投到后台运行啊,刚才就崩了,很容易崩啊。公司用的harmony和英va CV的Python版本吗?Python版本都没发文章harmony,人家就是算法是一样的啊。
64:00
他就是他那个作者开发了个Python版本啊一样的。呃,CV的话,CNV目前公司还是用R版本,但是R版本非常耗时间啊,一般人一般的咱自己电脑跑不动。为什么选择5000 5000的是一个,刚才在PPT不是说了吗。相对合理的一个范围啊,这不刚说了吗,这不5000吗。Trip不是都有个对照吗?Trip和单细胞a tag, 它这两个主学的数据啊,我们可能不很可能需要区分一下啊,不要混为一谈啊,对每个主学大家要先有一个很深入的理解啊。不要把独主学都放进来啊,就是说单一组学,大家先玩的很好。哎,那呃,那个。呃,在比如说单细胞玩的很好,在这个基础之上呢,再去扩展其他的一个。方向啊。
65:00
不要一上来就搞这种多主角的分析啊,很容易把自己整迷糊了啊。我们简单过一下啊,大家可以看一下这个非常限速啊,这个AT数据的分析要求其实非常高啊。首先这个机器你就顶不住。啊,我们简单过一下,看看能不能把它刨出来啊。很容易崩啊,很容易崩,确实是很容易崩。因为它计算量确实比较大。啊,这个地方为什么是7呢。是不是5也可以,是不是啊,有的软件写的是5。值是这个值啊,越严格哎,说明这个细胞质量越好啊,在在这个不同公司的阈值不一样啊,一般我这里面写7啊。因为这个漆是官方参考值,一般写7啊,当然也不能太严格了,太严格把很多那种好细呃,就是质量高的细胞也给过滤掉了,那样的话有效数据剩的很少,这也是不可以的啊。
66:11
嗯,相当限速啊,因为它这个F文件都很。都是F门店都是一个非常它的数据格式啊,都非常的复杂啊。数据量都比较大。我这才五百一千就已经有点扛不住了啊,就是本地跑已经扛不住了啊,必须投到后台了啊。不过这个主学啊,确实是非常有意义啊,有意义,如果大家硬件呃,硬件上是可以的。呃,自己的分析实力也是足够的,哎,这个主角其实非常好啊,非常好,我个人认为非常好。而且。卷单细胞其实没有多大意义了,现在单细胞分析还是属于一个,怎么说呢?啊,就刚才用了一个词儿叫饱和,就是说把单细胞啊,已经相对比较饱和了啊,但ape的数据挖掘还是比较的。
67:02
哎,比较有价值的啊,因为单细胞已经发了多少文章了,超过1万了吧。但是APEC发了多少?1000左右,就是少了一个数量级啊。那自然而然它的一个大家都不去分析它,那自然而然这个道赛道就没有那么卷了啊。哎,然后是合并,然后合并给8扣的。合并给buckle的。然后是PC,呃简呃,P类似于PC的过程,它不是PC,说习惯了。啊,去P4。看看。去批次啊。看看能不能跑出来啊。
68:16
不要太严格啊,那个值不要太严格啊,太严格会把有效性这个固定了,就和单细胞一样,最低的细胞值大家都设到200,哎,这个值低不低呢?其实挺低的,一个细胞怎么可能只表达200个基因。啊,但是就设200啊,你也可以设到500,五百之后呢,很多有效细胞就把它过滤掉了啊。就是说有一定的合理范围,在合理范围之内,哎,偏低一点拿到全信息还是和以前一个道理啊,就是说信息我们先拿全了,怎么用它,哎,就是每个人,哎考虑的方式不同了啊。倒数B啊,我们来收到当前路径啊。不要一上来就过滤了大把的信息啊,这个很容易很容易出事啊。
69:05
哎,好,我们看一下。我们空白。是不是过滤光了?我这个数据很小啊,演示的时候可能会出一些呃,不可预知的出问题啊,我们来看一下。对,还剩多少啊。1600多个点和6万多的一个机。他在PC的时候呢。啊,大家可以看到这个点已经很少了。本来就不多。没。三保现金是不是没给我看一下。
70:03
给到了好一下雷试试啊。觉得。啊,大家也可以看到这个这个过程相当线索数据量特别大,还有。他是不是这种保存,哎呀,我发现他这种保存方式是不是有问题。嗯。保存出来吗?这个地方。
71:01
Attack you map LA.N这个值一定要10分的。啊,可能会出问题。那么包太少了。前面的这个为什么不可以呢?我们来用它这个默认的保存方式啊。这还没有。没有,他还没有默认的保存方式。It had your map sample somehow.
72:00
可以啊。也是空的啊,说明他在分,他在绘图的时候有问题啊。细胞量少是会不出来的。OBS.啊,有这个信息啊,就是说我们在跑这个雷的时候啊,有这个信息,不过仅剩690多个。也就是说他只有690个,600多个点啊,太少了,实在是太少。实在是太少,所以他在绘图的时候会有问题啊。对。P啊,我看看他的句。
73:11
Two bos.啊,这个距离矩阵也有啊,距离矩阵也有,不过它的一个维度太少了啊,经过我们刚才那么一通操作之后,只剩690个啊,太少了,绘图的时候绘不出来了。会不出来了啊,但是大家如果再用几万的一个数据的话,应该不会出这个问题啊,这个这个这个脚本是一个分析的脚本啊。然后是卡拉的注释,卡拉的注释呢,这个就是活性矩阵了。哎,这个就是火星矩阵了啊,计算活性矩阵,这个也是相当的耗资源啊。
74:03
找点好些的数据,这个找了好些数据就演示不出来了啊,如果找那种比如说1万细胞2万细胞等等啊。那得那就得投到后台分析了啊,不能像现在这样一行一行跑了啊。一行一行宝宝,那因为A泰数据整合的时候需要很长时间啊,需要非常长的时间啊,演示不了,大家看我就这几百个G,我跑的都非常费劲啊。时间比较长啊,这个地方呢,就是来计算它的基因活性矩阵,这个未来干嘛呢,主要是用来打那个那个呃,识别细胞类型的啊。然后ination,哎,Impation干嘛的?数据差补的就是AT数据,它本身吸收性是比单细胞要高的。这个时候啊,这个时候啊,要对数据进行一定的修复,哎,该有的表达量要把它修复回来,哎,这个时候呢,就会有一定的修复作用,包括哎。简单的一个处理,然后有一个。
75:00
就这个地方要对数据进行修复啊。你看这个相当夸张啊。跑的太慢了。然后这就是数据修复的过程啊,接下来呢,哎,计算pickak,计算pickk就是从这个class的角度来计算这个pickak了啊,就是说它有一些共有的pick。哎,都是什么?哎,不同的亚群之间,它有一些差异性的pick,哎,又是什么?就和PPT演示意义上就要拿到这种结果。这种结果。这种结果了啊。哎,然后呢,Finder mark这个就和单细胞找差异哎一样了,相关了啊。啊,相当限速啊,ATC数据分析对硬件要求真的相当高啊,而且在这个imutation的时候。相也是相当限速的啊。一一般都不敢在本地这个这个交互式界面跑,跑的时候相当现实。
76:04
啊,这个过程就哎呀演示一下,我怀疑他服务器又会崩掉啊。然后就是哎,修复数据了,Pick calling了啊。啊,这个就又限速了啊,相当限速啊。啊,大家看我的细胞量是多少,690都都非常费劲啊,更别提大家的好几万了,好几万必须自己分析了,然后呢,简单的一个,哎,找这个开放这个区域的差异,也就是说每个亚巡它开放的差异是,呃,开放的区域差异有哪些?等等等等,拿到这种开放区域差异图,但是细胞大类没有意义啊,主要是看细胞小类,比如肿瘤的一个小类。
77:00
看看它肿瘤的抑制性的一个差异等等等等,最后就是motif。哎,看看哪个转录因子在调节它开放区域差异。呃,拿到的就是类似于这种图啊。就是转录因子,它调节哎调节的活性。哎,包括他一个积蓄啊,我退过去。都可以拿到啊。啊,又又崩掉了,没办法啊,ATC数据就是这么难,对硬件要求就是这么高啊,接下来就不再演示了啊,大家如果有研究的话,把这个脚本拿过去自己跑一跑啊,但是一定要注意啊,用一些高算力的服务器啊,不能用那种低算力啊。就很容易崩啊,我这才多点数据都崩掉了,崩的不行啊,还有一个呢,就是RNA和A泰克联合的啊前面。这个多数学这个脚本呢,大家可以看到了,是这个活性矩阵打分的几种方式啊,但是很多时候呢,诶客户要求我要用A这个RNA来注释RNA有两种方,两种这个注释方法,一种就是这个。
78:04
哎,前面提到的。哎,前面提到的,诶,一个样本分成了两份,一份是做了a haer, 一份做了na,这种联合呢,有那种threat,那个label transfer那种方式,但那个方式啊,现在用的少了。啊,现在更多的用有了一些,比如西比尼培啊,它自带的,或者说R12啊,这种自带的方式,它内部的算法还会更好一点。嗯,包括Python版本也是一样的,经过这样的一个修复过程啊,因为大家应该应该呃,慢慢都看到了,现在发的高分方法基本上都是Python版本,因为Python更快一点。我现在用的Python它都容易崩,大家如果用R可想而知啊,崩的更怕,更可怕,需要的资源更大。这个脚本呢,就是这个。多样本整合的,多样本整合呢,其中需要涉及到三个方向,一个就是单细胞的整合,对吧,多样本嘛,两个就是a tag整合,如果说AT和单细胞来源于不同,呃,来源于不同的样板块儿,比如说一个样本分了两份儿这种,哎,就需要这种。
79:03
正和呃,Label transfer或者像A泰克的这种,像这个Python版本的这种联合分析啊一样的。啊,去了批次之后就要进行联合分析啊一样的,然后说是如果大家是那种多组学的,哎,一个细胞来源的ATC数据和这个单细胞数据这样的话。哎,这样的话干嘛定义了单细胞之后呢,A tag自然而然就获得了他的身份,哎,就可以分析下游的一个开放区域差异,调控差异等等等等啊。这就是简单的一个分析过程啊,不过这个确实再提醒大家一句,非常耗资源啊,非常的耗资源。所以大家在分析的时候呢。啊,尤其是自己测序数据那种好几万的这种啊,一定要配备一台高算力服务器,这可能也是很多客户他不会哎挖掘AT数据的一个原因吧,硬件完全跟不上啊。
80:01
好了,大家有什么问题吗?有什么问题可以问一下啊,我们来回答一下,然后没有问题,我们今天的课程就结束了啊。大家对AT数据要有一个比较深入的理解啊,因为现在多组学制方向,单细胞的多组学方向有哪些呢?第一个就是单细胞和ATC,第二个是单细胞和VPZ,第三个就是单细胞和空间了。对吧。好了。
我来说两句