00:01
嗯,好啊。时间到了,我们来上我们的第29课,关于这个图像分割的一些内容。其实关于图像分割呀,哎,并不是一件很新鲜的事情。在很久之前,大概在十六七世纪,哎,当时的医学人,哎,医学专家们。哎,就想通过用用计算机的方法,就是用用这种一些程序的方法,哎,帮助人们,帮助这个人啊。实现这种细胞的分割。哎,因为每种细胞类型的状态啊,从人肉眼上来看是可以明显的,哎,看到识别出来的。但是想让机器代替人,哎,用人的思想来。识别这种细胞类型,或者识别细胞边界,哎一开始认为很容易,但是识,哎一直发展到今天呢,哎仍然有很大的一个问题啊,并没有非常那么精准的划分出细胞。
01:01
其实关于细胞分割啊,嗯,就是基于图像分割细胞类呃细胞呃细胞大小啊等等,哎,在之前的平台上都有,或多或少都有介绍过。你像左边这个图就是华纳的平台。哎,华纳的平台大家都知道,华纳平台呢,是一种高精度平台,它的这个精度呢,是220nm。嗯,如果大家做过华纳平台的话,哎拿到的结果应该是他那种就是合并成这个superport的这种模式,但是真正的在运用哎分析的过程中啊。如果能够借助图像分割的话,哎,他的分析精度会更加的精准,就像华大发表的这篇文章一样。哎呀,这些地方我们的细胞分布就是呈现出这样一个状态。哎,每个形状都是不规整的,哎,有的地方存在间质,对吧,间质。呃,细胞也不是那种致密的排布,中间没有任何空隙的状态,对吧?哎,那么借助图像分割呢,就可以帮助我们了解到细胞真正的一个分布状态。
02:02
以及它的一个哎,形状大小啊等等等等。哎,前面提到过。嗯,HD的进度大概是2μm,哎,华纳华纳的精度呢,是220nm,如果运用图像分割的力量。啊,运用图像分割的力量,哎,华纳平台是具有优势的啊,因为它的它的精度更高。精度更高,划分的会更精细一点,哎,拿到的效果也比HDHD要好一点。啊,大家如果做了华大平台的话,可以问问他们是不是可以。呃,依据图像分割来划分单个细胞。这样的话对下游的分析很有好处啊,不需要那种简单粗暴的合并啊,很多时候合并的都有问题。在HD那一课上,哎,大家看到那个HD那个图片,很多时候啊,独立的单元都划分到了不同的一个。Support里面,哎呀很容易造成这种,哎分析上的错误。分析上的错误啊,所以说做华纳平台的时候,大家可以问问他,问华纳的人可不可以辅佐,说是,哎,我们。
03:03
用一下图像分割的技术,哎,把它给。识别出来。那对于我们这个微字姆呢,嗯,也有一些,呃,软件是要用这个。哎,图像分割的方法的,比如像cell check special scope, 哎,它也要借助图像分割的方法来识别每个点内到底含有多少个细胞,以此来诶提高几卷机的一个能力。你像这个地方,哎,它借助这个图像识别的方法,识别出每个点里面有多少个和。啊,有几个核,当然一般会认为它是有几个细胞啊,但是呢,这种划分是比较粗糙的啊,是比较粗糙的。呃,因为比如说这个和位于这个点的这个边界。哎,那么如果我们真正的一个细胞大小,因为这是核的大小,我们需要扩展,扩展到细胞膜的存在。啊,那膜当然就在这个18号的外部了,哎,信息就会有丢失。
04:00
所以很多时候在结转仪的时候,通常会告诉大家一个点大概2~10个啊,一般是2~5个对吧。嗯,但是呢,很多时候啊,一个点内,它或多或少会有一些其他细胞的成分。就像HD那个数据一样,大家哎把它放大看一看,哎,一个点内可能还有几十个细胞,因为都是每个细胞啊,都是一些哎小很小的部分,哎占据了这个support。导致了会有这样一种现象出现。哎,这是低精度平台微划分,这个依据图像识别来识别细胞类型的一个。哎,一个内容。大家可以看一下啊,基本上是依据和啊,识别有几个和啊。对于图像识别啊,其实有专门的一个协会,呃,有专门的一个。哎,组织,哎,这个组织就叫这个Ms AI这样一个组织啊。它是专门做影像主学的啊,影像主学是一个专门的大学科啊,有专门的这样一个专业啊,社会上呢,也有一些专门的机构哎,运用于香族学来识别细胞类型啊。
05:07
哎,这个组织呢,哎,每年都会举办一次大的会议,哎,介绍他们在营销助学识,哎,识别上的一个进度扩展等等一些内容,哎,是该领域的顶级会议,也就是说它就是权威了。呃,下面这张图呢,大家可以看一看。对于我们人来讲,呃,对于我们这个,呃,就是人来讲,人能直接看出来哪些是细胞是吧,哪些是细胞,它的轮廓是什么,哎,这些地方是间质等等等等。对吧,很容易可以判断出来。哎,但是对于我们的计算机而言。哎,它自动判断就会产生这个压力了。哎,比如说计算机要判断出这个地方是一个真正的细胞,哎,这个地方是细胞边界啊,这个地方呢,哎,是细胞间质等等等等这些部分啊。想要运用计算机的力量来识别其实是非常困难。它不像我们人。
06:01
哎,人眼一眼就能看出来,但是计算机是没有这个能力的。那么如何让计算机用人的这种思维方式来思考,识别出有效的细胞,哎,成为了一个现在研究的一个很重要的一个方向啊。尤其在识别肿瘤细胞方面,哎,这个应用非常的广。哎,不过这也侧面说明了我们在呃,对空间细胞,哎,空间转录组进行分析的时候啊,我们更多的希望是拿到这样一个真实的分布状态。啊,像这种华纳啊,HD啊,那种高精度,如果能合并到单细胞级,那个效果当然是最好。啊,像这种wisdom啊,一个圆一个圆点啊。啊,或者像那种低精度简单粗暴的合并啊,这种方式其实还是存在很多的一个,呃,分析上的错误的啊,那右边这个呢,就更加的明显了,对于我们人来讲,哎,这是一个。独立的是吧,是一个独立的,那这部分呢,基本上处于细胞间质的一个状态,那对于计算机而言,哎呀,它很多时候这种复杂的结构,它就无法识别了。
07:08
哎,比如说这些间质,它也有黑色的点,哎,它的一个像素底层和这个真实的细胞其实差异并不大啊,那么在这种情况下,计算机要识别这个真正的有效细胞。哎,难度就会更大。嗯,就需要更多的一个机器训练了,这就是现在识别细胞对空间细胞识别的一个现状,就是说人可以很容易的把它识别出来是吧,一看这就是个细胞,但是想让计算机帮我们识别就非常的难了。哎,当然有的人说,我们能不能人为一个一个画。啊,这细胞少可以啊,细胞少可以,你像那种像什么Z黏膜啊,那几十万那样人为化,那真画不出来,必须借助计算机的力量啊。还有一些特殊类型的细胞,对吧。哎,我们每个人都能看出来,这是个神经元,这是突出,这是轴突,这是竖突等等等等。
08:02
哎,我们人类大脑就可以,哎,很容易的识别这种复杂的结构,只要这个图像拍的够清晰,哎,拍的够这个,够这个,哎,真实性,哎,那么我们任何人都可以把它识别出来,哎,这是一个细胞,这是一个什么结构,哎,间质结构,输突,轴突等等等等等。但是。哎,我们想要用计算机来帮我们来分析这个难度,哎,相当高啊,相当高。哎,就像右边这张图一样,我们的肌肉组织,哎,这是一个细胞,但是肌肌纤维组织都在这里面,哎,肌纤维组织和肌肉细胞其实是。哎,相互,哎嵌套的存在是吧,我们人一眼就能看出来,哎,这是个肌肌肉细胞,这是个基础细胞,这些是肌纤维对吧,但是计算机在这种背景下,它是识别不了的。哎,这就成了很大的一个问题了。所以说啊,如果我们想训练计算机。哎,想用这个电脑帮助我们人准准确确的识别这个,哎。
09:04
细胞类型的空间分布。啊,这个得从啊,非常底层一种呃,逻辑算法开始。非常底层啊,大家看到的那些图像识别的分割方法。呃,细胞识别的空,呃分割方法基本上啊,呃,如果大家统计过的话,基本上我发现基本上都是,呃,那些发达国家。发达国家发明的,因为他们的医学啊,起步比较早。嗯,他们对这个需求更更大一点,他们在看到这个现象之后啊,就要研究研究,哎,我怎么能实现它,借助计算机的力量来实现它啊。好,这就是基本上一个。底层框架啊,目前大多数的一个图像识别软件,底层的框架还是UN UN unit啊,这个呢是。呃,这个我记得好像是德国一个医学家,哎,德国的一个科学家呢,组建的这样一个底层的逻辑,我们都知道我们的图片啊,都是一种什么。
10:07
三基色对吧,三种颜色还相互的一个像素点的一个值的一个变化,组成了我们图片的五颜六色的一个世界。对吧。哎,那么每个每个图像啊,在计算机的眼里就是一个三维的矩阵。哎,三维的矩阵,哎,每一个三原色呢,代表了一个矩阵的一个方向,比如XYZ轴等等,这样的话三种哎,三种哎三原色的一个含量比例的变化呢,就形成了不同不样的一个颜色,对吧?那么基于不同的样,呃,不同的颜色,哎,就是不同的这个三维矩阵,它的值的变化来判断出我们的图像,哎到底属于哪一部分。哎,是我们想要的那部分,还是背景噪音等等等等,哎,这个时候呢,就是基于这个三维矩阵来进行一个分析了,对于它分析的底层架构就是我们今天提到的unit。
11:00
嗯,啊。哎,下面这张图呢,就是简简单单的一个识别的一个。哎,识别的一个。例子,哎,我们拿到一张图片对吧?我们要识别其中的猫对吧?那么我们在识别的时候就要考虑什么。哎,考虑什么。哎,考虑它的一个。哎,XYZ轴它的一个像素的一个变化啊,比如说这种猫,哎,它是一种哎什么颜色。哎,它这个颜色大概在3,呃,三基色的一个什么范围。XYZ轴,哎,它的一个范围是什么?最后综合起来,诶用这种AI的时候,哎呀,这个范围大概是这个model的范围。哎,把它的轮廓给描述出来,最后把它给哎识别出来。大家如果现在买过这个华为手机的话。嗯,如果买过这个华为手机的话。
12:00
哎,华为手机现在这个相机啊,有一个哎非常好的,哎也不是有一个A非常智能的一个功能是什么呢。就是AI消除或者AI填补的一个功能。哎,你点住一个物件,点住一个物件,哎,如果想让它插除,点插除之后,它就把整体给插除了,它的一个原理呢,就是说你点住一个物件之后,它会识别你点住那部分的一个像素。就是那个三维矩阵的像素的一个特征。他会把相似的特征全部给擦掉,并且把依靠背景啊,就是背景点的一个特点,哎,给它填补成背景部分。哎,这就是图像识别的一个啊,非常的一个简单的原理啊,当然了这种这种呃,图像识别啊,还处在一个比较基础的阶段,就是说我们识别的是一个很大的一个区域,比如说猫很大,占图片很大部分,这样的话,在计算机训练方面是吧,都非常的。啊,还相对还比较容易,但是来到我们真正的这个细胞分割层面。
13:03
哎,就非常的难了。首先我们。呃,细胞分割是,呃,最大的一个问题是什么?第一个细胞都非常小,对吧,你像一张zin裂膜切片可以放将近上百万个细胞的。啊,这样的话,一个点是一个细胞在识别上,哎呀会有很大的一个困难,第二个是什么。啊,细胞核图像不同细胞它存在细胞核,哎,存在细胞质,真正的一个细胞核,细胞的一个完整的结构啊,应该是以细胞质。冷漠为界的。对吧。呃,但是细胞质的膜呀,有些时候识别起来非常的困难,非常的困难,它不如细胞核哎,细胞核颜色比较深,识别上啊就会相对容易一些。哎,就会容易一些。哎,那么所以说呢,一开始所有的工作啊,都集中在哎,识别细胞核上,包括现在HD的一个策略,就是依据图像的识别策略,也主要是集中在细胞核。
14:01
哎,当然呢,我们需要扩展啊,扩展出它的一个真实的细胞边界,就像我们昨天讲到的那个原位数据一样,光识别细胞核,其实信息还是会丢失很多,我们要进行扩展,把它扩展到细胞膜的一个边界。啊哎,细胞核通常较大,呈椭圆形,在不同细胞类型的之哎之间,外观很小。哎,几乎每个动物都包含一个,这也是细胞识别理论的一个基础啊,就是说它肯定包含一个细胞核,那说明这存在一个细胞,至于它细胞膜的大小,就需要更为严格的一个训练和计算。哎,把它给识别出来了。目前啊。哎呀,目前这个图像识别的这个方法啊,非常多啊非常多,绝大部分都是老外发的。大家首先看下面这张图,哎,第一张图呢,就是转录组,就是我们经常呃,机器在运算过程中来检测每个基因的一个空间的一个位置的一个图出来这种图,嗯,我们一开始拿到的图片啊,都是这种图片,就是基因的一个空间位置。
15:08
哎,等到我们后面想知道这些基因属于哪个细胞的时候呢,就需要借助什么。高精度的H与切片,哎,注意是高精度的啊,普通的那种set access的那种图片,或者普通出来那种几百兆的图片,哎,那个精度还是不够的,需要借助显微镜的力量,哎,显微镜的力量把这个高精度图片给拿到进行一个。呃,有效识别。接下来呢,就依据图像的像素,也就是在计算机眼里,我们每个呃照片呢,都是一个三维矩阵,哎,根据它的特征开始,哎识别,识别的方法大家看了这么多是吧。哎,实成自己的,哎,时成自带的这个软件基本上也是star啊。还有贝、JS water什么各种sal POS等等等等,其中重点呢是study的和sal POS.这是目前公认的识别,哎,障碍细胞影像组学。
16:02
哎,细胞生物学方向识别细胞最好的方法。大家可以感受感受这个呃,不一样的地方,尤其是大家做过这个微,做过这个HD。啊,做过或者或者做过华纳等等,哎,感受一下啊感受一下。哎,真正的。哎,第一次拿到转录组的一个情况是这样,哎,我们要依据图像分割,哎,把它分割到把它这个转录组划分到单个细胞中。而且我们在图像分割的时候啊哎,细胞分割的时候啊哎,每个细胞的状态都是不一样的。哎,中间还有间质,就是有些地方是不包含细胞成分的。哎,我们都要能识别出来,哎,这样的话对图像识别啊,都有一个非常大的一个考验了啊考验了。你像这个华纳这种的。是吧,它也是要聚据图像识别才能识别出这种细胞间质区,如果说大家用华纳平台检用那耐克默认的那个结果,就像HD那个默认的结果一样。
17:05
啊,简单粗暴的合并的话啊,这些区域都是找不到的啊,细胞边界都是那种横平竖直的这种都是有问题的啊。嗯,这个呢,就是最呃。哎,图像识别最真实的一个现状了啊,其中呢。哎,我们现在啊,运用最广的一个方法就是star。哎,他为什么叫这个名呢?Star是什么?心D的是什么啊?就是Distance那个书写。Star的,它那个本身的概念啊,就是为了识别这种不规则细胞类型。哎,他开发的一种方法,它的一个底层逻辑就是刚才提到的这个。Unit.哎,它识别的时候呢,大家都知道每个细胞它的形状啊,千奇百怪的是吧,哎,我们可以统称它为星心形多边形。哎,就是它的形状不是那种规整的啊,圆形啊方形啊等等,哎,那么在这种情况下呢,运用这个方法就可以什么了。
18:07
哎,尽量的识别它的一个多边形的一个。分布的一个特点,哎,把真实的细胞轮廓给它扩炫出来。这个方法最开始是用于细胞核的啊,细胞核的包括HD,它官方推荐的时候也是用来识别细胞核的。但是哎,我们需要它做到的是能够推断出周围细胞质更复杂的行为,也就是说仅仅识别细胞核是不够的,哎,一定要识别出细胞膜,也就是细胞质它的一个范围。哎,另一个重点就是self POS, 哎,Self push采用了一种更为通用的方法。啊,这是一个美国的科学家啊,美国的一个科学家夫妇开发了啊,目前CFPOS已经发展到3.0了啊,3.0啊,1.0和2.0已经有了很大的一个应用。嗯,3.0目前处于一个前八的状态,哎,不过影响,不过这个效果还是比较好的啊,它这个呃,理论呢,就是推断出流程,哎,就是那个细胞膜它流向嗯扩散的一个情况。
19:10
哎,扩散的情况,比如说我们的这个转录组,哎,它的一个分布特点是什么?哎,它的一个流畅就是说细胞膜内部。哎,它都都应该是有一些什么短路组分布的,对吧,细胞膜外部严格来严格上来讲是没有的。这样的话,在推断流场的时候呢,哎,一个很密集的一个区域,就是转入组比较多的一个区域,哎,慢慢扩散的时候,扩散到外面的时候,哎扩散到一个边界,这个边界刚好发现它的一个转录组的水平啊,哎,呈指数级下降,就是很快的就变得没有了。哎,这就是,这大概就是一个细胞膜的边界了啊。哎,这就是他的一个原理啊,简单的原理,当然内部有很多深层次的算法需要大家。哎,需要大家进行一个研究啊。
20:01
所以说现在呢,CLS它一般运用的也是比较广的啊,目前大家都知道HD它推荐是什么。推荐运用这种图像识别分割的方法来获取真正的单细胞及空间数据。嗯,HD官方推荐的是star,但是如果大家让公司做。如果大家让公司做,公司一般采用CPOS的方法。这也是为什么现在HD很多那种图像识别方法还没有研发出来的原因啊,因为一方面C,呃,Star Dis呢,哎可以用,但是对核识别很有效,哎,官方推荐的也是核,但是在细胞膜识别上。哎,目前还没有个很成熟的方法。哎,当然他自己可以推断出一些,但如何结合实成的数据,哎,目前这都属于研发的状态,还有一个就是,哎,更推荐sal POS啊。一般来讲我们这件L布置多一点,但是华纳那个运用的是star,就是这个也是用的star啊。
21:04
哎,我们首先来看看这个star。哎,它就是采用了这种u net架构,哎,用于图像分割的一个特点啊,它在识别的时候啊,对于这种新型细胞的识别,哎是非常有优势的,哎是非常有优势的,大家要注意啊。对于这个图像识别这个软件啊,每一个软件前面都要进行大量的训练。就是几千张、几万张的这种医学图片给他训练,让他能够在训练集内得到真实的结果,才能用于这个预测新的图像。哎,遇到新的图像之后,它优化好自己内部的一些算法,哎,就可以判断哎,我们产生的图像它的一个特点了。哎,拉蒂呢,不仅有这个二维的一个,哎,二维的一个图像识别能力。还有一个三维的图像识别呢。我们来看一下啊。
22:08
图形识别啊,每个软件都有它,呃,核心的算法也有它核心的一个应用场景啊。哎,还有一些应用的场景,嗯。很多高分文章啊,它都会引用这种图像分割的方法,用来分析自己的图像数据。哎,它的一个简单的原理呢,其实就是这样。哎,依据图像的一个,哎,像素点的一个不同,哎,明场和暗场的一个区别,哎,把它给识别出来。呃,它的一个安装方法都很简单,大家有大家感兴趣可以试一下啊,感兴趣可以试一下。哎,它的一个应用的场景都比较的。哎,比较的一个简单啊。
23:01
这个地方再提醒大家一下,大家前期如果没有做过图像分割的话。哎,自己拿着玩可以啊,如果真正的应用到自己科研项目上的时候啊,哎,请一些公司专业的人做啊,自己分割一般不训练好多次,其实分割的都是有问题的啊。呃,需要借助公司专业的,因为公司这帮,呃,公司这边的一个生信啊,他如果做过这个项目的话,他应该有积累了很多的经验,该如何调整图片的信息,他都是知道的。这个大家要。哎,这个大家要注意啊,大家要注意打不开嘛。啊,不过。现在可能距离大家还比较遥远啊,比较遥远,等大家在那再研究研究。哎,可能就会拿到一个相对更完美的结果啊。
24:02
现在的原位数据啊,大家拿到之后,它那个一般公司都默认给大家切好了。就是已经告诉大家这个图像是这样,图像是这样。啊,你质疑也没有多大用了,因为它就这样啊,对吧,你说你自己重新购啊,这个可能性也不大啊,它对计算机的算力要求非常的高啊。一般都不太行,一般自己的电脑什么都不能够啊。哎,这是它简单简易的一个代码。哎,前训练数据集,然后呢,把它加载进来,用来识别我们真实的一个图像啊。这是它的一个简单的逻辑,哎,它其实代码并不复杂,但是它内部计算量是相当复杂的。第二个是需要什么呀,一个高精度的图片。哎,TF图片大家知道TF图片啊,是一种呃,高专门的高精度图片,一般高,哎那些仪器啊少出来的图片都是这种高精度,哎,一般都上G了,一两个G这样的一个样子,只有精度越高,它识别的才越准确,像大家普通的那种几十兆几百兆那种用于时成分析的图片,那都是精度都是不太够的啊。
25:15
这个为什么打不开呢?Model start.哎,对,还要需要GPU。GPU的话,现在公司配GPU的都不多啊,因为他的算力确实要求太高了,哎,包括我的公司,我所在的公司现在都要就是上周五,呃,就是这周五。开会要立马采购GPU用来计算啊,无论是HD还是原位,普通的计算机,普通的服务器都是带不动的,像这种高的降维聚类这些基础分析根本就带不动,哎,那还有什么,还有像图像分割呀,Z这种分析啊,没有GPU也带不动。像其他方面,像这个早筛哎,特检这些方面啊,要求时效性越来越高了,要求一两个小时就能分析出结果,普通的服务器也是带不动的,必须要有GP5啊。
26:12
这个。太大了,估计是。哎,这个方法呢,其实就是刚才那个协会。这个这个这个哎,影像组学的顶级学会,哎,也是他的学术会议啊,它公布的一个分析方法,哎,所以运用的还是比较多的啊,比较广的啊。一般软件都会配套它,它是一个更为底层的一个逻辑。啊,打不开。哎,它配备了2D的一个训练模型和3D的训练模型啊。皮肤啊。哎,大家有空可以了解了解啊,这个其实非常的,怎么说呢,非常的前沿,也非常的。哎呀,反正对人的要求啊,什么要求都非常的高啊,大家有空可以了解了解啊。
27:05
哎,这是它识别的一个原理,哎,从这个图像中,哎,识别出真正的细胞分布,包括2D,也也包括3D这样一个状态啊。其中呢,它引入了一个心型的损失函数,就是心型距离,哎心型距离就是说在哎往不同的方向扩散的时候,能够检测到它转录组变化的一个幅度,如果比如说它是一个新型细胞,比如说这个呃呃,类似于长条状的吧,对吧,中心的如果是个核的话,它这这个方向的分布。这个方向的检测会发现。跨过这个细胞膜的时候。哎,转路度水平大幅度下降啊,说明膜大概这个膜的边界就在这儿了,而在这个方向分布的时候就会相对长条状一点,对吧,它在识别的时候就会发现,哎,它的一个范围啊,可能更大,把它真实的轮廓给它扩出来。哎,这个是简单的一个训练,哎,训练的一个情况了啊,大家可以看一看其他地式的是如何训练的,对于真实的细胞,现在有的细胞挨得很近,对吧,你像这种三联体细胞。
28:09
挨得很近是吧,相互之间的膜紧挨着,相互有一点挤压的那个效果,对于细胞核的识别呢,其实是可以的。比如说这个核,这个核,这个核基本上处于细胞呃中心几何中心的一个位置。嗯,图像现在在细胞核的识别上,其实是没有多大的一个。哎,模有多大的一个困难呢?哎,那么就是在核扩散的时候,就是扩散这个细胞边界的时候啊。可能会存在一定的哎问题,那么对于它这个呃,Study Dis的它的一个理论呢,就是说随着诶核膜的扩散,哎,它这个细胞在扩散,哎这个细胞也在扩散,糖在扩散,扩散扩散到一个什么。哎,交界区域的时候,哎,认为就是他们的一个两个细胞的分布边界了啊。同时呢,它有一些降噪的处理等等等等,呃,像这种如果说这个细胞单独在一个区域,像这种的,哎,和其他细胞没有没有上空间位置上的关系的时候呢,哎,这种是相对容易识别的,像这种紧挨着的呢,它就会有一定的这个识别的一个压力了。
29:15
哎,所以在训练的时候呢,前面大量的训练其实就是用来训练这种紧挨着还有重叠的这种细胞,哎,该如何这样一个识别。啊,下面这张图呢,就是简单的一个逻辑,你像有的细胞,你像这个细胞和这个细胞都重叠到一块儿去了,对吧。这个细胞在下面,这个细胞在上面,我们的这个空间切片都是一定有一定厚度的。哎,不可能说准准的,每个细胞都是切到了单细胞的那个层面,可能切到了两个细胞的,呃,上下上下半边的部分。哎,这个时候在识别的时候,就会存在这种这个细胞在下面,这个细胞在上面,那么识别的时候,你看它识别的一个特点。哎,像这个细胞在下面,哎,他把它下面的这部分单独列了一个细胞。单独物列的列成了一个独立的单元,而上面的这个呢,具有明场的这个细胞呢,哎,是一个完整的细胞啊,所以说在细胞识别的时候啊,对于这种,哎,这种。
30:09
细胞的一个什么?细胞的一个,就是说上下上下级的这种关系,一个在下面,一个在上面的时候啊,下面那个细胞往往是获得不了它的一个真实有效信息的,只能获得它的部分信息。而且它这个什么下游的,下面这个被压着的就是下面这个细胞啊,很多的信息,哎,表达信息,把它归属到上上面这个细胞。就是说比如说这个地方表达的一些基因,其实应该属于这个下面的这个细胞的。嗯,单独归属到上面一个细胞了,这是属于分析上的,这是属于图像识别上的一个。哎,不可避免的误差,没办法啊。哎,进一步压,呃,进一步压缩的时候,就说到这个状态,这是和的状态啊,把它进一步进行一个分割,哎,分割成这样一个状态。
31:00
大家可以看看整体的一个分布变化啊。哎,所以说在图像细胞分割状态的时候,还是存在一定的缺陷的,尤其尤其是想要表征我们真实的一个组织分布啊。还存在一定的问题啊,只有将来真正的实现3D空间转录组。哎,3D空间转录组以及3D的识别,像这种实现3D识别的时候,哎,这个可能这个可能才能真正的说我们认识到了主值的一个分布啊。这是这个萨蒂斯的引用的文章的一个情况啊,当然很多文章都引用了它啊,我列了一篇高分的。哎,高分的它在图像识别的时候就是这样一个状态,哎,识别到的一个特图像啊,一般就这样一个分布状态,哎,大家拿到这个原位数据的时候,对某一个特定的位置啊,进行一个区分的时候啊,它的一个细胞聚集度,哎,分散程度,细胞类型状态等等等等,其实都可以拿到了。哎,都可以拿到了啊。哎,简单的一个分布状态就是这样的。
32:02
哎,右边这张图就是依据图像分割的一个整体的一个图片,哎,基因表达的一个现状,以及它的一个区域分布等等。哎,它所运用的一个方法就是star。哎,感受一下它的变化啊,感受一下它的变化。哎,原位数据它的一个优势就在于。哎,它能真实的划分出这个细胞的一个轮廓,并且表证它细胞真实的分布状态。哎,你像其他平台都没有这个优势,你像这种细胞监制在其他平台根本就做不到啊,根本就识别不了。哎,但原位可以像这种密集的细胞区,哎,松散的细胞区都可以借助原位平台给它识别出来。接下来呢,我们就要分享另一个非常重要的地方啊。非常重要的地方啊,我们休息5分钟吧,休息5分钟我们来看一看其他的啊,休息5分钟。
38:09
好,我们回来啊,回来。继续看我们图像分割的一个内容啊,当然这个分割呢,可能离大家比较遥远啊。哎,前面讲到了最常见的那个study的那个。哎,洗个包分跟方法基本上啊,基本上在做这个方向的人啊,一般都用它啊。POS呢,它是一个。哎,CFPOS是更为一个,哎,从算法上和底层逻辑上更为适合的,更好的,哎,我认为更好,当然从业绩上来讲,运用的也比较好的一个方法啊。它在这个unit这个基础上,结合了这个卷积神经网络的一个部分COO。大家如果对西有了解的话,应该明白他是干嘛的。哎,做图像处理的,专门做图像处理的啊,包括图像的磁化特征提取等等一些内容啊。
39:05
然后呢下POS可以对单个细胞或者聚集的细胞图像进行高质量的分割和分类。细胞分割与山药库基于显微镜的一个单细胞分析,是目前科学前沿的一个,哎,热点问题啊。这个呢,就是我们现在研究的一个重点了啊,研究的重点。啊,如果大家了解过这个生物科学的一个发展。哎,如果说大家职位已经,哎,已经来到一个比较研究比较深层次的一个层面的时候啊,就会发现。哎,这个方向缺大量的人才啊。尤其是底层算法逻辑的人才。像咱像呃跟我一样的什么加载个包啊,跑一下数据啊,这种人才并不缺啊,这叫什么。啊,应用层面就是开发给APP应用一下,这种人才并不缺,哎,国内很多人都能做,但是你要想开发,比如说平台研发。
40:01
想研发出单细胞平台,当然现在也比较容易了,但是想要独创性的研发一种新平台。哎,非常的难,还有一种什么。算法、底层逻辑数学这些东西,比如说做肿瘤早筛,预测患癌概率。呃,做这个,比如说就像我们做这个图像识别。哎,识别出真生的真正的细胞分布状态啊。哎,这些都是非常的。哎呀,底层对底层逻辑要逻辑要求非常的高啊,对算法要求非常的高啊。我们大部分啊,包括国内很多人基本上停留在应用层面啊,就是人家国外开发好了,我们用一下。喂,CFPOS它的一个分析方法已经发到,那哎,它的一个分析方法发到了这个nature method的,而且发了不止一篇啊,这是它一个简单的一个逻辑啊,简单的一个逻辑。哎,对于我们不同的一个细胞图片,对吧,对于我们不同的这个生物学图片,这个三个push啊,都有一个很好的一个什么。
41:04
都有一个很好的识别效果,哎,你像一识别出来是这样的。哎,它也是这样的,哎,都有一个很好的识别效果,无论是对于这个。哎,无论是对于这个。这种免疫荧光的图片还是这种这种这种这种图片就是没有什么没有什么彩色彩的,就是扫描图片等等等等,它的识别效果都是非常棒的啊,非常棒,当然了这个软件也是要进行一个非常大的一个训练啊。哎,目前呢,他已经发了这个三篇了啊,都是一些高分的,大家都看到了发到了啊。它那个网址呢,在这儿呢。哎,他的文章在这了,我们看一下,哎,他整个文章啊,就会呈现出如呃如何实现它这个算法的一个。哎,动态图,哎,新的一个文章呢,在C库是在这个地方。
42:03
哎,CS2呢。哎,他这个算法已经得到了很广泛的应用了。哎,像这种的。哎,识别图像。哎,等等等等,他积累了大量的一个经验啊,如果说你想用直接直接用他这个软件来识别,你就把这个点上去。又把你的那个文,把你那个图像放上去,注意这个时候要放那种高精度图像啊,高精度图像就是那个显微镜扫描图像,把这个放上去,它就把你分割好了,并且输出一个多边形文件,就是你的那个坐标文件,告诉你这个地方,然后你结合你的数据可以把它给什么。重置一下。嗯,这个地方啊,CRS1还处于这种什么。哎,低精度的一个状态,哎,识别不是很强,哎,真正来到CRPOS2,那就是真正的要高精度了,CLPOS3它的精度更高了啊,这是它的一个网址啊。
43:03
哎,其中我们真正要是哎,需要他能够帮我们做到的,就是这个真实的细胞分割。尤其是边际的分割,这种细胞紧挨着的分割,散在的分割相对是比较容易的。啊,尤其是但是这种致密的分割就比较难了啊。哎,知名的分割就比较难了啊,这是文章啊文章。哎,大家感兴趣可以看一看。呃,他的文章,哎,方法论写的非常好啊,写的非常好,我自己看了一下啊。然后这个就是简单的一个分割的一个情况,首先我们要进行预训练来训练,就是人工先注射好细胞的一个轮廓。告诉他细胞大概成这样一个分布,哎,细胞核在什么位置。哎。然后让它进行训练,训练的时候呢,它训练的过程是什么?其实先识别细胞核,细胞核然后再弥散,向各个方向弥散,如果在在这个细胞膜这个边界的时候,突然这个转录组水平下降的非常快,甚至没有了,那它那这个地方就是边界。
44:04
你看从零开始一个点。扩张到这个范围,哎,再扩张到更大的范围。哎,扩张到这个边界的时候,发现外围的这个转录本水平已经非常低了。哎,这就是标记成细胞边界,哎,各个方向都是相同的一个,什么相同的一个。哎,原理,嗯,所以划分出来的细胞就是真实的一个细胞状态了。哎,呈多边形的这样一种状态。哎,等等等等,往下画,往下画往下画,哎,那个呢啊。这个地方啊,形成这个流场的时候啊。哎,它就是为了能识别真正真正的有效细胞。哎,等他把这个前面的这个集啊,给他训练好之后。哎,完整的训练好之后呢,哎,就可以用来识别我们真实有效的一个图像了。就是下面这个图像啊,一个是安泡细胞来识别出来啊。哎,下面这张图呢,就是它真实的识别的一个现状,哎,其中还有一个问题是什么呢?这个是单个细胞识别,还有这种哎,挨着的细胞识别,这个边界是怎样一个识别呢?就是刚才提到的那个原理。
45:10
哎,两个核是吧,两个核同时扩散,同时扩散,哎,扩散到它的几何距离,哎,你两个细胞差不多的时候,认为它是一个边际啊,这是一个简单的原理。哎,识别出来大概就是这样一个效果。哎,当然了,它要经过很大的一个很强的一个预训练,比如说像两个细胞紧挨着的时候,哎,它多大的一个,呃多在多呃多大的一个概率上,这个是个边界的时候,它要经过一定的算法来进行构建。哎,构建出来整个的一个分析结果,哎,这样的话就形成这样一个简单的什么细胞分割的一个图像了。哎,把它分割出来,这是我们想要的结果了,拿到这个分割图像之后,再结合我们的空间转录组测序得到的数据。哎,测序得到的数据就可以拿到我们真实的结果了,哎,就是这样的一个。
46:05
右边这样的一个结果。哎,你看低精度的划分就明显,呃,低同质化的划分就明显的,哎,划分的乱七八糟的,没有什么效果,我们更多的需要是高,哎高质量的这种划分啊,划分出来真实的细胞分布状态。哎,这个是文献中的应用啊,文献中的应用基本上哎已经可以扩到单细胞水平了啊,像这种单细胞tanic个map图就是从这个空间图像而来的,划分好之后拿到它的转录组数据,哎,就可以降为聚类,和单细胞一样了啊,和单细胞一样了,单细胞这些分析就完全都可以做了,哎,同时呢,匹配到它的高精度数据就可以拿到,哎,既拿到单细胞的一个分析结果,也拿到了它空间的分析结果。啊,这样的话强强联合当然非常的棒啊。哎。C image different models, 哎,相同的图片,不同的一个model,哎,在识别不同类型的图片上,其实它嗯有不同的预训练机,像这种有颜色的免疫荧光,或者说这种散在的,还有这种哎扫描图等等等等这个cell POS啊。
47:12
都可以处理它。哎,对于这种,哎,像人工识别这个时候都有点困难的时候,它的机器还是可以识别得到的。啊,像这种的人工看起来很容易的时候,机器当然,呃,计算机当然很容易判别它。哎,明白吧,很容易判别的。哎,这边呢,就是CLPOS2的一个运用特点了,在CLPOS1的1呃基础之上,哎经经历了更多的一个训练之后。哎,用来划分他们更为特殊,更加这个高精度的一个图片,它是在CRPOS1的基础上进行一个哎技术改良。改良出来的这样一个结果啊,划分的效果呢,会比1哎更加的精细化。
48:02
哎,得到这样一些图片啊,这就是我们图像分割的一些特点。哎,大家如果想要自己分割的话,商户士是非常值得推荐的啊。基本上公司如果将来大家说,哎呀,你重给我分割一下,一般用的也是这个POS啊。的默认,基本上结果都会出啊。第3个就是最孝表的这个SAS啊,它是专门用来节简基这个原位图像的啊。他也发报了,发到了那个内存,基本上发的这些高方文章啊,都是外国人发的啊,他们对这个研究的非常深,哎,国内的话没有人支持啊。不会投大钱大代价让你做这样一个研究,但是没有任何支持的啊。因为这个地方需要花很多钱,首先从计算机算力上来讲,一般的就hold不住啊。哎呀。哎,采用了这种transform transformer模型和梯度,哎,梯度流追踪算法和刚才介绍的差不多,首先识别识别细胞核,哎,基于核进行扩散,扩散到一定边界的时候,如果它的转录度水平突然的下降,或者下降的很快,哎说明它是一个细胞膜的一个边界,然后从高分辨率的转录组方向中识别出单个细胞。
49:18
哎,为每个细胞配备一个标识符啊。不仅可以提高分割的准确率和效性,呃准确性和效率,而且为后续的空间转录组数据挖掘和生物学发现提供有价呃有价值的信息,基本上那个空间分割都是这样一个策略啊。然后这是我们的和的一个面积,哎,和分布的一个状态,首先呢,哎,Transformer的一个模型,哎,识别出它的一个和的一个范围,然后呢,在核扩散扩散扩散扩散到一定边界之后呢,哎,识别出细胞帮助,就是细胞的边界。这是一个简单的逻辑啊。哎,这是它一个简单的一个分析过程啊,第一个什么。哎,肯定是识别细胞核啊,每个算法第一步都是识别细胞核,因为细胞核的一个颜色呀,比较深,比较容易识别。
50:11
比较容易识别,哎,所以说在细胞识别核上其实就没有什么。哎,没有什么大的问题,主要是在扩散的时候,哎,识别到细胞膜的边界,这个难度比较大啊,然后呢,基于背景点训练传输阀门,背景点和真实的细胞是要分开的啊。哎,预测从所属细胞中心的梯度方向,以及它是细胞一部分或者细胞外基质一部分的概率,就和刚才提到的那样,一直转录柱水平的一个哎变化,哎也就是流向的问题,哎呀,扩散的时候流向,哎呀如果突然的下降就是血胞膜了。哎,这是目前大多数一个细胞识别的,呃,软件识别的一个。啊,软件对细胞膜识别的一个特点。
51:00
哎,用于其他点,把整个的细胞膜给它完整的切割出来。哎,右边这张是示意图啊。哎,就是模型这个点对吧,这个点是和扩散扩散扩散扩散往外围扩散,比如扩散到这个点再往外扩散,发现它的转录水平非常的低。哎,大概率外,这就是外机制了。哎,各个方向都是一样的。哎,各个方向都一样的,最后把这个膜合膜给混了。把这个边界给扩散出来。哎,最后一个需要介绍的方法是QS啊,它也是一个非常好的方法啊,它是一种可视化的方法。啊,它是一个软件。它是一个软件,大家把它下下来,可以放到自己电脑上用一下。哎,包括安装啊,它是一个软件啊,大家可以把它下到自己的电脑上用一下,哎,直接用就可以了,然后呢,它有一些简单的一个。
52:08
哎,划分检测组织细胞检呃细胞。哎,它这个软件啊,大家可以划分一下,划分的时候呢,指定一些参数,它会自动的帮我们识别细胞核,并且输输出它的多边形文件和哎,空间位置坐标这种哎全都给你识别出来了。哎,包括合膜的一个分布等等等等,哎。哎,这对我们原文平台分析啊,非常的有帮助啊,尤其是大家想对这个特定区域进行一个哎分析的时候呢,哎,用它进来进行一个划分,非常的哎,容易啊,非常的容易,这对于我们分析来讲非常的有帮助啊,公司层面一般也是用它啊,就是说比如说老师说我想用这个区域。哎,我们就用这个软件把它圈出来了,用下一个分析去,哎,还是上节课提到的一个特点,就是说拿原位数据完整的去分析。
53:01
哎,分析什么供定位啊,淋浴啊等等,哎,存在很大的问题,因为把那个内部的抑制性全部掩盖掉了,我们更多的是要圈选一定的区域进行分析,哎,一般就用这种软件圈选就可以了。筛选出来,它会告诉你这个坐标啊,各种各样的东西,哎,包括坐边性文件,包括和的面积等等等等都知道了。哎,然后就用于下一个分析了,哎,这个大家感兴趣,最好是能自己操练操练啊。哎,这个就是我们常见的一些分析了,它在识别的时候啊,这种,哎问这个编辑的划分啊,非常的智能化。哎呀,会随着你的箭头慢慢的给你描述出来,并且可以识别出这种间质区域就是没有细胞分布的区域。哎,等等等等啊。最后呢,给大家介绍一个公司啊,这个公司叫deep cell.哎,他是专门做影像助学的一个公司啊,非常的。啊,非常的怎么说呢,非常的权威啊,它是生物学的一个非常前沿的一个内容啊,前沿的一个内容,这个公司啊,专门在做这个营销主角方面,有一个非常大的一个经技技术经验和技术积累,目前也在继续朝着这个方向进行演进啊演进。
54:16
它是一个,哎,综合了前面所有的分析方法的基础上,研发出一套自己独创的一个独创的一个方法啊,独创的方法。首先呢,哎,强大的机器学习库提供了丰富的工具资源进行训练,模拟,模拟和训练,哎,第一步训练这是不可,这个是唉呀,没办法少的啊,大家都要用这种,哎,进一步大量的训练之后,把这个模型训练好才能往下用,哎,这个是没办法避免的。哎,项目的核心是自动检测分割锥状细胞的卷积神经网络啊。多出都下进行一个学习,哎,能够识别,能够精准的识别不同类型的细胞,并且跟踪它在时间序列上的运动轨迹啊,它的这个层面啊就会更高一点,有空可以看看他的文章啊,这是一篇非常棒的公司啊。
55:05
好了,我们这节课就简单介绍一下关于这个细胞分割的一个内容吧,啊其中呢,可能细胞分割啊,大家自己可能一般都是做不了的啊,所以说呢,大家一般要借助什么公司的力量,如果大家用的是华纳的空间平台,哎,可以和华纳讨论讨论能不能合作一下。哎,识别一下真实的细胞分布状态。哎,把它给拿到真正的单细胞及空间数据,用于下一游的分析。啊,如果说是我们的低精度平台,比如像vim这样一个平台,哎,识别细胞核的数量,哎。在这个允许的范围之内,哎,尽可能划分到低精度,哎,这个大家是应该是可以做到的,像SP scoop这个软件就可以帮大家做到,只不过它在这个图像识别的时候还是比较粗糙的啊,没有那么精准。哎,等到我们真正来到原位的时候呢,虽然大家在从公司层面都可以拿到一个什么。
56:00
哎,拿到一个相对完整的结果,已经告诉你,已经分割好告诉你了,哎,但是呢,很多时候分割还是会存在一些意外。哎,比较模糊的情况啊,比如说像这种肌肉细胞肌,肌肉组织等等。呃,还有一些像这种细胞的一个,哎重叠就是上下游这个覆盖的这种情况,还有一些其他的,比如说两个细胞紧挨着还是分散的这种情况,各种各样的情况都要考虑到,哎,用这种细胞分割的软件,把它给整个的完整的给它分割出来。拿到我们真实的一个。单细胞及空间数据,哎,用于下一个分析就很完美了啊,很完美了,SCS呢,目前有的公司在用啊。有的公司在用,嗯,它那个运用的啊,运用的方,从它的效果来看还是可以的,还是可以的,基本上对他的细胞边际的划分啊。还是很准的啊,还是很准的,这个时候呢,对于我们哎原位的分析呢,就有一个很好的帮助了啊。
57:02
哎,包括这个可视化的软件,大家有空可以研究一下啊,可以研究一下。哎,Deep这个。哎,目前呢,石城他对于这个。什么实诚?对于原呃实成这种高精度就是几。几千以上。师生对于这种几千就是几千,探针就是原位能达到几千,呃,检测到几千个基因数的这样一个量级的一个水准啊,发的文章还是不多的啊。发了多少,发了31篇啊。所以大家如果做了原委,尤其是高通量的那种原委。哎,赶紧分析分析,能发一篇好的文章啊。你像单细胞,它自己师生自己统计了,发了6000多篇。实际已经发了上万了啊,包括其他国产平台和一些没有收录到的文章已经上万了啊,所以说单细胞现在价格也下来了,分析难度呢,其实也没有那么高了,基本上大家自己都能琢磨琢磨分析出来。
58:07
啊,当然分析的很好,还是很有难度的,但是想分析这个结果现在都比较容易了啊,但是一旦来到空间上的话,空间上由于它的一个计算的计算的一个限制。啊,你像VI用这种普通服务器还可以,像HD和zium啊,需要高算力服务器,一般公司都一般那个客户都配不上的,就需要借助公司的力量了,哎,同时也说明了他的分析门槛比较高。哎,门槛高的一个前提是,哎,门槛高的一个结果就是发的文章比较少,哎,竞争力没有那么大,大家只要在这个方向好好做,哎,基本上都能拿到一个不错的效果啊。然后就是Z的一些它的一个软件的一个运用啊,软件的一个应用。哎,其他其他的一个。Fulfillment.
59:00
要拿panel。Work.难受。探针设计,哎,组织准备。软件分析Z。哎,不知道其他那个平台有没有提供这样一个软件啊,哎,正常来讲本地可以用的,哎,把它下下来用自己的软件可以加载看,呃,网页版它提供了一些事例啊,一些事例大家可以。看一看。哎,真正分析的时候呢,我们就需要借助这种高精度的一个力量。来帮助我们来识别它真正的分析效果啊。啊,当然我们的细胞太多了,加载都非常慢啊,发非常慢。
60:01
哎,基本上它这个时长也是用的C,呃,那个star的一个方法。加载不出来啊。还有一个大家在选择原位平台的时候,尽量选择什么。哎,数据和底片能结合的这样一种平台啊,至少看这个底片知道这是什么区域,哎,画一画,画出来之后把细细胞的信息附附着上去,哎,就可以识别运用了。呃,像华纳可能会未来会攻克这个问题。啊,不可能永远是冷冰冰的展示它的数据和空间位置。哎,这就是细胞分割的一个状态啊,我个人非常喜欢这种结果啊,确实非常的真实啊。
61:00
哎,每次看这种结果,分析这种项目的时候,我觉得非常的真实啊,虽然它的通量没有像HDZ哎,V那么高,哎,但是它胜在真实啊,确实很真实,该有细胞的地方就有,没有的细胞就是没有。啊,不至于出现这种像威总那种模棱两可的不太不太确定的一些错误啊。好啦,关于图像分割呢,就给大家简单介绍一下吧啊。大家没什么问题。
我来说两句