首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >单细胞||SingleR鉴定细胞类型

单细胞||SingleR鉴定细胞类型

作者头像
生信编程日常
发布于 2020-05-04 13:24:35
发布于 2020-05-04 13:24:35
6.2K00
代码可运行
举报
运行总次数:0
代码可运行

SingleR是用于单细胞RNA测序(scRNAseq)数据的自动注释方法(Aran et al.2019)。给定具有已知标签的样本(单细胞或RNAseq)参考数据集,它将基于与参考数据的相似性标记测试数据集中的新细胞。具体来说,对于每个测试单元:

  1. 计算其表达谱与每个参考样品的表达谱之间的Spearman相关性。
  2. 将每个标签的分数定义为相关性分布的fixed quantile(默认为0.8)。
  3. 对所有标签重复此操作,然后将得分最高的标签作为此细胞的注释。
  4. 选择性执行微调
安装
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
BiocManager::install("SingleR")
BiocManager::install("scRNAseq")

SingleR通过专用的数据检索功能提供了多个参考数据集(主要来自大量RNA-seq或微阵列数据)。例如,我们使用HumanPrimaryCellAtlasData()函数从人类原代细胞图集获得参考数据,该函数返回一个SummarizedExperiment对象,该对象包含带有样本级标签的对数表达值矩阵。

1.使用内置的参考

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(SingleR)
hpca.se <- HumanPrimaryCellAtlasData()
hpca.se
导入要检测的数据集

我们的测试数据集将取自La Manno et al. (2016)。 为了提高速度,我们只选取100个细胞来标记细胞类型。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(scRNAseq)
hESCs <- LaMannoBrainData('human-es')
hESCs <- hESCs[,1:100]
# SingleR() expects log-counts, but the function will also happily take raw
# counts for the test dataset. The reference, however, must have log-values.
library(scater)
hESCs <- logNormCounts(hESCs)
使用hpca.se作为参考对测试数据集hESCs通过SingleR()进行注释

默认的检测marker的方法是largest positive log-fold changes in the per-label medians for each gene. 输出的每一行都包含单个细胞的预测结果。在 fine-tuning(first.labels)之前, fine-tuning()之后labels和after pruning (pruned.labels)之后的细胞标签,以及相关的分数。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pred.hesc <- SingleR(test = hESCs, ref = hpca.se, labels = hpca.se$label.main)
pred.hesc
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## DataFrame with 100 rows and 5 columns
##                                          scores         first.labels
##                                        <matrix>          <character>
## 1772122_301_C02  0.347652:0.109547:0.123901:... Neuroepithelial_cell
## 1772122_180_E05  0.361187:0.134934:0.148672:... Neuroepithelial_cell
## 1772122_300_H02  0.446411:0.190084:0.222594:... Neuroepithelial_cell
## 1772122_180_B09  0.373512:0.143537:0.164743:... Neuroepithelial_cell
## 1772122_180_G04  0.357341:0.126511:0.141987:... Neuroepithelial_cell
## ...                                         ...                  ...
## 1772122_299_E07 0.371989:0.169379:0.1986877:... Neuroepithelial_cell
## 1772122_180_D02 0.353314:0.115864:0.1374981:... Neuroepithelial_cell
## 1772122_300_D09 0.348789:0.136732:0.1303042:... Neuroepithelial_cell
## 1772122_298_F09 0.332361:0.141439:0.1437860:... Neuroepithelial_cell
## 1772122_302_A11 0.324928:0.101609:0.0949826:... Neuroepithelial_cell
##                       tuning.scores               labels        pruned.labels
##                         <DataFrame>          <character>          <character>
## 1772122_301_C02 0.1824402:0.0991116 Neuroepithelial_cell Neuroepithelial_cell
## 1772122_180_E05 0.1375484:0.0647134              Neurons              Neurons
## 1772122_300_H02 0.2757982:0.1369690 Neuroepithelial_cell Neuroepithelial_cell
## 1772122_180_B09 0.0851623:0.0819878 Neuroepithelial_cell Neuroepithelial_cell
## 1772122_180_G04 0.1988415:0.1016622 Neuroepithelial_cell Neuroepithelial_cell
## ...                             ...                  ...                  ...
## 1772122_299_E07 0.1760025:0.0922504 Neuroepithelial_cell Neuroepithelial_cell
## 1772122_180_D02 0.1967609:0.1124805 Neuroepithelial_cell Neuroepithelial_cell
## 1772122_300_D09 0.0816424:0.0221368 Neuroepithelial_cell Neuroepithelial_cell
## 1772122_298_F09 0.1872499:0.0671893 Neuroepithelial_cell Neuroepithelial_cell
## 1772122_302_A11 0.1560800:0.1051322            Astrocyte            Astrocyte

统计细胞个数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
table(pred.hesc$labels)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## 
##            Astrocyte Neuroepithelial_cell              Neurons 
##                   14                   81                    5

2.使用单个细胞参考

在这里,我们将使用两个人类胰腺数据集。目的是使用一个预先标记的数据集注释另一个未标记的数据集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(scRNAseq)
sceM <- MuraroPancreasData()
#移除未标记的细胞
sceM <- sceM[,!is.na(sceM$label)]
sceM <- logNormCounts(sceM)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sceG <- GrunPancreasData()
sceG <- sceG[,colSums(counts(sceG)) > 0] # Remove libraries with no counts.
sceG <- logNormCounts(sceG) 
#选取100个测试
sceG <- sceG[,1:100]

SingleR(),与之前一样的用法,但是这次使用了marker检测模式,该模式考虑了跨细胞种类表达的差异。在这里,将使用Wilcoxon ranked sum test来识别marker。与默认检测算法相比,此方法更慢,但更适合单细胞数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pred.grun <- SingleR(test=sceG, ref=sceM, labels=sceM$label, de.method="wilcox")
table(pred.grun$labels)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## 
## acinar   beta  delta   duct 
##     53      4      2     41

3.对细胞分数可视化

SingleR提供了强大的可视化工具。 plotScoreHeatmap()显示所有参考标签上的分数,这使用户可以检查整个数据集中预测标签的置信度。每个细胞的实际分配标签显示在顶部。理想情况下,每个cell(即热图的一列)应具有一个明显大于其余得分的分数,表明已将其明确分配给标签。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
plotScoreHeatmap(pred.grun)

reference: https://www.nature.com/articles/s41590-018-0276-y https://bioconductor.org/packages/devel/bioc/vignettes/SingleR/inst/doc/SingleR.html

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
多模态大型语言模型(MLLMs)在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似,最近的视频理解模型也探索了类似的流程,在大规模视频-文本数据上对LLMs进行微调。然而,这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。
AIGC 先锋科技
2024/07/08
5660
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
论文解读 - 统一的多模态理解和生成模型综述(下)
大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如Common Crawl 1、RedPajama、WebText等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表3中列出的每个类别中的代表性数据集,重点关注2020年以后发布的数据集。
合合技术团队
2025/05/30
2460
论文解读 - 统一的多模态理解和生成模型综述(下)
多模态大语言模型研究进展!
多模态大型语言模型(MM-LLMs)在过去一年取得了显著进步,通过优化模态对齐和与人类意图对齐,增强了现成的单模态基础模型(LLMs)以支持各种MM任务。本文对MM-LLMs进行了全面综述,包括模型架构和训练流程的概述,以及122个最新进展的MM-LLM分类系统。
算法进阶
2024/07/22
3840
多模态大语言模型研究进展!
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
多模态学习近期在大型语言模型的推动下,已经在图像文本对话和文本到图像生成任务上取得了进展。这激发了向视频理解和生成任务的转向,允许用户在视频和语言模态间进行交互。因此,桥接前述模态的详细且高保真的视频标题对于推进该领域的发展至关重要。
AIGC 先锋科技
2024/07/08
5430
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
蚂蚁:多模态方向的技术探索
视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向,一个是视频-文本的语义检索,另外一个是视频-视频的同源检索。
NewBeeNLP
2024/06/04
4090
蚂蚁:多模态方向的技术探索
多模态AI的未来:从文本到视频的智能融合
随着人工智能技术的迅猛发展,多模态AI正逐渐成为研究和应用的热点。多模态AI通过融合文本、图像、音频和视频等多种数据模态,能够更全面地理解和生成信息,为各行各业带来新的机遇。本文将深入探讨多模态AI的未来发展方向,特别是从文本到视频的智能融合,并通过详细代码实例展示其技术实现。
江南清风起
2025/03/24
3220
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
6.8K0
【论文解读】多模态大模型综述
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型,致力于推进构建具有大规模视觉语言助手的(LLaVA)[83]研究,该助手可以适应各种指令,在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法,它通常通过连接视觉编码器与大规模语言模型(LLM)来实现。
AIGC 先锋科技
2024/08/14
1.6K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
每周AI论文速递(241230-250103)
OpenAI 的 GPT-4 突破突显了通过增强推理能力来改进大语言模型的潜力。然而,大多数关于推理的研究都集中在数学任务上,而像医学这样的领域则研究较少。尽管医学领域与数学不同,但由于医疗保健的高要求,它同样需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理更具挑战性。为了解决这个问题,我们提出了可验证的医学推理问题,并使用医学验证器来检查模型输出的正确性。这种可验证性通过两阶段方法促进了医学推理的发展:(1) 使用验证器指导搜索复杂的推理轨迹以微调大语言模型,(2) 应用基于验证器奖励的强化学习 (RL) 来进一步增强复杂推理。最后,我们介绍了 HuatuoGPT-o1,这是一种能够进行复杂推理的医学大语言模型,仅使用 40K 个可验证问题就超越了通用和医学专用基准模型。实验表明,复杂推理提高了医学问题解决能力,并且从强化学习中获得更大的提升。我们希望我们的方法能够激发医学和其他专业领域推理的进步。
叶子的技术碎碎念
2025/04/08
1040
每周AI论文速递(241230-250103)
一文速览:大模型语料构建与基础训练全流程实战指南
大模型的强大,并不是凭空而来的。简单来说,一个大模型的表现取决于三个关键因素,算力:通俗地讲就是计算机能“算多快”,决定了模型训练的速度和规模。算法:也就是模型本身的设计方法,就好像一辆汽车的发动机,决定了性能上限。数据:好比汽车的燃料,数据质量越高、越丰富,模型表现也就越好。这三者就像三足鼎立,共同决定了大模型的上限。
fanstuck
2025/07/16
3694
一文速览:大模型语料构建与基础训练全流程实战指南
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多数自然语言处理(NLP)任务中表现出了令人惊讶的Zero/Few-Shot推理性能,但它们天生对视觉“视而不见”,因为它们只能理解离散文本。
集智书童公众号
2023/09/04
13.7K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
他山之石 | 阿里多模态知识图谱探索与实践
随着知识图谱技术的发展,其在电商、医疗、金融等领域得到了越来越广泛的应用。在过去的几年间,我们团队一直致力于探索知识图谱在新零售问答和直播场景的应用,提出了阿里小蜜新零售多模态知识图谱AliMe MKG(AliMe指图谱建设时期团队的名称阿里小蜜,MKG是多模态知识图谱的缩写)。本次报告将介绍过去一年多我们在多模态知识图谱方面的探索与实践工作,主要分为以下三个方面:
NewBeeNLP
2022/11/11
1.3K0
他山之石 | 阿里多模态知识图谱探索与实践
多模态大模型技术原理与实战(4)
以 CNN 为图像编码器,以 RNN为文本解码器,编码器和解码器之间依靠图像的隐状态连接
顾翔
2024/09/10
1910
多模态大模型技术原理与实战(4)
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
近年来,大型语言模型(LLM)在各种语言任务中表现出优越的能力。它们吸引人的特性,如遵循指令、零样本泛化和少样本上下文学习,激励研究行人将它们与视觉模型结合,构建视觉语言模型(VLMs)以应对多模态任务。很多工作 已经投入到了这个领域,在视觉语言理解基准测试上取得了显著的性能提升。在这些工作中,视觉输入通过像CLIP [58]这样的视觉基础模型映射到LLMs的语义空间,通过包括文本图像对齐训练目标来将两种模态联系起来。
AIGC 先锋科技
2024/09/30
3940
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
自从Stable Diffusion和Midjourney爆火之后,人们见识到了人工智能技术在图片生成领域的强大实力。
新智元
2023/09/09
4630
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
但随着各大视频网站和短视频的兴起,用户在互联网上浏览视频的数量近年来显著增加,并且视频创作的质量、分辨率和内容多样性也越来越高!
新智元
2021/12/27
1.2K0
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
继Sora官宣之后,多模态大模型在视频生成方面的应用简直就像井喷一样涌现出来,LUMA、Gen-3 Alpha等视频生成模型展现了极佳质量的艺术风格和视频场景的细节雕刻能力,文生视频、图生视频的新前沿不断被扩展令大家惊喜不已,抱有期待。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
机器之心
2024/06/27
2350
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
作者 | ai4happiness 相关链接 | https://zhuanlan.zhihu.com/p/660567767
AIWalker
2023/11/07
9510
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
每周AI论文速递(241202-241206)
尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其对多样化操作目标(如效率、安全性和任务完成度)的适应性。为此,我们提出 GRAPE: 通过偏好对齐泛化机器人策略。具体来说,GRAPE 在轨迹层面对齐 VLA,并从成功与失败试验中隐式建模奖励,以提升对多样化任务的泛化能力。同时,GRAPE 将复杂任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点,利用定制时空约束自动引导偏好建模。这些约束灵活,可根据不同目标(如安全性、效率或任务成功)进行定制。我们在真实与模拟环境中广泛评估 GRAPE。实验显示,GRAPE 显著提升最先进 VLA 模型的性能,领域内与未见任务的成功率分别提高 51.79% 和 60.36%。此外,GRAPE 可与多种目标对齐,如安全性与效率,分别降低碰撞率 44.31% 和轨迹步长 11.15%。所有代码、模型及数据均可在 https://grape-vla.github.io/ 获取。
叶子的技术碎碎念
2025/04/08
1100
每周AI论文速递(241202-241206)
最新!斯坦福 多模态医疗模型:Med-Flamingo,支持Few-shot问答,模型开源!
 就医学而言,它涉及各个方面知识,需要整合各种信息。医学生成视觉语言模型(VLM)朝这个方向迈出了第一步,并有望带来更多的临床应用。然而,现有模型通常需要基于大量的下游数据集进行微调,这对于医学领域来说是一个相当大的限制。因为在许多医疗应用中数据稀缺,所以需要模型能够从Few-shot进行学习。
ShuYini
2023/09/14
2.4K0
最新!斯坦福 多模态医疗模型:Med-Flamingo,支持Few-shot问答,模型开源!
推荐阅读
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
5660
论文解读 - 统一的多模态理解和生成模型综述(下)
2460
多模态大语言模型研究进展!
3840
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
5430
蚂蚁:多模态方向的技术探索
4090
多模态AI的未来:从文本到视频的智能融合
3220
【论文解读】多模态大模型综述
6.8K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
1.6K0
每周AI论文速递(241230-250103)
1040
一文速览:大模型语料构建与基础训练全流程实战指南
3694
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
13.7K0
他山之石 | 阿里多模态知识图谱探索与实践
1.3K0
多模态大模型技术原理与实战(4)
1910
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
3940
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
4630
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
1.2K0
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
2350
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
9510
每周AI论文速递(241202-241206)
1100
最新!斯坦福 多模态医疗模型:Med-Flamingo,支持Few-shot问答,模型开源!
2.4K0
相关推荐
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档