最近有小伙伴反馈在做题的时候出现了一个百思不得其解的bug,是不同数据库的hallmark基因集的冲突,蛮适合我们的人工智能大模型答疑的专辑,所以我也视频演练了一下;
第一次提问:帮我介绍一下 msigdbr 包,以及它背后的msigdb数据库资源,分门别类
msigdbr
是一个 R 语言包,它提供了对 MSigDB(Molecular Signatures Database)的直接访问。MSigDB 是一个广泛使用的基因集合注释数据库,它包含了大量关于基因集的注释信息,这些信息可以用于各种基因表达分析,尤其是在癌症生物学、免疫学和其他基因组学研究领域。
msigdbr
包的功能:msigdbr
包的示例代码:(大模型在瞎写。。。)# 安装并加载 msigdbr 包
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("msigdbr")
library(msigdbr)
# 检索 MSigDB
gsets <- gsFromMsigDB("C2")
# 查看检索到的基因集的描述
gsDescr(gsets)
# 获取特定基因集的成员基因
genes <- gsMembers(gsets[[1]])
MSigDB 和 msigdbr
包是生物信息学和系统生物学研究中的重要资源,它们为研究者提供了一种快速访问和分析大规模基因集数据的方法。通过这些工具,研究者可以更好地理解基因如何在复杂的生物学过程和疾病中相互作用。
上面的函数都是不存在的。。。。
所以是需要自己看r包的帮助文档,真正的函数是:
msigdbr Retrieve the gene sets data frame
msigdbr_collections List the collections available in the msigdbr package
msigdbr_show_species List the species available in the msigdbr package
msigdbr_species List the species available in the msigdbr package
如果大家使用的是下面的代码,会看到很多通路的基因数量其实是大于200的:
library(dplyr)
geneset <- msigdbr::msigdbr(species = "Homo sapiens", #物种
category = "H") %>% #所选集合
dplyr::select(gs_name,gene_symbol)
geneset=as.data.frame(geneset)
geneset=unique(geneset)
as.data.frame(sort(table(geneset$gs_name)))
> as.data.frame(sort(table(geneset$gs_name)))
Var1 Freq
1 HALLMARK_NOTCH_SIGNALING 34
2 HALLMARK_ANGIOGENESIS 36
3 HALLMARK_HEDGEHOG_SIGNALING 36
4 HALLMARK_PANCREAS_BETA_CELLS 44
5 HALLMARK_APICAL_SURFACE 46
6 HALLMARK_WNT_BETA_CATENIN_SIGNALING 50
7 HALLMARK_REACTIVE_OXYGEN_SPECIES_PATHWAY 58
8 HALLMARK_TGF_BETA_SIGNALING 59
9 HALLMARK_MYC_TARGETS_V2 60
10 HALLMARK_CHOLESTEROL_HOMEOSTASIS 77
11 HALLMARK_PROTEIN_SECRETION 98
12 HALLMARK_ANDROGEN_RESPONSE 102
13 HALLMARK_IL6_JAK_STAT3_SIGNALING 103
14 HALLMARK_PEROXISOME 110
15 HALLMARK_BILE_ACID_METABOLISM 114
16 HALLMARK_UNFOLDED_PROTEIN_RESPONSE 115
17 HALLMARK_PI3K_AKT_MTOR_SIGNALING 118
18 HALLMARK_INTERFERON_ALPHA_RESPONSE 140
19 HALLMARK_SPERMATOGENESIS 144
20 HALLMARK_UV_RESPONSE_DN 152
21 HALLMARK_COAGULATION 162
22 HALLMARK_FATTY_ACID_METABOLISM 165
23 HALLMARK_DNA_REPAIR 170
24 HALLMARK_APOPTOSIS 183
25 HALLMARK_UV_RESPONSE_UP 191
26 HALLMARK_EPITHELIAL_MESENCHYMAL_TRANSITION 204
27 HALLMARK_G2M_CHECKPOINT 204
28 HALLMARK_ADIPOGENESIS 210
29 HALLMARK_MTORC1_SIGNALING 211
30 HALLMARK_MYOGENESIS 212
31 HALLMARK_HEME_METABOLISM 214
32 HALLMARK_GLYCOLYSIS 215
33 HALLMARK_HYPOXIA 215
34 HALLMARK_MITOTIC_SPINDLE 215
35 HALLMARK_P53_PATHWAY 215
36 HALLMARK_ESTROGEN_RESPONSE_EARLY 216
37 HALLMARK_IL2_STAT5_SIGNALING 216
38 HALLMARK_E2F_TARGETS 218
39 HALLMARK_ESTROGEN_RESPONSE_LATE 218
40 HALLMARK_KRAS_SIGNALING_DN 220
41 HALLMARK_KRAS_SIGNALING_UP 220
42 HALLMARK_OXIDATIVE_PHOSPHORYLATION 220
43 HALLMARK_INFLAMMATORY_RESPONSE 222
44 HALLMARK_XENOBIOTIC_METABOLISM 224
45 HALLMARK_TNFA_SIGNALING_VIA_NFKB 228
46 HALLMARK_APICAL_JUNCTION 231
47 HALLMARK_MYC_TARGETS_V1 236
48 HALLMARK_COMPLEMENT 237
49 HALLMARK_INTERFERON_GAMMA_RESPONSE 286
50 HALLMARK_ALLOGRAFT_REJECTION 335
但是如果去官网看:https://www.gsea-msigdb.org/gsea/msigdb/cards/HALLMARK_MYC_TARGETS_V1
其实每个通路都是200个基因而已,如下所示读取大家下载的官网文件,肉眼看看 :
k = read.table('h.all.v2023.2.Hs.symbols.gmt',
sep = '\t',fill = T) #下载的文件名
k = read.table('h.all.v7.2.symbols.gmt',
sep = '\t',fill = T) #下载的文件名
MSigDB(Molecular Signatures Database)是一个资源丰富的基因集数据库,它包含了多种类型的基因集,其中"Hallmark"基因集是一类特殊的基因集,它们代表了生物学上核心的、定义明确的或广泛研究的生物学过程。"Hallmark"基因集由基因集的创建者精心挑选,以确保它们覆盖了关键的生物学概念。
关于"Hallmark"基因集的基因数量上限是200的原因,这可能是由MSigDB的设计者基于以下几个考虑设定的:
然而,实际上并非所有"Hallmark"基因集都严格限制在200个基因以内。有些基因集可能会包含更多的基因,特别是当它们需要覆盖更广泛的生物学过程时。MSigDB的设计者会根据基因集的生物学意义和实际应用需求来确定合适的基因数量。
如果你需要更具体的信息或有关于MSigDB的特定问题,建议直接查阅MSigDB的官方文档或联系数据库的维护者以获取最准确的答案。
前面的那个msigdbr
里面的很多通路的基因的数量是超出了200,但是官网明明是上限就是200,冲突其实是因为两个基因列表里面有一个是有重复值。。。
g1=as.character(k[28,3:202]);g1
g2=as.character(geneset[geneset$gs_name=='HALLMARK_MYC_TARGETS_V1',2])
length(intersect(g1,g2))
setdiff(g1,g2)
setdiff(g2,g1)
很简单的去冗余,就没有问题了。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有