大家好,我是邓飞。之前编写的GWAS Cookbook很受欢迎(快来领取 | 飞哥的GWAS分析教程V6版),但是也有一些知识点很容易让人疑惑,这里挑选出来介绍一下。
GWAS分析是入门生物信息和数据分析的绝佳交叉学科,学习GWAS你需要学习编程语言(R语言),以及数据分析方法(T检验、GLM回归分析、MLM模型),项目很多,可以随时上手,学习这一类的东西最怕空谈玄理,而是要直接上手,这也是我推荐的方法:GWAS分析先做后学
二分类性状的logistics可以使用plink软件进行分析。这里介绍一下数据的整理和命令的应用。
plink的语境叫“case and control”,其中0和-9都表示缺失。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。
「--assoc」,不允许有协变量,应用很少
「--logistic」,允许有协变量,如果考虑协变量,应用范围广泛
一、文件准备
基因型文件:通常是以 PLINK 格式提供的文件,包括 .ped 和 .map 文件,或 .bed、.bim、.fam 三个格式文件。
表型数据:需要包含每个样本的表型信息,通常为一个二分类变量(例如病例与对照,1 和 2),FID,IID,y,没有行头,二分类,1和2两种。1是case(有表型),2是control。
协变量:一般是性别、年龄等协变量,也包括PCA分析得到的结果
比如:下面进行PCA分析,得到PC1,PC2,PC3的三个协变量
plink --file ../geno/c --pca 3
二、数据质控
plink --bfile your_data --mind 0.1 --maf 0.01 --geno 0.1 --make-bed --out filtered_data
三、运行模型
plink --bfile filtered_data --logistic --pheno phenotype_file.txt --out logistic_results
四、结果查看
五、注意事项:
1,如果没有性别信息,在代码中加上:
--allow-no-sex
2,如果有协变量,不想输出结果
--hide-covar
完整代码:
plink --file ../geno/d
--logistic
--pheno ../pheno/clean_phe.txt
--out result_logistic
--allow-no-sex
--covar ../covar/plink.eigenvec --hide-covar
3,OR值大于1是什么意思?
OR(Odds Ratio,优势比)是用于衡量两组之间某种特征或变量的关联强度的统计指标。在这种情况下,如果你计算得到的 OR 值大于 1,通常可以这样解读:
OR > 1 表示在病例组中,某个特征(如某种基因变异、表型表现等)的出现概率高于对照组。这意味着该特征可能与病例状态(表型存在)相关联。
具体来说,OR 值大于 1 意味着该特征的存在增加了从对照组转变为病例组的可能性,表明该特征可能是风险因素或者与某个表型的发生存在某种积极的关联。
简单来说,OR > 1 表明这个特征在病例中更常见,有可能对发病具有促进作用。但需要注意的是,OR 不能直接解释为因果关系,最终的结论还需要结合其他统计分析和生物医药背景知识。