文章《BRCA1 Promoter Methylation Status in 1031 Primary Breast Cancers Predicts Favorable Outcomes Following Chemotherapy》,链接是:https://academic.oup.com/jncics/article/4/2/pkz100/5673392 我看到文章里面提到了乳腺癌患者的1031 primary tumors的测序数据,下意识的以为是一个TCGA数据库挖掘。
本来呢,还在奇怪,TCGA数据库里面的乳腺癌患者的放化疗信息应该是没有那么全吧。等我看完摘要才明白,原来是研究者自己招募的病人队列,来自于Iceland between 1976 and 2007. 而且Chemotherapy信息很丰富,包括 cyclophosphamide, methotrexate, and fluorouracil 。
这个研究,科学家们想解决的问题是;whether BRCA1 promoter methylation translates to clinical benefits from the use of DNAdamaging agents in patients.
涉及到的甲基化位点,是 Four CpG sites were analyzed at genetic positions:
这里定义 BRCA1 methylated 样品的标准是:Tumor samples were considered to be BRCA1 methylated at median greater than 10% methylation across the four CpGs (median values).
文章的图表超级简陋,我感觉的R语言初学者使用base plot绘制而成,如下所示:

这个是作者最重要的研究发现,不同分组的样品的 BRCA1–promoter CpG methylation 百分比不一样。
其实不管是自己医院收集的病人队列,还是TCGA的,临床信息都是可以做到很完善。

这里,研究者们列出来了常见的临床属性分组后的 BRCA1–promoter CpG methylation 情况。
主要就是生存分析啦,这里可以看到 BRCA1–promoter CpG 有甲基化的不管是否经受了化疗,都要生存情况好一点。

不过,BRCA1–promoter CpG 有甲基化的病人数量有点太少了。
如果要得出文章的研究结果,其实大可不必费劲招募一千多个乳腺癌患者,完完全全是可以进行tcga数据库挖掘的。这里就布置成为一个学徒作业哈:
需要去TCGA数据库下载乳腺癌患者队列的临床信息,以及甲基化信号值矩阵,通常是贝塔值,通常是按照2-8原则把BRCA1–promoter CpG 甲基化信号值进行分类。如果你不理解甲基化数据呢,可以读一下我在生信技能树的甲基化系列教程,目录如下:
然后就可以看我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》
需要做同样的生存分析,我在生信技能树多次分享过生存分析的细节;
生存分析是目前肿瘤等疾病研究领域的点睛之笔!