今天和大家分享的是2020年7月发表在Nat Commun(IF:12.121)上的一篇文章,作者开发了一个使用HxIF成像技术,通过空间域划分、标志物相关性计算建立的平台,进而构建实体瘤预后模型并推测其特异性的生物信息网络。
标题:Spatial domain analysis predicts risk of colorectal cancer recurrence and infers associated tumor microenvironment networks
一、研究背景
大肠癌(CRC)是全球第四大常见的癌症,也是癌症相关死亡的第二大病因。目前CRC使用TNM分期,但其中每个阶段的患者预后都有很大差异,比如完全切除肿瘤、没有残留肿瘤负荷和转移迹象的II期患者中,CRC复发率高达30%,而一些分期更高的CRC患者却显示出稳定性甚至可以自行消退。
与其他多因素疾病相似,肿瘤微环境(TME)内不同细胞类型的空间组织及活动状态产生复杂的生物学网络,CRC于此背景下通过上皮细胞克隆选择来发展恶性表型。对TME的更深入理解可能有助于识别与疾病进展及新型治疗策略相关的生物标志物,从而改善CRC预后。本文中作者开发了一个适用于所有实体瘤的空间计算和系统病理学平台(SpAn),来分析TME信号网络中的空间关系,以预测CRC复发风险并识别CRC生物学信息网络。
二、分析流程
三、结果解读
本研究所使用的CRC患者队列:来自Clearview癌症研究所收集的747例肿瘤样本,构建FFPE组织微阵列(TMA)后,排除质量控制未达到标准的样本以及接受化疗的患者,最终纳入432例chemo-naive(在5年以上的随访中未采取辅助治疗)的I-III期CRC患者,以研究未受干扰的原发肿瘤生物学。
GE Healthcare推出的Cell DIVE多重成像技术(MultiOmyx):对TMA进行单细胞分辨率的HxIF成像。Cell DIVE通过对2–3个生物标志物加上DAPI核复染的顺序多重成像,进行label–image–chemical-inactivation的反复循环,可以完成对60多个生物标志物的超复合成像。
本研究使用的55种生物标志物包括:信号通路的代表性标志物,细胞外转运和代谢相关,肿瘤抑制相关,致癌相关,细胞间粘附、细胞和基质结构相关,翻译后修饰相关,细胞类型及其状态相关的标志物。
图1a,b展示了HxIF成像结果,标记55种标志物及DAPI核复染。
图1:SpAn平台工作流程
图1c-f及图2a展示了SpAn基于空间域的生物标志物分析计算。
首先将TMA明确分为上皮区域、基质区域和上皮-基质区域,对TME进行虚拟的三级空间解剖,以研究各区域细胞之间的相互作用:
接着分三个域计算样本中55个生物标志物的平均强度值以及55个标志物之间的1485(55*54/2)个Kendall秩相关值,合并为域特异性的生物标志物特征向量f(M = 1540),作为SpAn的数据输入(图2a)。选择非参数的Kendall秩相关作为相关度量,可以在存在测量噪声和小样本量的情况下稳健地捕获生物标志物的关联。
图2:SpAn特定于域的特征选择
SpAn通过LASSO-Cox回归来确定构成CRC 5年复发风险预后模型的最佳空间域特征子集(图2b),然后根据所选特征学习预测复发风险的模型,并且进行了500次bootstrap重抽样以测试所选特征的稳定性,仅保留在90%的运行中保持其系数的特征,图3中黑色柱形即选入的特征。
作者还使用L2范数重新学习包含以上特征的预后模型,以最终确定回归模型中特征的系数。最后SpAn将这些域特定的特征组合成单一递归引导的空间域预测模型:
图3:选定特征的稳定性分析
接下来作者对SpAn的预测功能进行了验证,使用bootstrap重抽样和分层抽样,获得了500次使用独立训练和测试集运行的结果。
图4a-c:SpAn预测功能验证
SpAn平台使用虚拟空间解剖然后结合三个特定域的方法,基本原理是TME及其空间组织、上皮和基质域在肿瘤生长和复发中所起的不同作用。作者采用模型比较的方法来验证这一原理预测复发风险的有效性。构建了SpAn null模型、临床模型、生物标志物表达模型、临床+生物标志物表达模型及SpAn+临床模型与SpAn模型进行比较。
图4e显示了每个模型ROC曲线的AUC小提琴图,可以看到SpAn具有较好的预测性能,对其他模型有很好的改进作用。
为了量化此种改进的统计意义,采用非参数Kruskal-Wallis秩和检验进行组间比较,并且进一步采用Dunn法进行多重比较分析。结果见补充表4,可以看到除了红框标记的两组外,在99%置信区间内均具有显著的统计学意义。
以上结果证明了TME相关空间域建模的可行性,除此之外,SpAn及null模型均优于单独的临床特征和生物标志物表达,证明生物标志物表达及其相关性的联合利用也具有好的改进作用,而目前发表的最新进方法,包括Immunoscore,均依靠生物标志物表达。
结果还显示将临床特征纳入SpAn模型在性能改善上无统计学意义(p值0.082)。
图4d:不同模型的AUC小提琴图
补充表4:模型性能差异的两两比较
图4e的箱线图显示SpAn在I至III期CRC患者中均具有较优的预测性能,ROC曲线的平均AUC分别为82.1% ,89.4%和88.6%(标准误0.4%,0.2%和0.2%),证明了SpAn具有较好的稳定性,其中I期表现的相对不足可能是由于研究中仅包含10例CRC复发的I期患者。
目前的临床指南中不建议对II期进行常规辅助化疗,作者认为SpAn的应用可以识别高危和低危的II期患者亚群,进而制定个性化的治疗方案以改善患者预后,还可以通过密切随访方案对高危II期患者进行术后监测。
而在III期患者中SpAn可以识别其中具有良好预后的亚群,进行术后监测和辅助化疗方案的调整。
图4e:CRC不同分期的AUC箱线图
多数CRC复发发生在5年内,其中90%发生在4年内,因此作者进一步研究5年间SpAn预测性能随时间的变化,图4f绘制了以年为单位的AUC值变化曲线,黄色区域为500次bootstrap计算出的95%置信区间,可以看到随着时间点的后移,AUC仅小幅度地缓慢下降,表现出较好的预测稳定性。
这一结果可能表明SpAn捕获了原发肿瘤复发的关键性生物学基础。
图4f:时间依赖的AUC值变化曲线
由于SpAn显示出的高预测性能,作者希望系统地理解空间域模型背后的生物学基础。
作者使用选定特征的N个生物标志物的Kendall秩相关构建N×N相关矩阵,对每位患者进行偏相关分析,将得到的相关系数按照CRC无证据和CRC复发患者队列分为两组,计算两组之间的Jensen-Shannon散度,由此得到域特异性的信息矩阵(图5a-c)。
然后建立以生物标志物为节点的关联图,以边缘权重来量化CRC复发患者和无复发患者之间生物标志物相关性的差异变化和信息距离,权重越大,距离越大,两组患者的两个指标之间的差异变化越显著,图5d-e为以99百分位作为阈值得到的关联图,作者将此定义为CRC复发最重要的空间域网络。
图5:SpAn派生的空间域网络
最后作者对每个空间域网络进行了STRING蛋白互作网络和KEGG生物途径的富集。图6展示了最终得到的富集网络,对同时与多个空间域相关的通路进行了标识。
图6:STRING和KEGG富集网络
小结
本研究展示了SpAn的新颖概念,对TMA使用Cell DIVE的HxIF成像技术,通过空间域划分、标志物相关性计算,实现统计模型的建立,从而提供实体瘤的高灵敏度和特异度预后模型,并推测其特异性的生物信息网络,具有广阔的应用前景。通过bootstrap重抽样,作者在模型的ROC曲线、生存曲线,与空模型、临床模型等其他模型的比较,CRC不同分期及时间稳定性几个维度对SpAn性能进行了充分验证。作者表示将在后续研究中继续优化SpAn,并将其应用于CRC以外的其他实体瘤。