高通量筛选(HTS)是现代药物发现中识别新活性化合物的核心方法。通过大规模筛选成千上万种化合物,HTS有助于发现潜在的药物分子。然而,HTS也面临诸多挑战,包括高误报率、数据不平衡、以及筛选效率低等问题。这些挑战使得HTS过程中产生了大量无用或低效的化合物数据,增加了后续实验的成本和时间。为了应对这些问题,科学家们开始探索如何通过数据分析技术优化HTS流程,减少不必要的实验,并提高模型预测的准确性和效率。
2024年11月4日,Joshua Hesse等人提出了一种基于机器学习的数据估值方法,旨在优化高通量筛选管线。研究的核心是通过机器学习算法,基于数据点的重要性为其分配价值评分,从而提高HTS的有效性和预测能力。这不仅减少了不必要的后续验证实验,还提高了筛选结果的准确性和效率。
相关研究以Machine Learning-Driven Data Valuation for Optimizing High- Throughput Screening Pipelines为题,发表在Journal of Chemical Information and Modeling上。
高通量筛选中的挑战与机器学习应用
高通量筛选的局限性
HTS的优势在于其能够大规模地筛选数十万甚至上百万的化合物库,识别出能够与靶标结合的活性化合物。然而,HTS流程的局限性也是显而易见的。由于HTS操作中包含大量初筛步骤,筛选出的化合物中,只有一小部分是真阳性(真正具有生物活性的化合物),而相当大比例的化合物可能是假阳性。假阳性结果会导致后续实验中的时间、资金和人力浪费。
误报(假阳性)在HTS中是常见的问题,原因可能包括:
针对这些挑战,科学家们开始将机器学习引入HTS流程,以期通过更精准的预测和数据分析来减少误报,提高筛选效率。
图1. ML驱动数据训练优化HTS过程示意图
机器学习在HTS流程中的应用
机器学习技术近年来逐渐成为优化HTS的关键工具之一。通过分析海量的筛选数据,ML算法可以揭示出哪些化合物更有可能是真阳性,并预测哪些化合物可能是假阳性。通过这种方式,ML算法帮助科学家将精力集中在最有潜力的化合物上,减少了不必要的实验工作量。
主动学习是ML技术在HTS中的一项关键应用。主动学习通过迭代选择那些最有可能提高模型性能的样本,避免对整个化合物库进行全筛选。这种方法能够显著提高化合物筛选的效率,因为它将资源集中在最有价值的数据点上。主动学习模型通过动态更新,从而在每次迭代中不断优化其筛选策略。结合数据估值的主动学习方法尤其有效,它能够通过数据价值评分,识别出对模型训练有贡献的数据点,从而大幅提升HTS流程的效率。
图2. 主动学习工作流程
数据估值的具体应用
数据估值是机器学习应用中的一种创新方法,旨在通过为每个数据点赋予一个”价值分数”,来衡量其在提升模型预测性能方面的贡献。通过这种方式,数据估值可以帮助科学家识别哪些样本对模型训练最有帮助,哪些样本可能会误导模型。这种方法特别适用于HTS等大规模数据筛选场景,能够有效减少冗余数据的干扰,提升整体筛选效率。
图3. 使用数据驱动的主动学习模型表现
主动学习中的数据估值
主动学习是机器学习中的一种策略,通常应用于需要筛选少量数据以提高模型性能的场景。在HTS中,传统的主动学习方法往往聚焦于筛选那些可能具有生物活性的化合物,而忽略了无活性样本的重要性。然而,本文提出的基于数据估值的主动学习方法则更具创新性。它不仅筛选出潜在活性化合物,还能保留关键的无活性样本,确保模型在预测时能够学到全面的特征,从而提高了模型的鲁棒性和精度。
通过多次迭代筛选,基于数据估值的主动学习方法能够逐步优化HTS的筛选流程。在25个生物靶标的HTS数据集上,实验结果表明,该方法在每一轮筛选中都显著提高了预测性能,超过了传统的贪婪策略。研究表明,主动学习结合数据估值能够更加高效地识别活性化合物,减少实验成本。
假阳性与真阳性的检测
假阳性是HTS中常见的难题,它们往往会误导后续实验工作。因此,如何有效识别和剔除假阳性成为了优化HTS流程的关键。传统的HTS筛选方法在区分假阳性与真阳性时,常常依赖于化学家后续的实验验证,这增加了大量的时间和成本。
通过机器学习的主动学习和数据估值方法,研究人员能够在HTS初筛阶段就开始识别假阳性样本。具体而言,研究者利用数据估值算法(如TracIn和MVS-A)计算样本的重要性评分,从而判断哪些样本有可能是假阳性。通过这些评分,实验团队能够在不进行额外实验的情况下,有效区分假阳性和真阳性。与传统的片段过滤技术相比,基于机器学习的数据估值方法在假阳性检测上表现得更加准确和高效。
研究结果显示,采用数据估值方法的HTS流程不仅能够减少误报,还能提高真阳性样本的筛选精度。这种方法通过综合分析样本的物理化学性质和机器学习模型的预测结果,显著降低了HTS流程中的误差率,并提高了后续实验的成功率。
处理数据集不平衡问题中的数据估值
HTS数据集中一个常见的问题是数据不平衡,即活性化合物往往只占数据集的一小部分,而大多数样本是无活性的。这种数据不平衡会导致机器学习模型倾向于学习无活性样本的特征,而忽略了活性样本的重要性,进而降低模型对活性化合物的预测准确性。
为了应对这一问题,作者提出了一种基于数据估值的欠采样方法。欠采样是一种在处理数据不平衡问题时常用的技术,传统的欠采样方法通常会随机移除一部分无活性样本。然而,基于数据估值的欠采样方法则不同,它通过计算无活性样本的价值分数,保留那些对模型训练有帮助的无活性样本,而剔除对模型学习无益的样本。通过这种方式,模型能够同时学习到活性和无活性样本的关键特征,从而提高整体预测性能。
实验结果表明,基于数据估值的欠采样方法不仅有效缓解了数据不平衡问题,还提升了HTS模型的预测准确度。研究表明,该方法在减少数据集规模的同时,能够保持甚至提高模型的性能,使得模型在面对大规模数据集时依然具有良好的表现。
图4. 误报和真阳性检测工作流程
未来展望与应用前景
机器学习(ML)和深度学习(DL)的崛起为HTS的改进提供了全新的视角,能够通过大规模数据的分析与学习,揭示数据背后的模式,帮助优化筛选流程。在此背景下,数据估值成为了药物发现中的一个新兴领域。通过给每个数据点赋予一个”价值”评分,数据估值可以有效识别有助于模型学习的样本,并过滤掉可能引起误导或误报的低价值样本。机器学习驱动的数据估值方法为HTS流程的优化带来了全新的机遇。
Hesse, J., Boldini, D., & Sieber, S. A. (2024). Machine learning-driven data valuation for optimizing high-throughput screening pipelines. Journal of Chemical Information and Modeling.