首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

效率翻倍!麻省理工新研究:不用部署AI模型就能评估其可靠性

在当前的人工智能领域,大型基础模型如ChatGPT和DALL-E,通过预训练获得广泛数据后,被广泛应用于各种任务,如图像生成或客户问题回答。然而,这些模型有时也会出现误导性的错误,特别是在自动驾驶等关键场景下,错误可能导致严重后果。

麻省理工学院(MIT)与MIT-IBM Watson AI Lab的研究人员开发了一种技术,用于在部署基础模型前评估其可靠性。他们通过比较一系列略有差异的基础模型,使用算法检测模型在相同测试数据上的一致性。如果表现一致,模型便被认为是可靠的。

01

技术优势

与现有技术相比,此方法更有效地评估了模型在多种下游任务中的可靠性。它允许用户在无需实际数据集测试的情况下,预判模型的适用性,特别是在难以获取数据集(如医疗保健)的场景中非常有用。

此外,这种技术还能根据可靠性评分为模型排名,帮助选择最合适的模型。

02

研究方法

在基础模型的传统训练中,这些模型通常被用来执行特定任务,并在未知下游任务的情况下进行预训练。为了评估这些模型的可靠性,研究者采用了一个集成方法,通过训练多个略有不同但相同属性的模型,并通过共识方法来评估它们。这种方法称为“邻域一致性”,研究人员通过测试一组稳定的参考点来检测每个模型在数据点附近的表现。

这一技术尽管在多种分类任务上表现优秀,但它的主要限制是需要训练多个基础模型,这在计算上成本很高。未来,研究人员计划通过对单个模型进行微小的扰动来寻找更高效的评估方法。

斯坦福大学的Marco Pavone教授指出,随着越来越多使用基础模型的嵌入来支持各种任务,从微调到检索增强生成,对嵌入层面的不确定性进行量化变得极其重要。这项研究通过提出的邻域一致性得分,有效地捕捉了输入之间的关系,是朝着高质量嵌入模型不确定性量化迈出的有希望的一步。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1VpH0WbcJKp7JsE5O0G4Wng0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券