首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >在多环境部分可观测场景中学习鲁棒控制器

在多环境部分可观测场景中学习鲁棒控制器

原创
作者头像
用户11764306
发布2026-01-15 08:19:41
发布2026-01-15 08:19:41
390
举报

在智能系统中,应用范围涵盖自主机器人到预测性维护问题。要控制这些系统,需要模型来捕捉其核心要素。当为这些模型设计控制器时,我们几乎总是面临同一个挑战:不确定性。我们很少能看到全貌。传感器存在噪声,系统模型并不完美;世界的运行方式永远不会完全如预期。

想象一个机器人要绕过障碍物到达一个“目标”位置。我们将这个场景抽象为一个类似网格的环境。一块岩石可能挡住了去路,但机器人并不确切知道岩石在哪里。如果知道,问题就相当容易:规划一条绕过它的路线。但在障碍物位置不确定的情况下,机器人必须学会无论岩石最终在哪里,都能安全高效地运行。

这个简单的故事揭示了一个更广泛的挑战:设计能够同时应对部分可观测性和模型不确定性的控制器。在这篇博文中,我将引导你了解我们在IJCAI 2025的论文《用于隐式模型POMDP的鲁棒有限记忆策略梯度》,其中我们探索了即使环境可能未被精确知晓时,也能可靠执行的控制器设计。

当你无法看到一切时

当一个智能体无法完全观测状态时,我们用部分可观测马尔可夫决策过程(POMDP)来描述其序贯决策问题。POMDP模拟了智能体必须基于其策略行动,但对系统底层状态缺乏完整了解的情况。相反,智能体会接收到提供关于底层状态有限信息的观察。为了处理这种模糊性并做出更好的决策,智能体需要在其策略中拥有某种形式的内存来记住之前看到的情况。我们通常使用有限状态控制器(FSC)来表示这种内存。与神经网络相比,这是实用且高效的策略表示方法,它们编码了内部内存状态,智能体在行动和观察过程中会更新这些状态。

从部分可观测到隐式模型

许多情况很少能恰好符合单一的系统模型。POMDP捕捉了观察结果和行动结果中的不确定性,但没有捕捉模型本身的不确定性。尽管通用,POMDP无法描述一组部分可观测环境。在现实中,可能存在许多合理的变化,因为总存在未知因素——不同的障碍物位置、略有不同的动力学或变化的传感器噪声。为单一POMDP设计的控制器无法推广到模型的扰动。在我们的示例中,岩石的位置未知,但我们仍然希望一个能在所有可能位置都有效的控制器。这是一个更现实、但也更具挑战性的场景。

为了捕捉这种模型不确定性,我们引入了隐式模型POMDP(HM-POMDP)。HM-POMDP不是描述单个环境,而是表示一组可能具有相同结构但动力学或奖励不同的POMDP。一个重要的事实是,为一个模型设计的控制器也适用于该集合中的其他模型。智能体最终将在其中运行的“真实”环境被“隐藏”在这个集合中。这意味着智能体必须学习一个能在所有可能环境中都表现良好的控制器。挑战在于,智能体不仅要推理它无法看到的东西,还要推理它正在哪个环境中运行。

HM-POMDP的控制器必须是鲁棒的:它应该在所有可能环境中都表现良好。我们通过控制器的鲁棒性能来衡量其鲁棒性:在所有模型上的最差性能,这为智能体在真实模型中的性能提供了一个保证的下界。如果一个控制器即使在最坏情况下也表现良好,我们就可以确信它在部署时对该集合中的任何模型都将表现合格。

迈向学习鲁棒控制器

那么,我们如何设计这样的控制器?

我们开发了鲁棒有限记忆策略梯度rfPG算法,这是一种迭代方法,交替执行以下两个关键步骤:

  1. 鲁棒策略评估:寻找最坏情况。确定当前控制器性能最差的环境。
  2. 策略优化:针对最坏情况改进控制器。利用当前最坏情况环境中的梯度调整控制器的参数,以提高鲁棒性能。

随着时间的推移,控制器学会鲁棒的行为:在遇到的各种环境中应该记住什么以及如何行动。这种迭代方法的根源在于“次梯度”的数学框架。我们应用这些也用于强化学习的基于梯度的更新来改进控制器的鲁棒性能。虽然细节是技术性的,但直觉很简单:迭代地针对最坏情况模型优化控制器,可以提高其在所有环境中的鲁棒性能。

在内部,rfPG使用了在工具PAYNT中实现的正式验证技术,利用结构相似性来表示大量模型集合并跨它们评估控制器。得益于这些发展,我们的方法能够扩展到包含许多环境的HM-POMDP。实际上,这意味着我们可以推理超过十万个模型。

有何影响?

我们在模拟具有不确定性的环境的HM-POMDP上测试了rfPG。例如,障碍物或传感器误差在不同模型间变化的导航问题。在这些测试中,rfPG产生的策略不仅对这些变化更加鲁棒,而且比几种POMDP基线方法更好地泛化到完全未见过的环境。实际上,这意味着我们可以使控制器对模型的微小变化具有鲁棒性。回想我们的持续示例,一个机器人在网格世界中导航,岩石位置未知。令人兴奋的是,rfPG仅用两个内存节点就近乎最优地解决了这个问题!您可以在下方看到控制器图示。

通过将基于模型的推理与基于学习的方法相结合,我们为那些考虑不确定性而非忽视它的系统开发算法。虽然结果很有希望,但它们来自离散空间的模拟领域;现实世界的部署需要处理各种问题的连续特性。不过,这对于高层决策和设计上可信的系统仍然具有实际意义。未来,我们将扩大规模——例如,通过使用神经网络——并致力于处理更广泛的模型变化类别,例如对未知因素的分布。

想了解更多?

感谢您的阅读!我希望您觉得有趣并了解了我们的工作。您可以在 marisgg.github.io 上找到关于我工作的更多信息,并在 ai-fm.org 上找到关于我们研究小组的信息。

这篇博文基于以下IJCAI 2025论文:

Maris F. L. Galesloot, Roman Andriushchenko, Milan Češka, Sebastian Junges, and Nils Jansen: "Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs". In IJCAI 2025, pages 8518–8526.

有关我们从工具PAYNT使用的技术以及更普遍地关于使用这些技术计算FSC的更多信息,请参见以下论文:

Roman Andriushchenko, Milan Češka, Filip Macák, Sebastian Junges, Joost-Pieter Katoen: "An Oracle-Guided Approach to Constrained Policy Synthesis Under Uncertainty". In JAIR, 2025.

如果您想了解处理模型不确定性的另一种方式,也可以查看我们的其他论文。例如,在我们的ECAI 2025论文中,我们使用循环神经网络(RNN)设计鲁棒控制器:

Maris F. L. Galesloot, Marnix Suilen, Thiago D. Simão, Steven Carr, Matthijs T. J. Spaan, Ufuk Topcu, and Nils Jansen: "Pessimistic Iterative Planning with RNNs for Robust POMDPs". In ECAI, 2025.

在我们的NeurIPS 2025论文中,我们研究了策略评估:

Merlijn Krale, Eline M. Bovy, Maris F. L. Galesloot, Thiago D. Simão, and Nils Jansen: "On Evaluating Policies for Robust POMDPs". In NeurIPS, 2025.

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 当你无法看到一切时
  • 从部分可观测到隐式模型
  • 迈向学习鲁棒控制器
  • 有何影响?
  • 想了解更多?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档