面向风场环境的能量最优无人机路径规划强化学习框架

气象学家

发布于 2026-03-25 21:45:29

1650

文章被收录于专栏：气象学家气象学家

面向风场环境的能量最优无人机路径规划强化学习框架

https://doi.org/10.1016/j.patcog.2025.112912

一、研究背景与问题提出

1.1 实际需求驱动

随着低空经济的发展，无人机（UAV）在物流配送、应急通信、环境监测等场景中广泛应用。然而，在低空复杂环境中（如城市峡谷、山区），无人机面临两大挑战：

• 密集静态障碍物（建筑物、禁飞区等）
• 不确定风扰（风速可达空速的40–50%，能耗增加超30%）

传统路径规划算法（如 A*、RRT、PRM）虽能生成无碰路径，但假设环境静态、成本函数固定，无法动态响应风场变化，导致：

• 能耗高
• 路径非最优
• 任务失败风险上升

1.2 风场的双重性

风不仅是干扰源，也可被主动利用——如同滑翔机或候鸟借助尾风延长航程。因此，将风场信息融入路径规划，实现“顺风而行、避逆而走”，是提升能效的关键。

✅ 核心问题：如何在含风扰和障碍的环境中，为UAV规划一条能量消耗最小、安全可行的路径？

二、方法创新：PQN 框架

作者提出 Probabilistic Convolutional Q-Network (PQN)，一个融合物理建模、图结构先验与深度感知的强化学习框架。

2.1 整体架构（三模块协同）

模块	功能	技术手段
能量模型	精确量化风对能耗的影响	基于空气动力学的物理模型（Eq. 12–13）
CNN 编码器	提取全局风场特征	3层卷积 + 自适应池化 → 16维风特征向量
PRM 图构建	结构化动作空间，提升效率	随机采样 + K近邻连接 → 稀疏无碰图

💡 关键思想：用 PRM 将连续/高维动作空间离散为有限可行节点集，使 DRL 聚焦于“选哪个路点”，而非“往哪飞多少度”。

2.2 MDP 建模

• 状态 s(t) = [当前位置 p(t), CNN 提取的风场特征 f_W]
• 动作 a(t) = PRM 图中当前节点的邻居节点（即下一步路点）
• 奖励 r(t) = β₁·Δd − β₂·E(t) − β₃·I_revisit + β₄·I_goal （鼓励靠近目标、惩罚能耗与重复访问，到达目标给大奖励）
• 转移 P：确定性（执行动作即跳转到目标节点）

2.3 训练策略

• 使用 DQN + Prioritized Experience Replay (PER)
• 双网络结构（Q-network + Target network）稳定训练
• ε-greedy 探索 + 重要性采样纠偏

三、关键技术细节

3.1 风场建模（Eq. 14–16）

采用复合风场模型：

• 基础风：均匀方向与速度（V_base ∈ [0,5] m/s）
• 涡旋扰动：多个高斯衰减涡流（模拟局部湍流）该模型既能反映宏观风向，又能刻画微观扰动，贴近真实大气。

3.2 能量消耗模型（Eq. 12–13）

在恒定地速、定高飞行假设下，推导出：

其中是机体坐标系下的空速分量，受地速、风速、偏航角共同影响。 → 头风需更大油门 → 能耗↑；尾风则相反

3.3 PRM 参数选择（N=75, K=15）

通过消融实验发现：

• N（采样点数）过少 → 图不连通；过多 → 计算冗余
• K（近邻数）过小 → 局部最优；过大 → 训练慢最终平衡性能与效率，选定 N=75, K=15（10×10 网格）

四、实验设计与结果分析

4.1 对比方法

方法	是否含 CNN	是否含 PRM
DQN（基线）	❌	❌
DQN + CNN	✅	❌
PQN w/o CNN	❌	✅
PQN（完整）	✅	✅

4.2 主要结果（Table 5）

在10种随机风场下平均表现：

指标	PQN（完整）	相比 DQN 提升
能耗	261.3 kJ	↓28.1%
路径长度	1459.7 m	↓16.0%
规划时间	0.041 s	↓74.2%
训练时间	42.5 h	更短（因动作空间小）

✅ 结论：CNN 提供风感知能力 → 节能；PRM 压缩动作空间 → 加速。

4.3 消融实验（Figure 8 & Table 6）

• 有 CNN 的 PQN：会主动绕远路进入强尾风区（即使几何路径更长，但总能耗更低）
• 无 CNN 的 PQN：仅避障，易陷入局部强逆风区，能耗反超 A*
• A*：无视风场，始终走最短几何路径 → 在复杂风场中次优

4.4 可扩展性（Table 8）

• 网格从 10×10 → 50×50：
- • 路径长度基本不变（~1222 m）
- • 能耗 ↓10.8%（因风场分辨率更高，利用更精细）
- • 规划/训练时间 ↑（计算开销增大）

五、贡献总结

1. 提出物理一致的能量模型，准确刻画风-UAV 耦合关系；
2. 首次将 CNN 用于全局风场编码，使 RL 智能体具备“风感”；
3. 引入 PRM 结构化动作空间，兼顾可行性与计算效率；
4. 验证 PQN 在多种风场下的优越性，为实际部署提供依据。

六、局限与未来方向

作者坦诚指出：

• 路径为离散路点序列，未考虑连续动力学约束（如最小转弯半径）；
• 未显式建模风突变下的安全裕度，可能引发碰撞；
• 当前为2D 定高飞行，未拓展至 3D。

🔜 未来工作：

• 引入轨迹平滑（如样条插值）
• 结合鲁棒控制或安全 RL（如 WCSAC）
• 扩展至动态障碍+时变风场

七、总体评价

该工作理论扎实、工程实用，巧妙融合了：

• 经典机器人学（PRM）
• 空气动力学（能耗建模）
• 现代深度学习（CNN + DRL）

不仅解决了 UAV 能效问题，其“结构化动作空间 + 环境感知编码”的范式，亦可推广至水下机器人、自动驾驶等受环境场（洋流、交通流）影响的系统。

📌 一句话总结： PQN 让无人机学会“看风使舵”，走出一条又省电又安全的智慧航线。

END

声明：欢迎转载、转发。气象学家公众号转载信息旨在传播交流，其内容由作者负责，不代表本号观点。文中部分图片来源于网络，如涉及内容、版权和其他问题，请联系小编处理。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-12-18，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自气象学家微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

面向风场环境的能量最优无人机路径规划强化学习框架

面向风场环境的能量最优无人机路径规划强化学习框架

面向风场环境的能量最优无人机路径规划强化学习框架

一、研究背景与问题提出

1.1 实际需求驱动

1.2 风场的双重性

二、方法创新：PQN 框架

2.1 整体架构（三模块协同）

2.2 MDP 建模

2.3 训练策略

三、关键技术细节

3.1 风场建模（Eq. 14–16）

3.2 能量消耗模型（Eq. 12–13）

3.3 PRM 参数选择（N=75, K=15）

四、实验设计与结果分析

4.1 对比方法

4.2 主要结果（Table 5）

4.3 消融实验（Figure 8 & Table 6）

4.4 可扩展性（Table 8）

五、贡献总结

六、局限与未来方向

七、总体评价

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐