
编辑:陈萍萍的公主@一点人工一点智能
摘要:本文提出了一种基于学习的视觉导航方法,使无人机能够在果园行间实现自主飞行。该方法采用基于变分自编码器(VAE)的控制器,通过干预式学习框架进行训练,使无人机能够从人类操作经验中学习视觉-运动策略。研究在真实果园环境中使用定制四旋翼平台进行了验证。
实验结果表明,经过少量训练迭代后,所提出的VAE控制器能够基于前置摄像头图像流实现自主导航,表现出优异的避障性能,以更少的人工干预实现更长的飞行距离,且性能优于现有算法。
此外,该策略能够有效泛化到新环境,并在不同条件和速度下保持竞争力。这项研究不仅推动了无人机自主性发展,也为精准农业中的果园监测与管理提供了重要潜力。

论文地址:https://arxiv.org/pdf/2508.02617

引言
近年来,无人机技术在农业应用中取得了显著进展,尤其是在果园行内导航方面,可用于作物检测和产量估计等任务,为遥感和精准农业提供了有力工具。然而,现有无人机多依赖GPS导航,在果园等密闭环境中,茂密的树冠会遮挡GPS信号,限制了其应用。此外,果园中存在未知障碍物(如树枝),常需人工干预进行避障,增加了操作负担。因此,在GPS信号弱、存在障碍物的果园环境中实现自主安全导航,仍是一个具有挑战性的问题。

为解决这一问题,研究者转向利用外部传感器(如激光雷达或摄像头)进行环境感知与导航。激光雷达因体积和功耗问题不太适用于轻量无人机,而摄像头则因成本低、体积小、功耗低成为更优选择。传统的导航方法通常采用模块化设计,包括感知、规划与控制三个部分,但这种方法计算负担重,且各模块间存在不一致性。受人类飞行员仅凭视觉输入即可操控无人机的启发,本文旨在开发一种反应式策略,跳过显式地图和路径点构建,直接从图像映射到控制命令。

相关工作
小型无人机在果园监测与管理中的应用日益广泛,包括作物分析、产量估计、病虫害监测等。这些应用突出了无人机在维护作物健康方面的重要作用。在精准农业中,无人机还用于提取冠层体积信息以实现定向施药。然而,果园中的自主导航仍面临诸多挑战,尤其是在GPS拒止环境中的感知与状态估计问题。
现有方法多采用模块化设计,包括基于CNN的路径检测、3D点云定位、SLAM建图等技术,为后续轨迹规划提供输入。尽管模块化方法取得了成功,但感知与控制的分离可能导致意外行为,且构建地图、搜索路径和求解最优控制问题会增加系统延迟。相比之下,人类飞行员仅凭摄像头图像即可实现复杂环境中的导航,表现出优异的反应能力和泛化能力。
强化学习(RL)在自动驾驶和游戏策略等领域表现出色,但其样本效率低、奖励函数设计复杂,且试错性质在安全关键系统中存在风险。迁移学习通过仿真训练再迁移到现实世界来降低成本,但仿真与现实的差异仍是一个挑战。模仿学习(IL)通过专家演示数据学习策略,避免了手工设计奖励函数,提高了数据效率,已在自动驾驶和无人机导航中得到应用。近期研究还表明,利用特权信息可进一步提升性能,但该方法依赖于高保真仿真器,在农业领域应用受限。

材料与方法
3.1 无人机平台
研究使用定制四旋翼平台,轴距为450 mm,搭载Intel RealSense D435i摄像头(70°视场角)用于RGB图像采集,RealSense T265摄像头提供视觉里程计,SF11/C激光测距仪用于高度测量。飞行控制器采用PixRacer R15,运行PX4飞控栈,机载计算单元为Nvidia Jetson Xavier NX,外接固态硬盘存储数据。系统由4S锂聚合物电池供电,续航时间约13分钟,起飞重量1.8 kg。

3.2 干预式模仿学习
本文采用模仿学习框架训练视觉导航策略,其优势在于样本效率高且无需手工设计奖励函数。模仿学习的目标是学习一个参数化策略πθ,使其尽可能接近专家策略πE,通过最小化两者之间的差异实现。最简单的方法是行为克隆,但其在实际中常因状态分布不匹配而失败。为此,Ross & Bagnell (2010) 提出了DAgger算法,通过在线查询专家提供新演示数据。

本文采用干预式DAgger方法,在无人机执行策略时,人类飞行员可实时干预并接管控制,仅将干预阶段的演示数据加入训练集,每轮迭代后重新训练策略。这种方法简化了查询过程,提高了数据质量,更符合实际应用场景。

3.3 基于VAE的控制器
3.3.1 VAE网络
VAE用于从高维图像数据中提取低维潜在变量,提升训练效率和泛化能力。VAE包含编码器和解码器,编码器将图像压缩为潜在变量,解码器进行图像重建。训练VAE的损失函数包括重建误差和KL散度两部分:

其中,β为平衡因子,设为3。编码器由5个卷积层(LeakyReLU激活)组成,输入为128×128×3图像,输出256维潜在变量;解码器由5个转置卷积层(ReLU激活)组成,重建图像至原始尺寸。

3.3.2 策略网络
策略网络基于多层感知机(MLP),包含两个隐藏层(各256单元,ReLU激活),输出层使用tanh激活函数,输出范围[-1,1]。输入包括VAE编码器提取的潜在向量和无人机状态(姿态、速度)。训练目标是最小化策略输出与专家输出的均方误差:

3.4 系统架构
系统架构包括图像采集、状态估计、控制命令生成和电机控制等部分。D435i摄像头以30 Hz频率输出RGB图像,T265摄像头提供视觉里程计,激光测距仪提供高度数据,与IMU数据通过EKF融合,估计无人机状态。高层规划器根据高度生成速度命令,通过PID速度控制器和姿态控制器实现速度跟踪和姿态控制。VAE控制器以30 Hz频率生成偏航速率命令,直接输入角速率控制器。电机控制由PX4飞控栈管理,通过ROS与机载计算机通信。

3.5 数据收集与训练
数据收集在美国加利福尼亚州戴维斯附近的混合树种果园中进行,包括杏仁、核桃、李子、开心果和桃树,行距6.10 m,株距4.57 m,行长约73.15 m。图像数据在多个季节(夏、秋、冬)、天气(晴、阴)和时段(早、中、晚)采集,共110,551张图像(640×480像素)。数据增强包括亮度、对比度、饱和度、锐度调整和随机水平翻转。

VAE训练使用ADAM优化器,训练后编码器权重固定,用于生成潜在变量训练策略网络。策略训练采用干预式学习框架,人类飞行员仅提供偏航速率校正,高层控制器保持恒定高度和速度。初始演示数据23,557条,经过三轮迭代后总数据量达31,887条,约35分钟飞行数据。VAE训练数据量约占演示数据的28.8%,体现了VAE在特征提取方面的优势。

实验结果
4.1 定性结果
通过SLAM库重建3D点云地图,可视化无人机轨迹。训练一轮后,代理策略已具备基本导航能力,但仍需人工干预;训练三轮后,代理可实现完全自主飞行,成功避障。在未训练的新行中,VAE控制器仍能实现自主导航,表现出良好的泛化能力。进一步在杏仁园和核桃园中的实验表明,控制器在复杂环境中仍能有效导航,仅在极端情况下需人工干预。




4.2 定量结果
与两种基线算法(基于线性回归的baseline1和基于CNN的baseline2)相比,VAE控制器在人工干预率、飞行距离和速度适应性方面均表现更优。经过三轮训练,VAE控制器的平均干预率降至10%以下,显著低于基线方法。t检验结果表明,VAE控制器在统计意义上优于基线方法。在训练和泛化环境中,VAE控制器的平均飞行距离更长,且在速度提升至0.8 m/s和1.0 m/s时仍保持良好性能。



处理时间方面,VAE控制器和baseline2均能在机载计算机上实时运行,而baseline1因需显式特征提取,处理时间较长。VAE控制器在泛化至新果园和不同速度时均表现出强鲁棒性。

讨论
EKF、高度控制器和速度控制器在系统中扮演关键角色,确保无人机飞行的稳定性和一致性。VAE控制器避免了显式的规划-控制分解,直接从视觉输入生成控制命令,节省了计算资源。实验表明,VAE控制器在分布拟合和泛化能力方面优于基线方法,但其在树木缺失行末区域仍存在失败情况,未来可通过添加记忆模块或GPS规划器改进。

人类飞行员在干预决策中的不一致性可能影响训练质量,未来可引入计算机辅助干预模块提高一致性。此外,当前策略仅针对特定无人机平台,未来需集成自适应底层控制器以实现跨平台部署。



结论与未来工作
本文提出了一种基于VAE的视觉导航策略,通过干预式学习框架实现果园行内自主飞行。
实验表明,该策略能以更少人工干预实现更长飞行距离,并具有良好的泛化能力和速度适应性。未来工作将集中于设计自主恢复模块、增强策略可转移性、研究常见失败案例,并扩展至多机协同作业场景。