无人驾驶飞行器(UAV),俗称无人机,如今已在世界各地广泛用于处理各种实际任务,包括用于各种目的的视频拍摄、从空中监测农作物或其他环境、评估灾区以及执行军事行动。尽管无人机应用广泛,但大多数现有无人机都需要完全或部分由人工操作。

此外,许多无人机无法在杂乱、拥挤或未知的环境中导航而不与附近物体相撞。能够在这些环境中导航的无人机通常依赖于昂贵或笨重的组件,例如先进的传感器、图形处理器(GPU)或无线通信系统。

图片来源: 期刊《Nature Machine Intelligence》

据外媒报道,上海交通大学的研究人员最近提出了一种受昆虫启发的新型方法,该方法可以使多架无人机组成的团队在高速移动的同时自主导航复杂环境。相关研究论文已发表于期刊《Nature Machine Intelligence》,论文中称该方法依赖于深度学习算法和核心物理原理。

“我们的研究灵感来自于像苍蝇这样的微小昆虫惊人的飞行能力,”该论文的共同资深作者邹丹平教授和林巍峣教授表示。“如此微小的生物,只有微小的大脑和有限的感知能力,却能够做出敏捷、智能的动作——避开障碍物、悬停在半空中或追逐猎物,这一直令我们惊叹不已。复制这种程度的飞行控制一直是机器人技术的梦想和一大挑战。它需要紧密集成的感知、规划和控制——所有这些都依赖于非常有限的机载计算能力,就像昆虫的大脑一样。”

用于控制多架无人机飞行的最常见计算方法将自主导航任务分解为多个独立模块,例如状态估计、地图绘制、路径规划、轨迹生成和控制模块。虽然分别处理这些子任务可能有效,但有时会导致不同模块之间累积误差,并导致无人机响应延迟。换句话说,这会导致无人机在接近障碍物时反应更慢,从而增加在动态和混乱环境中发生碰撞的风险。

“我们研究的主要目标是探索轻量级人工神经网络(ANN)能否以紧凑的端到端策略取代这种经典的流程,”邹教授和林教授说道。“该网络将传感器数据作为输入并直接输出控制动作——这种模式与苍蝇如何利用少量神经元产生复杂、智能的行为相仿。我们不仅追求生物的优雅,更希望证明感知和计算的极简主义也能带来高性能的自主飞行。”

研究人员开发的新系统主要依赖于一种新开发的轻量级人工神经网络,该神经网络能够基于12x16超低分辨率深度图生成四旋翼飞行器的控制指令。虽然输入算法的深度图分辨率较低,但经验证足以使神经网络理解周围环境并有效地规划飞行器的动作。

“我们在一个由简单几何形状(立方体、椭圆体、圆柱体和平面)组成的定制模拟器中训练了这个网络,从而能够生成多样化且结构化的环境,”邹教授和林教授解释道。“得益于基于可微分物理的流程,我们的训练过程非常高效。它支持单智能体和多智能体训练模式:在多智能体设置中,其他无人机在学习过程中被视为动态障碍物。”

研究人员开发的多机导航方法的一个关键优势在于它依赖于一个高度紧凑且轻量级的深度神经网络,该神经网络仅有三个卷积层。研究人员在一块售价仅为21美元的嵌入式计算板上对其进行了测试,发现它运行流畅且节能。

“在RTX 4090 GPU上,训练只需2小时即可收敛,这对于策略学习来说速度非常快,”邹教授和林教授说道。“我们的系统还支持多机器人导航,无需任何集中规划或显式通信,从而能够在集群场景中实现可扩展部署。”

研究人员在回顾该领域的既往文献时发现,许多用于无人机导航的深度学习算法在实际场景中泛化能力不佳。这通常是因为它们没有考虑到意外的障碍物或环境变化,并且需要使用大量由人类专家标注的飞行数据进行训练。

“我们最重要的发现是,将四旋翼飞行器的物理模型直接嵌入到训练过程中,可以显著提升训练效率和实际性能——在鲁棒性和敏捷性方面,”邹教授和林教授说道。“这项被称为可微分物理学习的技术并非我们发明,但我们是第一个将其扩展并成功应用于实际四旋翼飞行器控制的人。通过这项研究,我们还获得了三个意想不到却意义深远的见解——这些经验教训可能会重塑我们对机器人智能、模型和感知的理解。”

邹教授、林教授及其同事取得的这些令人振奋的研究成果,展示了基于小型人工神经网络的模型在处理复杂导航任务方面的潜力。研究人员表明,这些模型可能比人们通常认为的更有效,并且还可以帮助理解更大型模型的工作原理。

“正如神经科学早期通过果蝇的简单神经回路取得进展,帮助人们揭开基础洞见一样,小型模型让我们更清晰地了解感知、决策和控制是如何耦合的,”邹教授和林教授说道。“在我们的案例中,一个参数少于2 MB的模型无需任何通信即可实现多智能体协调——这展现了简单性如何催生涌现智能。”

值得注意的是,研究人员开发的轻量级模型即使在模拟环境中训练也表现良好。这与许多之前开发的需要大量专家标注数据的模型形成了鲜明对比。

研究人员表示:“我们了解到,智能不必依赖于海量数据集。我们完全在模拟环境中训练我们的策略——没有互联网规模的数据、预先收集的日志或手工演示——仅使用了一些基本任务和由可微分物理引擎驱动的几何环境。这挑战了‘数据越多越好’的普遍假设,并表明结构对齐和嵌入的物理先验可能比纯粹的数据量更重要。”

总体而言,这项最新研究的结果表明,基于基本物理原理的神经网络可以比基于数百万张图像、地图或其他标记数据训练的网络取得更好的效果。此外,研究人员发现,即使是低清晰度的深度图像也能精确地引导机器人的行为。

“就像果蝇一样,它们的视觉仅限于低分辨率的复眼,却能完成令人难以置信的空中动作,我们使用12×16像素的深度图像来控制飞行速度高达20米/秒的无人机,”邹教授和林教授说道。“这支持了一个大胆的假设:导航性能可能更多地取决于智能体对物理世界的内部理解,而不仅仅是传感器的保真度。”

未来,邹教授、林教授及其同事开发的方法可以部署在更多类型的飞行器上,并在特定的现实场景中进行测试。最终,它可以帮助拓展超轻型无人机可以执行的任务,例如,让它们自动自拍或参加竞速比赛。该方法还可用于转播体育赛事或其他活动、在搜救行动中搜索倒塌的建筑物以及检查杂乱的仓库。

“我们目前正在探索使用光流技术替代深度图来实现完全自主飞行,”邹教授和林教授补充道。“光流技术提供了基本的运动线索,长期以来一直是神经科学领域研究的重点,是昆虫视觉的关键组成部分。通过利用光流技术,我们希望能够更接近地模拟昆虫导航的自然策略。我们正在探索的另一个重要方向是端到端学习系统的可解释性。”

尽管该团队的轻量级神经网络在实际实验中表现出色,但这些令人鼓舞的结果是如何运作的尚不清楚。在接下来的研究中,邹教授和林教授希望进一步阐明该网络的内部表征,这或许也能为理解昆虫如何处理周围环境并规划其行为提供一些见解。