大型语言模型(LLMs),例如OpenAI平台ChatGPT所使用的模型,如今已被广泛用于处理各种任务,从信息搜集到生成不同语言的文本,甚至代码。许多科学家和工程师也开始使用这些模型进行研究或推进其他技术的发展。

在机器人领域,LLM已被证明在创建基于用户指令的机器人策略方面具有巨大潜力。策略本质上是机器人为正确执行所需动作而必须遵循的“规则”。

图片来源: 期刊《Advanced Robotics Research》

据外媒报道,受人脑如何规划动作并随着时间的推移微调身体运动启发,纽约大学坦顿工程学院(NYU Tandon School of Engineering)的研究人员最近推出了一种名为BrainBody-LLM的新算法,该算法利用LLMs来规划和优化机器人的动作执行。该算法相关论文发表在期刊《Advanced Robotics Research》。

论文的共同第一作者Vineet Bhat表示:“LLM已经展现出对真实世界环境中人机交互的深刻理解。在这项工作中,我们旨在通过授予逻辑逻辑模型对一组固定机器人控制指令的部分访问权限,来评估其在机器人领域的这种能力。为了确保安全部署和受控环境测试,我们特意限制了这种访问权限。”

BrainBody-LLM算法

Bha及其同事开发的新算法模拟了人脑和身体在规划和执行特定动作时的沟通方式。该算法包含两个主要组件,分别称为脑部LLM(Brain LLM)和身体LLM(Body LLM)。

脑部LLM负责规划高级任务,并将其分解为更简单易行的步骤。而身体LLM则在每个步骤中生成控制机器人的指令,使其能够执行所需的动作和运动。

“闭环反馈机制能够持续监测环境响应和误差信号,并将这些信息反馈到系统中进行自动校正,”Bhat解释道。“BrainBody-LLM的主要优势在于其闭环架构,该架构促进了LLM组件之间的动态交互,从而能够稳健地处理复杂且具有挑战性的任务。”

模拟和实际环境中均取得令人鼓舞的结果

研究人员在模拟和实际实验中测试了他们提出的模型。模拟实验在VirtualHome平台上进行,该平台上的虚拟机器人完成了各种家务。实际实验则使用名为Franka Research 3的机械臂进行。

研究团队的发现非常令人鼓舞,与对比的其他最先进模型相比,他们的模型将机器人完成任务的效率提高了17%。该模型使机械臂能够完成大部分测试任务,平均成功率达到84%。

“许多近期基于LLM的智能体框架都采用了类似的原理,即通过一系列交互的LLM利用外部工具来处理复杂的人类查询,例如解决数学问题或进行深度分析,”Bhat补充道。我们目前正在探索将其他模态(例如3D视觉、深度感知和关节控制)集成到LLM中的各种方法,目标是使机器人系统能够实现更接近人类的运动和动作。”

未来,该团队新开发的BrainBody LLM有望得到进一步改进,并应用于其他机器人,在更广泛的场景中进行测试。同时,这项最新研究成果也可能启发其他研究团队开发类似的基于LLM的机器人应用方法。