UNIST发明元强化学习技术 使机器人能够更灵活地适应未知任务
人类本能地行走和奔跑——快步走感觉毫不费力,且会自然而然地调整步幅和步伐,而无需有意识地思考。然而,对于实体人工智能机器人来说,掌握基本动作并不一定意味着能够适应新的或意料之外的情况。
即使机器人经过训练可以高速奔跑,在执行不同任务时,它也可能难以进行细微的调整——例如调整腿部角度或施加合适的力量——这常常导致动作不稳定或停滞。
图片来源: UNIST
据外媒报道,认识到这一挑战,韩国蔚山国立科学技术大学(UNIST)人工智能研究生院的Seungyul Han教授及其研究团队开发了一种开创性的元强化学习技术,使人工智能代理能够独立预测和准备不熟悉的任务。他们引入了任务感知虚拟训练(TAVT)——一种创新方法,使人工智能能够提前生成虚拟任务并从中学习,从而显著增强其适应不可预见挑战的能力。
该研究采用双模块系统,包含基于深度学习的表征组件和生成模块。表征模块评估不同任务之间的相似性,创建一个捕捉关键特征的潜在空间。生成模块随后合成新的虚拟任务,这些任务反映了现实世界场景的核心方面。这一过程有效地使人工智能能够预先体验尚未遇到的情况,从而提升其对分布式外(OOD)任务的准备程度。
首席研究员Jeongmo Kim解释说:“传统的强化学习训练代理在特定任务中表现出色,限制了其泛化能力。虽然元强化学习让代理接触多种任务,但适应全新的、未曾见过的情况仍然是一项挑战。我们的TAVT方法能够主动帮助人工智能为此类场景做好准备。”
该团队在各种机器人模拟中测试了TAVT,包括猎豹、蚂蚁和双足机器人。值得注意的是,在Cheetah-Vel-OOD实验中,使用TAVT的机器人能够快速适应前所未有的中等速度(1.25和1.75米/秒),并保持稳定高效的运动。相比之下,传统训练的机器人通常难以适应,导致不稳定或失去平衡。
Han教授强调:“这种方法显著提高了人工智能在不同任务中的泛化能力,这对于自动驾驶汽车、无人机以及在不可预测环境中运行的实体机器人等应用至关重要。它为更灵活、更具韧性的人工智能系统铺平了道路。”
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。