MIT利用生成式AI改进能够穿透障碍物的无线视觉系统
据外媒报道,麻省理工学院(MIT)的研究人员十多年来一直致力于研究机器人如何通过“透视”障碍物来发现和操控隐藏物体的技术。他们的方法利用能够穿透表面的无线信号,这些信号会从隐藏物体上反射回来。现在,研究人员正在利用生成式人工智能(AI)模型来克服长期以来限制先前方法精度的瓶颈。
最终成果是一种能够生成更精确形状重建的新方法,有望提升机器人可靠抓取和操控被遮挡物体的能力。这项新技术利用反射的无线信号对隐藏物体进行部分重建,并使用专门训练的生成式AI模型填充其形状中缺失的部分。

图片来源:麻省理工学院
研究人员还推出了一套扩展系统,该系统利用生成式AI技术精确重建整个房间,包括所有家具。该系统利用从一台固定雷达发出的无线信号,这些信号会从空间中移动的人体身上反射回来。
这克服了许多现有方法的一个关键挑战,即需要在移动机器人上安装无线传感器来扫描环境。而且,与一些流行的基于摄像头的技术不同,该方法能够保护环境中人员的隐私。
这些创新技术可以让仓库机器人在发货前核实包装好的商品,从而减少退货造成的浪费。它们还可以让智能家居机器人感知房间内人员的位置,提高人机交互的安全性和效率。
电子工程与计算机科学系副教授、麻省理工学院媒体实验室(MIT Media Lab)信号动力学(Signal Kinetics)小组主任、两篇相关技术论文的资深作者Fadel Adib说:“我们现在所做的是开发生成式AI模型,帮助我们理解无线反射。这不仅开辟了许多有趣的新应用,而且从技术角度来看,也是能力上质的飞跃,从填补以前无法看到的空白,到能够解读反射并重建整个场景。我们正在利用AI最终解锁无线视觉。”
Adib与主要作者兼研究助理Laura Dodds,以及研究助理Maisy Lam、Waleed Akbar和Yibo Cheng共同撰写了第一篇论文;与主要作者和前博士后Kaichen Zhou,以及Dodds和研究助理Sayed Saad Afzal共同撰写了第二篇论文。两篇论文目前已发表在arXiv预印本服务器上。
Adib团队此前已展示过利用毫米波(mmWave)信号精确重建隐藏的三维物体(例如埋在一堆物品下的钱包)的方法。这些与Wi-Fi信号类型相同的波,可以穿透石膏板、塑料和纸板等常见障碍物,并从隐藏物体上反射回来。
但毫米波通常以镜面反射的方式传播,这意味着波在撞击表面后只会沿单一方向反射。因此,表面的大部分区域会将信号反射到远离毫米波传感器的方向,从而使这些区域实际上不可见。
Dodds解释说:“当我们想要重建一个物体时,我们只能看到它的顶面,而看不到它的底部或侧面。”
研究人员此前曾利用物理学原理来解读反射信号,但这限制了重建三维形状的精度。在新发表的论文中,他们通过使用生成式AI模型来填补部分重建中缺失的部分,从而克服了这一限制。
Adib说道:“但接下来的挑战在于:如何训练这些模型来填补这些空白?”
通常,研究人员会使用极其庞大的数据集来训练生成式AI模型,这也是像Claude和Llama这样的模型能够展现出如此出色性能的原因之一。但目前还没有足够大的毫米波数据集来进行训练。因此,研究人员调整了大型计算机视觉数据集中的图像,使其能够模拟毫米波反射的特性。
Lam表示:“我们模拟了镜面反射的特性以及由此产生的噪声,以便将现有数据集应用于我们的研究领域。如果要收集足够的新数据来完成这项工作,我们需要花费数年时间。”
研究人员将毫米波反射的物理特性直接嵌入到这些经过调整的数据中,创建了一个合成数据集,并用它来训练生成式AI模型,使其能够进行逼真的形状重建。
这套名为Wave-Former的完整系统,基于毫米波反射数据生成一组潜在的物体表面,并将这些表面输入到生成式AI模型中以完善形状,然后不断优化这些表面,直至实现完整的重建。
Wave-Former能够对大约70种日常物品(例如罐头、盒子、餐具和水果)进行逼真的重建,与最先进的基准方法相比,其精度提高了近20%。这些物品被隐藏在纸板、木材、石膏板、塑料和织物后面或下面。
该团队运用同样的方法构建了一个扩展系统,该系统利用毫米波在室内移动的人体反射,完整地重建了整个室内场景。
人体运动会产生多径反射。Dodds解释说,一些毫米波会先从人体反射,然后再次从墙壁或其他物体反射,最后返回传感器。
这些二次反射会产生所谓的“幽灵信号”,它们是原始信号的反射副本,会随着人体的移动而改变位置。这些幽灵信号通常被视为噪声而被丢弃,但它们也包含着有关房间布局的信息。
Dodds表示:“通过分析这些反射随时间的变化,我们可以对周围的环境有一个粗略的了解。但想要直接解读这些信号在精度和分辨率方面都存在局限性。”
他们采用类似的训练方法,训练生成式AI模型来解读这些粗略的场景重建结果,并理解毫米波多径反射的特性。该模型能够填补信息空白,不断完善初始重建结果,直至最终完成场景重建。
研究人员利用一台毫米波雷达捕获的100多条人体轨迹,测试了名为RISE的场景重建系统。结果表明,RISE重建的场景平均精度约为现有技术的两倍。
未来,研究人员希望进一步提高重建的粒度和细节。他们还希望构建类似GPT、Claude和Gemini等用于语言和视觉的大型无线信号基础模型,这有望开拓新的应用领域。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。





