据外媒报道,马萨诸塞大学阿默斯特分校(University of Massachusetts Amherst)的研究人员利用新型硅基硬件推动了计算机视觉的发展,该硬件能够捕捉和处理模拟域中的视觉数据。相关研究论文发表在期刊《Nature Communications》上,最终有望应用于大规模、数据密集型和延迟敏感的计算机视觉任务。

图片来源: 期刊《Nature Communications》

“这是一款非常强大的视网膜拟态硬件,”马萨诸塞大学阿默斯特分校电气与计算机工程副教授兼生物医学工程兼职副教授Guangyu X说道。“在设备层面融合传感单元和处理单元,而不是在物理上将它们分开,这种想法与人眼处理视觉世界的方式非常相似。”

现有的计算机视觉系统通常涉及在物理上分离的传感单元和计算单元之间交换冗余数据。

“例如,手机上的摄像头会捕捉视野内的每个像素数据,”Xu教授说道。

然而,该图像包含的信息量超过了系统识别物体或其运动所需的信息量。因此,传输和处理这些额外信息所需的时间会导致理解捕获的视觉信息出现延迟,而理解这些信息通常对时间敏感且数据密集。

Xu教授表示:“我们的技术试图缩短感知物理世界和识别目标之间的延迟。”

Xu教授和他的团队创建了两个集成的栅极可调硅光电探测器阵列,或称传感器内视觉处理阵列。它们共享双极模拟输出和低功耗工作模式,一个阵列可以捕捉动态视觉信息,例如事件驱动的光变化;另一个阵列可以捕捉静态图像中的空间特征,从而识别目标物体。

这些硅阵列的规模化发展为视网膜计算和智能感知带来了希望。对于动态运动,当被要求在复杂环境中对人体运动(行走、拳击、挥手和鼓掌)进行分类时,新的模拟技术准确率高达90%,而数字技术的准确率则为77.5%至85%。对于静态图像,该技术对手写数字的分类准确率高达95%,优于不具备传感器内置计算能力的方法(90%)。

这些阵列的独特之处在于它们由硅制成,与计算机芯片中使用的材料相同,这与之前主要由纳米材料制成的传感器内视觉处理器截然不同。因此,这些阵列与现有的互补金属氧化物半导体(CMOS)更加兼容,CMOS是用于在计算机和存储芯片等各种电子设备中构建集成电路的最常用半导体技术。这种兼容性使它们特别适合大规模计算机视觉任务,在这些任务中,许多进程同时执行,也称为高并行性。

“我们的全硅技术有利CMO集成、大规模生产和大规模阵列操作,并且具有较低的可变性,因此我认为这是该领域的一大飞跃,”Xu教授说道。

Xu教授列举了这项工作的潜在应用的具体例子。首先是自动驾驶汽车,“你必须实时处理车辆周围的环境以及它们的移动速度”。处理时间的任何缩短都会提高自动驾驶汽车的安全性。

另一个可能受益的领域是生物成像。当前的技术可能捕获的数据量远远超过实际需要。“我们或许可以压缩数据量,并为科学家提供相同的生物学见解,”Xu教授说道。