华盛顿大学将微型摄像头集成到耳机内 让用户与AI讨论所见场景
据外媒报道,华盛顿大学(University of Washington)的研究人员开发首个将微型摄像头集成到市售无线耳机中的系统,使用户能够与人工智能(AI)模型对话,描述眼前的景象。例如,用户可以对着韩国食品包装说:“嘿!Vue,帮我翻译一下。”然后,用户会听到AI语音回答:“上面的文字是‘凉面’的意思。”
这款名为VueBuds的原型系统拍摄低分辨率的黑白图像,并通过蓝牙传输到手机或其他附近的设备。设备上的小型AI模型会在大约一秒钟内回答有关图像的问题。为了保护隐私,所有处理都在设备本地进行;系统录制时会亮起一个小指示灯;用户可以立即删除图像。

图片来源:华盛顿大学
该团队于4月14日在巴塞罗那举行的CHI 2026会议上展示了他们的研究成果。该研究发表于论文集《Proceedings of the 2026 CHI Conference on Human Factors in Computing Systems》。
该研究的资深作者Shyam Gollakota说:“大多数人还没有接受智能眼镜或VR头显,部分原因是很多人不喜欢戴眼镜,而且它们通常会带来隐私问题,例如录制高分辨率视频并在云端进行处理。但几乎每个人都佩戴耳机,所以我们想看看能否将视觉智能集成到微型、低功耗的耳机中,并在这一过程中解决隐私问题。”
摄像头比耳机中现有的麦克风耗电量大得多,因此使用与智能眼镜相同的高分辨率摄像头行不通。此外,蓝牙无法持续传输大量信息,所以该系统无法播放连续视频。
研究团队发现,使用低功耗摄像头(大小与米粒相仿)拍摄低分辨率黑白静态图像,既能降低电池消耗,又能保证蓝牙传输,同时还能维持性能。
此外,摄像头的放置位置也是一个需要考虑的问题。
该研究的第一作者Maruchi Kim表示:“我们面临的一个重要问题是:用户的脸会不会遮挡太多视线?耳机摄像头能否可靠地捕捉到用户的视野?”
研究团队发现,将每个摄像头向外倾斜5-10度,即可获得98-108度的视野。虽然当物体距离用户小于20厘米时,这会造成一个小的盲区,但人们很少会把东西拿得这么近去仔细观察——因此对于日常互动来说,这几乎不会造成任何问题。
研究人员还发现,虽然视觉语言模型基本能够理解每个耳机拍摄的图像,但同时处理两个耳机拍摄的图像会降低其速度。因此,研究人员让系统将两张图像“拼接”成一张,识别重叠部分并将其合并。这样一来,系统就能在一秒内做出响应——速度之快足以让用户感觉如同实时响应——而不是像处理单独图像那样需要两秒。
研究团队让74名参与者在一系列测试中比较了VueBuds和Ray-Ban Meta Glasses的输出结果。尽管VueBuds使用的是低分辨率图像,并具有更高的隐私控制,而Ray-Ban则使用在云端处理的高分辨率图像,但两个系统的表现却不相上下。参与者更喜欢VueBuds的翻译结果,而Ray-Ban在物体计数方面表现更佳。
另有16名参与者佩戴了VueBuds耳机,并测试了该系统翻译和回答有关物体的基本问题的能力。VueBuds在翻译或识别物体时准确率达到83%–84%,在识别书籍的作者和书名时准确率达到93%。
这项研究旨在评估将摄像头集成到无线耳机中的可行性。由于该系统只能拍摄灰度图像,因此无法回答涉及场景颜色的问题。
研究团队希望为系统添加彩色功能(彩色摄像头需要更多电量),并训练专门用于特定应用场景(例如翻译)的AI模型。
Kim表示:“这项研究让我们得以一窥仅使用通用语言模型和我们带有摄像头的无线耳机所能实现的功能。但我们希望对该系统进行更严谨的研究,以应用于诸如阅读书籍(例如,为视力障碍者或盲人阅读)或为旅行者翻译文本等场景。”
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。




