据外媒报道,由韩国基础科学研究院(Institute for Basic Science)、延世大学(Yonsei University)和德国马克斯·普朗克研究所(Max Planck Institute)组成的研究团队开发出一项新的人工智能(AI)技术,使机器视觉更接近人脑的图像处理方式。这项名为Lp-Convolution的技术提高了图像识别系统的准确性与效率,同时降低了现有AI模型的计算负担。

图片来源:Institute for Basic Science

人类大脑在复杂场景中识别关键细节的效率极高,而传统的AI系统却难以复制这种能力。卷积神经网络(CNN)作为最广泛使用的图像识别模型,采用小型方形滤波器处理图像。虽然有效,但这种僵化的方法限制了其捕捉碎片化数据中更广泛模式的能力。

最近,视觉变换器通过一次性分析整个图像展现出更优越的性能,但它们需要巨大的计算能力和庞大的数据集,这使得它们在许多实际应用中并不实用。

受大脑视觉皮层通过环形稀疏连接选择性处理信息的启发,该研究团队寻找到了折中方案:能否通过类似大脑的方法使CNN兼具高效与强大?

Lp-Convolution:更智能的视觉方案

为此,研究团队开发出Lp-Convolution,这是一种运用多元p-广义正态分布(MPND)动态重塑CNN滤波器的新方法。与使用固定方形滤波器的传统CNN不同,Lp-Convolution允许AI模型根据任务需求横向或纵向调整滤波器形状,就像人脑选择性聚焦关键细节一样。

这一突破解决了AI研究中一个长期存在的难题,即大内核问题。尽管增加了更多参数,但仅仅增加CNN的滤波器大小(例如使用7×7或更大的内核)通常并不能提高性能。Lp-Convolution通过引入灵活的、受生物启发的连接模式,克服了这一限制。

实际表现:更强大、更智能且更稳健的AI

在标准图像分类数据集(CIFAR-100、TinyImageNet)测试中,Lp-Convolution显著提升了AlexNet等经典模型和RepLKNet等现代架构的识别准确率。该方法对数据损坏表现出极强的鲁棒性,这对实际AI应用至关重要。此外,研究人员发现,当该方法使用的Lp掩模呈现高斯分布时,AI的内部处理模式与生物神经活动高度吻合,这一结论通过与小鼠脑部数据的对比得到了验证。

基础科学研究院认知与社会性中心主任C. Justin Lee博士指出:“人类能在繁杂场景中快速锁定关键信息。Lp-Convolution模拟了这种能力,使AI能像人脑一样灵活聚焦于图像的核心要素。”

应用前景与影响

相较于依赖小型固定滤波器或资源密集型变换器的传统方案,Lp-Convolution提供了一个实用高效的替代方案。这一创新可能会给以下领域带来革命性的变化:

  • 自动驾驶:AI必须实时快速检测障碍物

  • 医学成像:通过突出细微特征提升AI诊断精度

  • 机器人技术:实现多变环境下更智能、适应性更强的机器视觉

Lee主任强调:“这项研究对AI与神经科学都是重要贡献。通过贴近大脑机制,我们释放了CNN的新潜力,使其更智能、适应性更强、更符合生物学现实。”展望未来,该研究团队计划进一步优化该技术,探索其在数独解题等复杂推理任务及实时图像处理中的应用前景。