人工智能图像生成——依靠神经网络根据各种输入(包括文本提示)创建新图像——预计到本世纪末将成为一个价值数十亿美元的产业。即使以今天的技术,如果想要创作一幅奇特的画面,比如一位朋友在火星上插上国旗,或者漫不经心地飞进黑洞,也只需不到一秒钟。

然而,在图像生成器能够执行此类任务之前,它们通常需要接受海量数据集的训练,这些数据集包含数百万张图像,通常还配有相关文本。训练这些生成模型可能是一项艰巨的任务,需要数周甚至数月的时间,并且会消耗大量的计算资源。

图片来源:MIT

但是,如果真的可以通过人工智能方法生成图像,而无需使用生成器,那会怎样呢?

据外媒报道,2025年夏初,在加拿大不列颠哥伦比亚省温哥华举行的国际机器学习大会(International Conference on Machine Learning,ICML 2025)上,一篇研究论文阐述了这种现实可能性以及其他一些引人入胜的想法。研究人员重新构想图像生成,使标记器和解码器无需生成器即可进行编辑和修复图像。相关论文已发表在arXiv预印本服务器上。

论文由麻省理工学院(MIT)信息与决策系统实验室(LIDS)研究生研究员Lukas Lao Beyer、麻省理工学院计算机科学与人工智能实验室(CSAIL)博士后研究员Tianhong Li、Facebook人工智能研究中心的Xinlei Chen、麻省理工学院航空航天学教授兼LIDS主任Sertac Karaman以及麻省理工学院电气工程与计算机科学副教授Kaiming He共同撰写。

这项团队研究的起源是Lao Beyer去年秋季参加的深度生成模型研究生研讨课的课堂项目。在学期中的交流中,Lao Beyer和研讨课的授课老师He都意识到这项研究具有真正的潜力,远远超出了普通家庭作业的范畴。很快,其他合作者也加入了进来。

Lao Beyer的研究起点是一篇发表于2024年6月的论文,该论文由慕尼黑工业大学(Technical University of Munich)和中国公司字节跳动的研究人员共同撰写,该论文介绍了一种新的视觉信息表示方法,称为一维标记器。利用这种设备(它也是一种神经网络),可以将256x256像素的图像转换为仅由32个数字组成的序列,这些数字被称为标记。

“我想了解如何实现如此高的压缩率,以及这些标记本身究竟代表什么,”Lao Beyer说道。

上一代标记器通常会将同一幅图像分解成16x16个标记的数组,每个标记都以高度压缩的形式封装了与原始图像特定部分对应的信息。而新的一维标记器可以更高效地对图像进行编码,总体上使用的标记数量要少得多,而且这些标记能够捕获整幅图像的信息,而不仅仅是某个象限的信息。

此外,每个token都是一个由1和0组成的12位数字,总共有212(约4,000)种可能性。

“这就像一个包含4,000个单词的词汇表,构成了计算机所说的抽象的、隐藏的语言,”他解释说。“它不像人类语言,但我们仍然可以尝试找出它的含义。”

这正是Lao Beyer最初着手探索的领域——这项工作为ICML 2025论文奠定了基础。他采用的方法非常简单。Lao Beyer说,如果想知道某个token的作用,“你可以把它取出来,换成一些随机值,看看输出是否有可识别的变化。”

他发现,替换一个标记会改变图像质量,将低分辨率图像变成高分辨率图像,反之亦然。另一个标记会影响背景的模糊度,而另一个标记仍然会影响亮度。他还发现了一个与“姿势”相关的标记,例如,在知更鸟的图像中,鸟的头部可能会从右向左移动。

“这是一个前所未有的结果,因为此前从未有人观察到通过操纵标记而产生视觉上可识别的变化,”Lao Beyer说道。这一发现提出了一种新的图像编辑方法的可能性。事实上,麻省理工学院的研究小组已经展示了如何简化和自动化这一过程,从而无需逐个手动修改标记。

他和同事在图像生成方面取得了更为重大的成果。一个能够生成图像的系统通常需要一个标记器(tokenizer),它可以压缩和编码视觉数据,以及一个生成器(generator),它可以组合和排列这些紧凑的表示形式,从而创建新的图像。麻省理工学院的研究人员找到了一种完全不使用生成器来创建图像的方法。

他们的新方法利用了一个一维标记器和一个所谓的去标记器(detokenizer,也称为解码器),后者可以从一串标记中重建图像。然而,在一种名为CLIP的现成神经网络的指导下——它本身无法生成图像,但可以衡量给定图像与特定文本提示的匹配程度——该团队能够将一张小熊猫的图像转换成老虎的图像。

此外,他们还可以完全从零开始创建老虎或任何其他所需形状的图像——所有标记最初都被赋予随机值(然后进行迭代调整,使重建的图像越来越符合所需的文本提示)。

该团队演示了同样的设置——依赖于标记器和去标记器,但不依赖于生成器——他们也可以进行“图像修复(inpainting)”,即填充图像中以某种方式被遮盖的部分。避免在某些任务中使用生成器可以显著降低计算成本,因为如上所述,生成器通常需要大量的训练。

Lao Beyer解释说,这个团队的贡献可能看起来有些奇怪,“因为我们并没有发明任何新东西。我们没有发明一维标记器,也没有发明CLIP模型。但我们确实发现,当你把所有这些部分组合在一起时,可以产生新的功能。”

“这项工作重新定义了标记器的角色,”纽约大学(New York University)计算机科学家Saining Xie评论道。“它表明,图像标记器——通常仅用于压缩图像的工具——实际上可以做更多的事情。一个简单(但高度压缩)的一维标记器可以处理诸如图像修复或文本引导编辑之类的任务,而无需训练一个成熟的生成模型,这一事实相当令人惊讶。”

普林斯顿大学(Princeton University)的Zhuang Liu对此表示赞同,他表示,麻省理工学院团队的研究“表明,我们可以以一种比我们之前想象的更容易的方式生成和处理图像。从根本上说,它证明了图像生成可以成为一种非常有效的图像压缩器的副产品,从而有可能将图像生成成本降低数倍。”

Karaman认为,在计算机视觉领域之外,它可能还有许多应用。“例如,我们可以考虑以同样的方式对机器人或自动驾驶汽车的行为进行标记,这可能会迅速扩大这项工作的影响。”

Lao Beyer的想法类似,他指出,一维标记器提供的极高压缩率可以实现“一些令人惊叹的成果”,这些成果可以应用于其他领域。例如,他的研究兴趣之一——自动驾驶汽车领域,标记可以代替图像来表示车辆可能行驶的不同路线。