在人类感知世界的方式中,一张图像能够汇集多重感受体验,如一张描绘海滩的画作,不仅唤起海浪拍岸的声响、沙滩的细腻触感,还能激发诗人的创作灵感。这种“绑定”特性,即图像与相关感官体验的同步,为识别视觉元素提供了丰富的指导依据。
理论上,构建一个统一的嵌入空间,旨在通过整合所有感官信息来学习视觉特征,应成为可能。但实际操作中,获取包含各类感官类型及其组合的配对数据,尤其是同一组图像对应不同感官体验的数据,显然难以实现。
近期,研究人员开发了一系列方法,旨在通过单一模态或少数几种视觉模态的匹配,学习与文本、音频等相协调的图像特征。尽管如此,最终形成的嵌入空间往往局限于特定的模态组合,限制了其应用范围。例如,视频-音频嵌入难以直接用于图像-文本任务,反之亦然。这一挑战的核心在于缺乏大规模多模态数据集,这些数据集能够充分融合各种模态信息。
今日,Meta AI发布了一项创新成果——ImageBind。这项技术巧妙地利用了多样化的图像配对数据,以学习共享的表示空间。不同于以往依赖于所有模态同时出现的数据集,ImageBind通过图像的绑定特性,只需将每个模态的嵌入与图像嵌入对齐,就能迅速实现多模态的整合与对齐。这一突破性进展,为跨模态应用提供了更灵活、高效的可能性。