摘要:
人工智能在识别日常物体方面展现出显著进步,如谷歌Photos等应用能辨识长凳、鸟类或树木。然而,面对更为复杂的场景,如在两棵树间飞行的鸟儿,或是鸟儿下方的长凳及其左侧的树木,AI则显得力不从心。麻省理工学院的研究人员正致力于开发一种创新的机器学习模型,旨在改善AI理解物体间相互关系的能力。
正文:
麻省理工学院计算机科学与人工智能实验室(CSAIL)的博士生杜伊伦,作为论文的共同作者之一,在采访中阐述了这一研究的核心理念:“在我们的认知中,理解场景并不局限于单一物体的位置描述;而是通过物体间的相互作用来构建对环境的理解。”他进一步指出,构建一个能够解析和理解物体间关系的系统,将使AI能够更高效地操作和改造其周围的环境。
此模型的工作流程分为两步:首先,识别场景中的各个元素;其次,逐个分析物体间的特定关系,如“树位于鸟左侧”。最终,所有关系被整合,形成对整个场景的综合理解。此外,该模型还具备逆向操作能力,即从文字描述中生成图像,即便物体间的关系有所变动。这类似于正向过程,每次生成一个关系,再整合所有已知信息。
相较于其他系统一次处理所有关系的方法,杜伊伦指出,该模型在处理具有多个关系的复杂描述时表现出色,能够灵活适应不同场景,构建更多层次的关系模型。这一优势在人类实验中得到了验证,91%的参与者认为新模型在表现上优于以往。
未来,研究团队计划将此模型应用于更复杂的实际场景中,并进行实地测试,以进一步验证其在现实世界中的应用潜力。这一研究成果有望为人工智能在复杂环境下的导航提供有力支持,推动AI技术向着更加智能化、人性化的方向发展。