超越GPT-4V，苹果多模态大模型上新！

【新智元报道】

【深度解析】苹果推出革新性多模态模型Ferret-UI，大幅增强屏幕理解与交互能力

苹果近期发布了一款名为Ferret-UI的多模态模型，这款模型旨在提升对屏幕信息的理解与互动体验。Ferret-UI在引用、基础与推理方面展现出卓越性能，预示着技术领域的重大进展。

亮点概览

技术革新与展望

技术细节解读

架构与功能：Ferret-UI基于Ferret模型构建，专为理解移动UI屏幕而优化。通过预先训练的图像编码器与投影层，模型能够生成屏幕的图像特征，支持高级任务处理。
数据集与任务定义：研究团队收集了iPhone与安卓设备的屏幕数据，并通过细化元素注释，构建了涵盖屏幕交互与视觉理解的丰富数据集。
模型训练：利用GPT-3.5 Turbo与GPT-4，Ferret-UI进行了高级任务的训练，通过详细描述、感知对话、交互对话与功能推理，实现了对屏幕信息的深入理解与高效交互。
实验验证：Ferret-UI在初级与高级任务上均表现出色，尤其是在屏幕元素的识别与功能推理方面，与GPT-4V相比取得了显著优势。
消融研究：研究显示，基本任务数据对模型性能的提升具有重要作用，特别是在增强视觉与空间理解方面，对高级任务的性能提升尤为关键。

结论

苹果的Ferret-UI不仅代表了多模态语言模型领域的重要进展，也为AI与人类交互方式带来了革命性的变化。随着更多应用的整合与优化，Ferret-UI有望在提升用户体验、推动技术发展方面发挥重要作用。

责任编辑：：艾提传播

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。