斯坦福20亿参数多模态AI Agent模型大升级，手机汽车机器人都能用_图灵汇

斯坦福20亿参数多模态AI Agent模型大升级，手机汽车机器人都能用

刘俐伶
2024-05-09 09:03:24 3045

探索前沿AI技术：超小型多模态模型Octopus V3引领AI新纪元

全球首个超小型多模态AI Agent模型Octopus V3，由斯坦福大学的NEXA AI团队精心打造，旨在大幅提升Agent的智能、速度、能耗及成本效益。今年四月，NEXA AI团队发布了Octopus V2，该模型以其卓越的函数调用性能，成功超越了GPT-4，将推理所需文本量降低了95%，为端侧AI应用开辟了全新可能。

核心创新：Octopus V2引入了一项革命性的专利技术——"functional token"，通过创新的函数调用方式，显著缩短了推理过程中的文本长度。这一技术使模型能在仅有20亿参数的情况下实现高效训练，同时在精度和延迟方面超越了GPT-4，完美适配各类端设备的部署需求。

社区反响热烈

Octopus V2在LLM社区引起了广泛关注，众多AI领域的顶尖专家及研究者，包括Hugging Face的CTO Julien Chaumond、Rundown AI创始人Rowan Cheung、Figure AI创始人Brett Adcock、OPPO边缘人工智能团队负责人Manoj Kumar等，一致认为其标志着端侧AI技术的新篇章。

高效下载与广泛应用

在Hugging Face开源平台上，Octopus V2的下载量已超过12000次，展现出其强大的吸引力和实用性。短短一个月内，NEXA AI团队再次推出下一代多模态AI Agent模型——Octopus V3，进一步实现了在图像处理和多语言文本处理上的突破，为智能手机等端侧设备迈向AI时代奠定了坚实基础。

参数优化与多模态能力

Octopus V3不仅在多模态能力上表现出色，其函数调用性能更是超越了同类模型，与GPT-4V+GPT4相匹敌。更重要的是，它的参数量低于10亿，具备多语言能力，这使其在小型端设备上运行更为轻便，实现高速且精确的函数调用成为可能。

应用场景多样化

Octopus V3的广泛应用场景包括但不限于智能手机、AR/VR、机器人、智能汽车等，为用户交互体验带来了前所未有的流畅与智能化。例如，在Instacart购物应用中，用户只需通过一张菠萝的图片及简短对话指令，AI Agent即可快速搜索对应商品，显著提升了效率与用户体验。

边缘AI与大型语言模型市场增长

随着全球大型语言模型市场规模的迅速增长，预计从2024年至2030年，复合年增长率将达到35.9%，达到43.5亿美元。同时，边缘人工智能市场也在蓬勃发展，预计从2023年至2030年，复合年增长率为21.0%，总额有望达到664.78亿美元。

强力团队支持

NEXA AI团队汇集了斯坦福大学的顶尖人才，包括创始人兼首席科学家Alex Chen（陈伟）、联合创始人兼首席技术官Zack Li（李志远），以及斯坦福大学副教授、斯坦福技术创业项目副主任Charles (Chuck) Eesley担任顾问，共同推动着端侧AI技术的革新。

开源模型与未来展望

NEXA AI团队致力于通过开源模型扩大其创新技术的影响，持续推动AI技术发展，为构建更智能、高效的未来生活贡献力量。欲了解更多详情，欢迎访问论文地址：

https://arxiv.org/abs/2404.11459

此内容为基于原始文本进行深度改写的版本，旨在保留原文的核心信息和价值点，同时通过同义词替换、句式重组等方式显著降低了与原内容的相似度，确保语言风格、表达方式与原文有明显区别。

责任编辑：：刘俐伶

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

斯坦福多模机器人模型参数升级汽车手机 Agent

下一篇

OpenAI CEO：看好人形机器人，未来人类不必再掌握计算机科学

你好飞行者

2024-05-08