人大系多模态模型迈向AGI:首次实现自主更新,还在写真视频生成上好于Sora
作者头像
  • 乃佳萱
  • 2024-04-30 00:00:00 3047

智子引擎发布全新多模态大模型Awaker 1.0,迈向通用人工智能

中关村论坛通用人工智能平行论坛上,智子引擎宣布推出全新多模态大模型Awaker 1.0,这是其在通用人工智能领域的重要里程碑。相较于智子引擎的前一代产品ChatImg,Awaker 1.0采用了创新的MOE架构,并具备了自主更新能力,成为业内首个实现“真正”自主更新的多模态大模型。

Awaker 1.0的核心特性

Awaker 1.0是一个融合视觉理解和生成的多模态大模型。它在理解侧与数字和现实世界互动,通过执行任务反哺数据,实现持续的更新和训练;在生成侧,则能够创造出高质量的多模态内容,模拟现实世界,为理解侧提供丰富的训练素材。这一独特的自主更新能力使得Awaker 1.0适用于更广泛的应用场景,包括但不限于AI代理、具身智能、综合治理及安防巡检等领域。

自主更新能力与行业应用

Awaker 1.0的自主更新能力使其在视觉问答、业务应用、描述、推理和检测任务上表现出色,整体性能超越了当前国际领先的多模态大模型。通过结合多任务MOE架构,Awaker 1.0不仅继承了前代模型的基础能力,还能学习特定任务所需的独特技能,显著提升了多项任务的处理效率。

多模态大模型与具身智能的结合

多模态大模型与具身智能的结合被视为通向通用人工智能的可行途径。Awaker 1.0的自主更新机制,包括数据主动生成、模型反思评估和连续更新,使其能够与具身智能系统协同工作,通过观察和执行任务来不断学习和适应新环境。这种结合不仅提高了智能体的适应性,还有望推动其发展至创造性的阶段。

VDT:现实世界的模拟器

Awaker 1.0的生成侧搭载了智子引擎自主研发的视频生成底座VDT,这一工具被比喻为现实世界的模拟器。VDT不仅在arXiv网站发布,领先于OpenAI的Sora,其学术论文也被顶级AI会议ICLR 2024接受。VDT的创新之处在于将Transformer技术应用于视频生成,展现出强大的时间依赖性捕获能力,能够模拟复杂的物理现象和人物动态。

未来展望

随着Awaker 1.0的发布,智子引擎团队正向着实现通用人工智能的目标迈进。团队坚信,除了参数规模的扩大外,AI的自主学习能力同样关键。通过Awaker 1.0的自主更新机制,智子引擎旨在加速多模态大模型行业的进步,最终实现通用人工智能,开启人工智能发展的新篇章。

    本文来源:图灵汇
责任编辑: : 乃佳萱
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
模态大系上好迈向生成模型写真自主实现更新
    下一篇