京数科技参加浦东新区第十五届学术年会分会场6G通信技术展望专场
作者头像
  • 覃倩莹
  • 2024-07-01 00:00:00 2522

探索大模型新纪元:从堆叠算力到智能端侧的革新

全球AI战事:新融资浪潮

六月,国际科技界掀起了一场关于AI独角兽的融资热潮,聚焦在大模型领域。加拿大Cohere、法国Mistral AI与日本SakanaAI相继宣布了巨额融资计划,展现了AI领域的最新动态与趋势。

  • Cohere:以50亿美元的估值,揽获4.5亿美元融资,英伟达、思科等重量级合作伙伴的加入,彰显了其在大模型领域的实力。
  • Mistral AI:6亿欧元的融资,由General Catalyst领投,展示了其在技术上的突破与市场潜力。
  • SakanaAI:传出即将收获超过1亿美元的融资,估值飙升至约11.5亿美元,凸显了AI领域竞争的激烈与创新的活力。

新趋势:小参数,低成本,端侧“突围”

这一系列事件揭示了一个共性趋势:国际投资界正押注于以小参数量、低成本实现模型在端侧的有效应用,以此“突围”OpenAI的主导地位。

  • Cohere的Aya 23:新一代模型以80亿和350亿参数规模,支持多达23种语言,展示了其在多语言处理上的强大能力。
  • Mistral AI的Mistral 7B:以70亿参数击败了开源大语言模型Llama 2,其开发成本仅为2000万欧元(约2200万美元),远低于GPT-4的开发成本。
  • SakanaAI的模型合并技术:通过自动化“进化”算法,大幅度减少了对算力资源的需求,将数据学习周期缩短数百倍,展现了其在提升效率方面的创新。

AI盛宴的转变:从堆算力到高效能

这场AI盛宴已不再是单纯依赖算力和数据堆砌的“烧钱”游戏,而是转向了追求高效能、低能耗的大模型发展。各家公司纷纷探索在现有架构之外的可能性,力求突破传统界限,寻找更适合实际应用的创新解决方案。

寻找Transformer之外的可能:“天选”端模

面对全球范围内对底层技术架构创新的迫切需求,创业者刘凡平敏锐地捕捉到了这一趋势。他认为,寻求超越Transformer架构的解决方案,以适应更高效能、低能耗的需求,是行业发展的必然方向。

  • 技术革新与产品机遇:新技术的涌现不仅带来了新产品、新市场的机遇,也让刘凡平对行业的未来充满期待。他看到了技术变革带来的可能性,同时也保持着对潜在颠覆的警觉。

Rocker AI的进化之路

自成立以来,Rocker AI就未受传统Transformer架构的束缚。面对“百模大战”的火热,刘凡平及其团队意识到,Transformer架构在训练数据量要求极高、资源消耗大等问题上的局限性。他们着手探索重新设计大模型的可能性,致力于构建更适合实际应用、成本效益更高的AI解决方案。

  • 非Attention机制的通用自然语言大模型:Rocker AI推出的Yan1.0模型,通过替换Attention机制,显著降低了对算力的需求,实现了百亿级参数下的千亿级性能效果,同时提高了训练效率和推理吞吐量。

原生无损部署与端侧模型的天选之选

Rocker AI不仅在算力需求上取得了突破,还在模型部署方式上进行了创新。Yan模型能够原生无损地部署到主流消费级CPU等端侧设备上,这不仅打破了传统大模型依赖有损压缩的部署方式,还展示了模型在设备端运行的灵活性和高效性。

同步学习:让模型边跑边进化

在Yan1.2版本中,Rocker AI进一步实现了模型在更低算力、更普适设备上的部署,并探索了模型在端侧的个性化即时学习能力。通过基于仿生神经元驱动的选择算法,Yan模型不仅降低了功耗,还具备了部分更新与持续学习的能力,实现了模型的边跑边进化。

未来展望:构建设备端智能生态

随着Rocker AI对Yan2.0模型的持续优化与升级,模型将逐步融入更多模态输入,实现全模态实时人机交互。这一进展不仅意味着模型在感知、认知、决策、行动等能力上的全面提升,也为构建个性化的智能生态系统提供了可能。

在这个AI发展的新时代,Rocker AI作为创新者与实践者,正引领着从堆叠算力到构建真正智能端侧的革命,致力于推动AI技术的普惠化,实现更具个性化、更高效能的AI应用愿景。

    本文来源:图灵汇
责任编辑: : 覃倩莹
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
浦东新区分会场通信技术专场年会展望学术参加科技十五
    下一篇