AIGC时代,需要什么样的云存储?
作者头像
  • 李秦荣
  • 2024-04-11 09:15:30 3106

导览

撰写人 | 白鸽
编辑 | 王一粟

在过去的年度里,人工智能生成内容(AIGC)技术的迅速发展,特别是在算法创新与实践运用方面,为中国云服务提供商带来了显著影响。步入2023年首季,大型模型企业对于云端存储的需求展现出显著的增长态势。

在4月8日举办的腾讯云AIGC云存储解决方案的升级发布会中,腾讯云存储负责人马文霜预判,AIGC对云服务的需求将呈现爆炸式的增长趋势。

马文霜以幽默的口吻提及:“这些企业或许正享受着更多的投资机遇。”

随着多模态技术的演进与应用的快速扩张,大型模型的训练及推断面临了新的挑战。从以语言和图像为主的GPT系列,到视频生成模型Sora的出现,大型模型的参数规模呈现指数级攀升。以ChatGPT为例,其参数量从GPT-2时期的10亿增长至GPT-4的1.8万亿,Sora等多模态技术的发展使得数据处理量激增,目前我们仍处于视频生成模型的初级阶段。

参数规模的扩大,对云端存储的需求随之提升,涵盖数据量与传输速率等关键指标。若云端存储能力无法满足大型模型的需求,将直接影响模型的训练效率与推断效果。

在大型模型快速迭代的背景下,企业愈发重视云存储作为核心基础设施的角色。然而,在AIGC时代,理想的云存储技术应如何定位?

AIGC数据训练的崭新视角与挑战

在竞争激烈的环境中,大型模型企业致力于优化算力、参数数量与更新速度。例如,百川智能在初期每月推出新型大型模型升级,百度文心一言则在首发月内实现了四次技术版本的迭代。为了维持模型的更新频率与速度,确保数据训练流程的高效性至关重要。一旦任一环节出现故障,将导致训练周期延长,增加成本压力。

作为数据的基石,云存储不再仅限于“存储”,而是需要构建一条从“存储”到“应用”的高效路径。

腾讯云存储,自QQ空间起航,现已成为国内云服务领域的领军者之一(据沙利文报告),其经验值得行业借鉴。马文霜指出,AIGC数据训练过程中,云存储需具备四大核心能力:

  1. 数据采集:提供大容量、低成本、高可靠的存储基础;
  2. 数据清洗:支持多种协议,实现GB乃至TB级别的数据访问;
  3. 数据训练:提供TB级带宽与百万级IOPS,保障训练过程中Checkpoints的快速保存,优化CPU使用效率,确保训练过程的连续性;
  4. 数据应用:集成丰富数据审核功能,确保生成内容合法合规。

基于以上四大能力,腾讯云AIGC云存储解决方案通过整合对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS与数据万象CI四款产品,将大型模型的数据清洗与训练效率提升一倍,大幅缩短整体训练时间。

    本文来源:互联网
责任编辑: : 李秦荣
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
什么样存储需要时代AIGC
    下一篇