撰写人 | 白鸽
编辑 | 王一粟
在过去的年度里,人工智能生成内容(AIGC)技术的迅速发展,特别是在算法创新与实践运用方面,为中国云服务提供商带来了显著影响。步入2023年首季,大型模型企业对于云端存储的需求展现出显著的增长态势。
在4月8日举办的腾讯云AIGC云存储解决方案的升级发布会中,腾讯云存储负责人马文霜预判,AIGC对云服务的需求将呈现爆炸式的增长趋势。
马文霜以幽默的口吻提及:“这些企业或许正享受着更多的投资机遇。”
随着多模态技术的演进与应用的快速扩张,大型模型的训练及推断面临了新的挑战。从以语言和图像为主的GPT系列,到视频生成模型Sora的出现,大型模型的参数规模呈现指数级攀升。以ChatGPT为例,其参数量从GPT-2时期的10亿增长至GPT-4的1.8万亿,Sora等多模态技术的发展使得数据处理量激增,目前我们仍处于视频生成模型的初级阶段。
参数规模的扩大,对云端存储的需求随之提升,涵盖数据量与传输速率等关键指标。若云端存储能力无法满足大型模型的需求,将直接影响模型的训练效率与推断效果。
在大型模型快速迭代的背景下,企业愈发重视云存储作为核心基础设施的角色。然而,在AIGC时代,理想的云存储技术应如何定位?
在竞争激烈的环境中,大型模型企业致力于优化算力、参数数量与更新速度。例如,百川智能在初期每月推出新型大型模型升级,百度文心一言则在首发月内实现了四次技术版本的迭代。为了维持模型的更新频率与速度,确保数据训练流程的高效性至关重要。一旦任一环节出现故障,将导致训练周期延长,增加成本压力。
作为数据的基石,云存储不再仅限于“存储”,而是需要构建一条从“存储”到“应用”的高效路径。
腾讯云存储,自QQ空间起航,现已成为国内云服务领域的领军者之一(据沙利文报告),其经验值得行业借鉴。马文霜指出,AIGC数据训练过程中,云存储需具备四大核心能力:
基于以上四大能力,腾讯云AIGC云存储解决方案通过整合对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS与数据万象CI四款产品,将大型模型的数据清洗与训练效率提升一倍,大幅缩短整体训练时间。