在近期举办的A2M人工智能创新峰会上,腾讯云副总裁李力宣布推出专为公有云设计的成熟实践转化而成的专有云智算套件。此套件整合了一系列关键能力,包括高性能计算集群构建模块、智能高性能网络IHN、高并发文件存储系统TurboFS、算力加速框架Taco以及GPU算力共享技术等核心组件,旨在帮助企业基于自有硬件搭建高性能的专有智算云。
腾讯云智算套件提供了一体化的云原生能力,帮助企业高效地利用算力卡资源,克服算力集群中的“木桶短板效应”。通过自主研发的高性能智能网络IHN,实现了算力卡之间持续稳定的高带宽通信,而高性能文件存储系统则有效解决了海量数据存储的读写性能瓶颈。
在调度架构层面,腾讯云融合了算力加速框架Taco和GPU算力共享技术qGPU。Taco通过多层级优化,显著提升了大模型训练和推理业务的性能。qGPU技术则能够精准地在算力集群内部对算力卡进行切分,从而提升卡的使用效率。
腾讯云TCE凭借与公有云同源同构的技术架构及“一云多芯”能力,灵活支持不同规模的云平台构建,同时有效屏蔽底层硬件差异,更好地管理不同类型硬件设施。这套专有云智算套件源自腾讯云公有云算力集群HCC的成熟实践经验,为大模型训练、自动驾驶、科学计算等领域提供了高性能、高带宽和低延迟的集群算力。
随着AI从辅助技术转变为引领行业变革的关键力量,云计算与AI的深度融合催生了AI原生云这一全新形态。腾讯云联合Gartner发布的《AI原生云建设与加速指南》提出,AI原生云注重将AI技术深度融入云服务的每一层面,并强调开放性和生态系统构建,通过丰富的API和SDK支持AI原生服务和应用的开发。
腾讯云围绕AI原生云,为客户提供涵盖基础设施、模型、工程、应用、全栈安全防护的五大核心能力。基础设施层,构建了支持多GPU卡型的统一算力平台,通过技术优化提升模型训练效率和硬件资源利用率。工程平台层面,提供了GPU开发空间、数据检索增强套件、机器学习工具链以及AI助手等功能,以提升开发效率。在模型层,腾讯自研大模型混元展示了强大的性能,部分中文能力接近GPT-4水平,并在多个领域取得显著进步。此外,腾讯云支持通过分布式云方式部署,为用户在多云、混合云场景下提供一致的产品服务和体验。
目前,众多头部大模型企业,如百川智能、MiniMax、智谱科技、元象等,已采纳腾讯云的解决方案,充分验证了其在私有算力环境下的强大效能与适应性。腾讯云通过专有云智算套件及AI原生云战略,为企业提供全方位的支持与赋能,推动AI技术在各行各业的深入应用与创新。