天翼云智算基础设施平台“云骁”,驱动智算产业创新发展
作者头像
  • 刘雯蕊
  • 2023-11-25 00:00:00 3015

2023年11月24日,GCOS全球云原生与开源峰会在北京圆满落幕。天翼云科技有限公司的资深技术专家李祥红在此分享了天翼云智算基础设施平台“云骁”的核心功能及其实施经验,为加速构建智能计算基础设施与促进行业智能化转型提供了宝贵的参考。

随着今年大模型应用的迅速扩张,人工智能领域迎来了前所未有的发展机遇。这一趋势不仅催生了应用场景的多元化拓展,也伴随着数据规模的爆炸式增长,对支撑大规模智能计算的基础设施提出了更高的要求。面对这一挑战,天翼云推出了智算基础设施平台“云骁”。依托天翼分布式架构云底座的强大支持与丰富的计算、存储、网络资源,结合天翼云操作系统TeleCloudOS4.0的技术优势,“云骁”为用户提供了一体化的软硬件解决方案。这一平台能够提供高级别的算力供应、资源的高效利用,以及一站式提供多种计算能力服务,显著提升了数据处理、训练与推理的效率,适应了智算、超算、通用算力服务的多样需求。

“云骁”致力于构建高性能的存储与网络服务。在存储层面,它通过块存储服务、并行文件服务、分布式文件服务以及对象存储服务,为客户提供了全面的端到端存储解决方案。在提升网络速度方面,其百GB带宽RDMA无损网络技术实现了计算节点与存储间的高效数据传输,同时通过自动化部署存算分离高速网络与多租户网络隔离技术,确保了数据的安全性。此外,该平台还支持多场景下的存储访问,包括高速访问并行文件存储和云上对象存储等多种应用需求。

“云骁”具备强大的算力整合、调度加速与运营管理能力。在整合层面,它提供了一站式的软硬件解决方案,涵盖了模型开发、训练、推理、算力加速与运维等关键环节。通过基于硬件网络的拓扑感知调度与故障感知调度,提高了通信效率和训练效率。借助数据加速、单机计算加速、显存优化、分布式并行加速与通信优化等技术,加速了AI训练与推理进程,有效降低了成本。在运营管理方面,它支持对训练与推理过程的效率分析与优化,提供全面的日志与监控工具,方便用户进行运维与全流程监控。

为了提升智算服务体验,“云骁”采用了先进的服务架构,支持微服务拆分,以满足用户对便捷部署、高可用性与负载均衡的需求。通过多层级的资源管理与供给能力,如Region、AZ、集群与多租户管理,用户可以轻松调用资源。此外,它提供多样化的接入方式,包括Web UI与API等,以提供个性化的接入服务。内置的全自研任务管理与调度系统,包括任务系统、任务控制器与调度器,不仅实现了多场景与全流程的任务管理,还简化了用户对智算能力的调用,为各类智慧应用的建设提供了有力支撑。

目前,“云骁”已在多个行业场景中成功部署,推动了企业的快速成长。特别是在大模型领域,通过为思必驰提供AI基础设施层服务,显著缩短了语音识别训练周期并降低了算力成本。此外,它还在为人工智能研究机构、汽车行业等客户提供大模型训练与微调服务,有效降低了科研创新的成本。

    本文来源:图灵汇
责任编辑: : 刘雯蕊
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
天翼云智基础设施驱动创新产业发展平台云骁”
    下一篇