AI技术革新与网络算力需求的激增
当前,人工智能(AI)大模型正成为技术领域的关键驱动力,以ChatGPT为代表的人工智能生成内容(AIGC)应用呈爆炸式增长,显著提升了对网络的需求量级。AI技术的发展不仅对网络的带宽和实时性提出了更高的要求,还因大规模AI集群训练所需的海量算力,带来了智算节点间通信的巨大挑战。
全球范围内,AI经济规模预计将达万亿级别,网络与算力作为数字基础设施的核心要素,在AI的加持下,将进一步推动实体与数字经济的高质量发展,追求极致高性能网络成为AI研究的重点方向之一。
青云科技,作为专业的云服务供应商,在服务于AI科技行业过程中,面临了一系列机遇与挑战:
数据采集瓶颈与边缘挑战
- 多样数据采集问题:在服务AI客户时发现,NLP、CV、GIS、ASR等领域存在数据采集难题。边缘侧数据如何高效、安全、及时传输至数据中心,以及数据加密过程中的复杂问题,成为关键挑战。
- 边缘场景不确定性:边缘网络的不稳定因素,如弱网、断电、通信异常等,影响数据传输的及时性与数据安全隐私性。同时,物联网设备与硬件的多元化发展,边缘设备与物联网网络的多样性环境,以及芯片层、操作系统层的不同接口协议兼容性问题,构成了边缘场景的挑战。
AI训练与容器整合瓶颈
- 多场景业务整合:AI训练与推理高性能计算、容器云平台计算面临整合难题。随着AI大模型的不断发展,如何更好地管理、部署模型应用,以及模型升级与应用,成为亟待解决的问题。
青云边缘侧自主研发的EdgeWize平台,通过适配多种硬件与操作系统,整合边缘端多侧设备,同时提供计算、边缘计算能力,利用SD-WAN高可用链路进行数据传输,确保数据传输的可靠性和安全性。针对边缘加密数据,青云科技提供多种加密协议,保障数据传输的安全性,依托云上多Region、广域网络环网构建平台,确保用户连续性和可靠性。
AI容器业务普及与解决方案
- QKE容器引擎:支持一键式部署,简化集群服务的使用,提供操作便捷、易于管理的界面。
- SD-WAN网络组件:优化边缘应用网络访问路径,满足边缘应用的多样化网络需求。
- 云服务与管理:从边缘侧到IaaS层K8s管理业务集群,再到PaaS平台配套服务与管理,青云科技依托高效网络能力,为用户提供全面服务保障。
AI智算平台与算力中心建设
- AI智算平台:以解决多样化算力需求、智能化算力调度管理与简化运维管理为核心,提供数万张GPU卡资源管理,优化通信链路,支持多卡多芯异构云平台,加速国产GPU芯片替代,提高单卡使用调度利用率,实现系统高效运行。
- 跨区域混合组网架构:在数据中心网络建设中,青云科技详细划分计算管理节点、存储网络与GPU网络集群,通过SDN网络技术实现计算资源、存储资源、对象存储的高效管理,支持多地高速互联,满足网络层面的控制需求。
AI智算平台的优势
- 支持大规模GPU卡资源的高效管理。
- 优化通信链路,缩短数据传输路径。
- 支持多卡多芯异构云平台,加速国产GPU芯片替代。
- 提高GPU资源利用率,实现系统最大化效率。
- 提供动态灵活、弹性的GPU资源分配。
- 多样化的存储支持,包括自研U10000对象存储、并行文件存储EPFS等。
- 提供多样的网络接入方式,包括用户公网加密链路、自研SD-WAN互联网网络与专线网络接入。
- 上层MaaS产品服务,支撑用户快速上线预训练、通用及行业模型,加速AI应用开发。
未来展望
- 一站式交付整体环境,支持高性能存储挂载。
- 融合更多模型提供商,丰富模型仓库选择。
- 探索垂直行业与行业模型,深化AI应用。
- 坚持创新、合作、开放、共赢的态度,携手合作伙伴与客户,共创数字世界的未来。