Ray: 大模型时代的AI计算基础设施

27:00

技术分享：大模型时代的AI计算基石——Ray

概览

在掘力计划的系列活动之一《解析大语言模型的训练和应用》中，来自蚂蚁（计算智能技术部）的Ray团队开源负责人宋顾杨，分享了题为《Ray: 大模型时代的AI计算基础设施》的技术洞察。此次分享聚焦于Ray这一分布式计算引擎框架，揭示其如何作为AI时代的计算基础设施，以及在实际应用中的角色与成就。

Ray的演进与定位

Ray最初是一个专注于强化学习的框架，随着时间推移，其功能不断扩展，逐渐转型成为面向AI的新一代AI计算框架及通用分布式计算平台。宋顾杨所在的团队自2017年起便采用Ray作为技术支持，并为框架内核贡献了超过26%的代码量，使得Ray在蚂蚁集团的多个应用场景中得到广泛应用，为集团的发展贡献了重要力量。

核心能力与优势

Ray以其强大的优化能力著称，无论是从效率还是功能上看，都显著超越传统的云原生计算方式。其核心设计包括：

灵活的计算模式：实现单机编程概念的分布式化。
无状态计算单元：通过简单注解即可将本地方法远程执行。
有状态计算单元：轻松部署本地类至远程机器，实现类Serverless。
分布式对象：实现多节点间对象传输与自动垃圾回收。
多语言与跨语言支持：兼容Java、Python、C++等语言，并支持跨语言调用。
资源调度与自动故障恢复：声明式任务资源分配与组件自动恢复机制。
动态环境配置：根据不同任务需求，声明特定运行环境。
全面运维与监控：提供完善运维与可视化监控功能。

开源生态与应用案例

Ray支持广泛的AI生态，几乎覆盖了市场上所有主流框架，简化了框架集成流程。通过集成这些框架，Ray能够将AI管道执行过程整合为数据预处理、深度学习、深度调优和在线推理四大关键步骤。在大模型训练领域，Ray已被多个大型项目采用，如来自全球各地的企业级应用，其中包括了广为人知的ChatGPT-4。

结语

Ray不仅提供了强大而高效的计算能力，还构建了一个开放的生态系统，吸引了来自世界各地的开发者和企业的关注。如果你对Ray框架感兴趣，不妨访问其官方网站获取更多信息，深入了解这一推动AI时代发展的关键技术基础设施。

利空

利好

首页 - 快讯 - 快讯详情