9月 28
  1. 今天
  2. 星期六
27:00
grade

技术分享:大模型时代的AI计算基石——Ray

概览

在掘力计划的系列活动之一《解析大语言模型的训练和应用》中,来自蚂蚁(计算智能技术部)的Ray团队开源负责人宋顾杨,分享了题为《Ray: 大模型时代的AI计算基础设施》的技术洞察。此次分享聚焦于Ray这一分布式计算引擎框架,揭示其如何作为AI时代的计算基础设施,以及在实际应用中的角色与成就。

Ray的演进与定位

Ray最初是一个专注于强化学习的框架,随着时间推移,其功能不断扩展,逐渐转型成为面向AI的新一代AI计算框架及通用分布式计算平台。宋顾杨所在的团队自2017年起便采用Ray作为技术支持,并为框架内核贡献了超过26%的代码量,使得Ray在蚂蚁集团的多个应用场景中得到广泛应用,为集团的发展贡献了重要力量。

核心能力与优势

Ray以其强大的优化能力著称,无论是从效率还是功能上看,都显著超越传统的云原生计算方式。其核心设计包括:

  • 灵活的计算模式:实现单机编程概念的分布式化。
  • 无状态计算单元:通过简单注解即可将本地方法远程执行。
  • 有状态计算单元:轻松部署本地类至远程机器,实现类Serverless。
  • 分布式对象:实现多节点间对象传输与自动垃圾回收。
  • 多语言与跨语言支持:兼容Java、Python、C++等语言,并支持跨语言调用。
  • 资源调度与自动故障恢复:声明式任务资源分配与组件自动恢复机制。
  • 动态环境配置:根据不同任务需求,声明特定运行环境。
  • 全面运维与监控:提供完善运维与可视化监控功能。

开源生态与应用案例

Ray支持广泛的AI生态,几乎覆盖了市场上所有主流框架,简化了框架集成流程。通过集成这些框架,Ray能够将AI管道执行过程整合为数据预处理、深度学习、深度调优和在线推理四大关键步骤。在大模型训练领域,Ray已被多个大型项目采用,如来自全球各地的企业级应用,其中包括了广为人知的ChatGPT-4。

结语

Ray不仅提供了强大而高效的计算能力,还构建了一个开放的生态系统,吸引了来自世界各地的开发者和企业的关注。如果你对Ray框架感兴趣,不妨访问其官方网站获取更多信息,深入了解这一推动AI时代发展的关键技术基础设施。