基于迁移学习的基础设施成本优化框架,火山引擎数智平台与北京大学联合论文被KDD收录
作者头像
  • 冯培艺
  • 2023-08-15 00:00:00 3007

摘要:

近期,第29届国际知识发现与数据挖掘大会(KDD)在美国加州长滩召开,其中,一篇由火山引擎数智平台、北京大学计算机学院与蒙特利尔学习算法研究所联合提交的论文——《Rover: 通过泛化迁移学习的在线Spark SQL调优服务》成功入选。该论文的共同第一作者为北京大学的沈和火山引擎数智平台的任鑫宇杨,通讯作者则是北京大学的崔斌教授。

背景与挑战:

KDD自1989年起,成为数据挖掘领域内历史最为悠久且影响力最大的顶级学术会议,吸引了跨学科研究者的积极参与,涵盖统计、机器学习、数据库等多个领域。随着Apache Spark在工业界的广泛应用,字节跳动内部每天需消耗大量计算资源,具体包括数百万个CPU核心与数十PB的RAM。然而,由于默认配置的局限性以及任务环境的多样性,大量的计算资源常常因配置不当而被浪费。

解决方案与创新:

面对上述挑战,火山引擎的工程师与北京大学的研究团队携手设计出一种结合机器学习与专家知识的基础设施成本优化框架,即Rover。该框架以贝叶斯优化为核心,利用高斯过程作为代理模型,学习配置参数与任务成本之间的关系。通过引入可信赖的迁移学习机制,Rover不仅能够从专家知识中获取安全性与可解释性,还能从历史相似任务中加速收敛过程,实现自动化参数调优,以优化例行计算任务的资源配置,同时确保服务质量不受影响。

成果与应用:

Rover在公开任务集与字节跳动内部实际部署中表现出色,相较于市场上其他先进解决方案,在收益极限、收敛速度与安全性方面均有所提升。经过验证,Rover已成功应用于字节跳动上万个Spark数据开发任务,有效降低了700万元的年度资源成本。未来,Rover技术将在字节跳动的大数据计算基础设施中实现大规模部署,预期每年能节约近十亿元的成本,并有望通过火山引擎数智平台向外部企业提供通用优化器服务,适用于基础设施成本优化、线上算法超参数优化等多种应用场景。

扩展与贡献:

火山引擎数智平台(VeDI)作为新一代企业数据智能服务平台,旗下产品DataTester历经字节跳动十年实践,现服务于字节跳动内部的500多个业务线,同时也为美的、得到、凯叔讲故事等多家外部企业提供支持,助力企业实现科学决策,推动业务增长。此外,论文详情可查阅以下链接:论文地址

    本文来源:图灵汇
责任编辑: : 冯培艺
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
北京大学迁移火山基础设施框架收录基于优化成本联合
    下一篇