刚刚过去的春节是一个特别的时期,我在这里向大家拜个晚年。想必各位作为各大公司的技术骨干,也在积极利用技术力量支持各方面的工作,共同抗击疫情。希望大家注意个人和家庭防护,多做运动,增强免疫力。让我们一起为武汉加油,希望疫情尽快结束。
下面的文章是根据美团配送资深技术专家郑艳伟在2019年SACC(中国系统架构师大会)上的演讲整理而成,主要介绍了美团配送技术团队在建设一站式机器学习平台过程中的经验与探索,希望能为从事相关领域的同行提供一些帮助。
AI技术目前是互联网行业的热点话题,无论是老牌科技巨头还是新兴流量平台都在大力发展AI技术,以提升自身业务的竞争力。配送作为外卖平台闭环链条中重要的一环,配送效率和用户体验是关键因素。随着订单量的增长、骑手数量的增加和配送场景的复杂化,配送中的各种算法面临着快速迭代、提升效果和精确预测等挑战。如何高效地界定算法和工程的边界,提升算法迭代速度,快速准确地评估算法效果,是当前面临的重大问题。为此,美团配送技术团队分享了他们在建设一站式机器学习平台过程中的一些经验和探索。
截至2019年7月,美团外卖的日订单量已经突破3000万单,占据显著的市场份额。围绕用户、商家和骑手,美团构建了全球领先的即时配送网络,形成了行业领先的智能配送系统,成为全球最大的外卖配送平台。为了提高配送效率和用户体验,解决大量复杂的机器学习和运筹优化问题,美团需要在体验、效率和成本之间找到平衡。
为了应对上述挑战,美团配送需要一个强大的、易用的机器学习平台来辅助算法开发,减轻繁琐的工程化开发负担,使开发者能够集中精力在算法策略的迭代上。市面上已有不少优秀的机器学习平台,既有大公司的商用产品,也有开源项目。美团配送的一站式机器学习平台应运而生,旨在提供端到端的服务,帮助算法人员专注于算法策略的迭代。
美团配送机器学习平台的演进分为两个阶段:初期的MVP阶段和后来的平台化阶段。MVP阶段注重灵活性和快速迭代能力,而平台化阶段则更注重业务增长和系统稳定性。
在这个阶段,各部门独立建设自己的机器学习工具集,各自迭代,以支持个性化需求。虽然这种方式非常灵活,但随着业务规模的扩大,重复造轮子和特征口径混乱的问题逐渐显现出来。
为了避免重复劳动,统一特征计算口径,美团配送组建了一个算法工程小组,建设一个统一的机器学习平台。该平台集成了Hadoop/Yarn、Spark ML、XGBoost和TensorFlow等工具,并具备扩展性,方便接入其他框架。平台化阶段的主要目标是提升研发效率,统一业务目标和特征计算口径,标准化数据体系。
图灵平台是美团配送机器学习平台的高级阶段,旨在提供一站式服务,覆盖算法调研、开发、上线和效果评估的全流程。平台包括数据处理、特征生产、样本生成、模型训练、模型评估、模型发布、在线预测和效果评估等环节。
离线训练平台通过可视化界面简化了多个训练框架的使用,降低了算法开发的门槛。平台支持多种组件,包括输入、特征预处理、数据集加工、机器学习模型和深度学习模型等。通过生成DAG图,算法人员可以更灵活地组合组件,生成完整的训练任务。
模型管理平台集成了Spark ML、XGBoost和TensorFlow等框架,支持多种模型类型。平台提供了模型注册、发现、部署、切换和降级等功能,并支持高可用的线上预测服务。本地和远程部署形式分别适用于不同的业务场景。
离线特征平台将离线特征数据消费到线上,提供在线获取特征的服务,支撑高并发和快速迭代。通过特征组的概念,平台优化了特征存储和获取流程,减少了Key的数量。
实时特征平台负责实时收集和处理线上数据,生成算法所需的特征,并实时更新。平台的设计考虑了即时配送的高实时性需求,确保特征的及时性。
AB实验平台通过科学的分流和评估方法,帮助算法人员更快地验证算法效果。平台分为事前AA分组、事中AB分流和事后效果评价三个阶段,特别是针对即时配送领域,设计了按时间和区域轮转的分流方法,确保实验的公平性和准确性。
目前,图灵平台已经支撑了美团配送及其他业务部门的算法训练、在线预测和AB实验等工作,显著提高了算法开发效率。未来,美团将继续加强深度学习的支持,推进在线预测平台化,进一步解耦算法和工程,提高系统的灵活性和效率。
郑艳伟,美团配送技术团队资深技术专家。
如果你对图灵平台感兴趣,欢迎加入我们。美团配送技术团队正在招聘调度履约、LBS、机器学习平台和算法工程等方向的技术专家和架构师,共同建设全行业最大的即时配送网络,迎接智能配送时代的到来。感兴趣的同学请将简历发送至tech@meituan.com(邮件标题注明:美团配送技术团队)。