日前,KDD2021的论文录取结果已经公布。今年共收到1541篇有效投稿,最终有238篇论文被接收,接收率降至15.44%,较去年的16.9%有所下降。深兰科技的研究论文《AutoSmart: 一种针对时序相关表数据的高效自动机器学习框架》已被KDD2021收录。
该论文介绍了一个名为AutoSmart的框架,通过全自动特征工程、多表合并、模型调整和资源控制,为时序相关的表数据提供了高效的自动化机器学习解决方案。
在此之前,深兰科技已在多个国际顶级学术期刊和会议上发表了论文,包括一篇关于自适应集成学习方法的论文《Winning solutions and post-challenge analyses of the ChaLearn AutoDL challenge 2019》,该论文被顶级期刊TPAMI 2021收录,以及一篇以空气质量预测为主题的论文《AccuAir: Winning Solution to Air Quality Prediction for KDD Cup 2018》,该论文被KDD 2019 ADS轨道收录为口头报告论文。
ACM SIGKDD(国际数据挖掘与知识发现大会)是数据挖掘领域的顶尖学术会议,由中国计算机学会推荐为A类会议。自1995年以来,KDD已连续举办26届,今年将在新加坡举行。
论文详细介绍了AutoSmart框架的设计思路及其解决的问题。时序相关表数据是工业应用中最常用的数据类型之一,需要大量的人工特征工程和数据分析工作来提供准确的模型预测。因此,自动机器学习框架可以显著减少人工调优的工作量,使专家能够专注于更需要人类干预的任务,如问题定义、部署和业务服务。
然而,建立时序相关表数据的自动机器学习框架面临三大挑战:如何高效、自动地从多个表中提取有用信息及其关系;如何让框架自我调整,并在有限的时间和内存预算内运行;如何为多种任务提供通用解决方案。深兰科技提出的AutoSmart框架,通过端到端的自动化流程解决了这些问题。该框架结合了自动数据处理、表合并、特征工程和模型调整,并引入了时间和内存控制器,实现了高效的模型构建。
实验结果显示,AutoSmart框架在公开和未公开数据集上均表现出色,平均得分比其他团队高出4.14%至30.31%。大多数团队在不同数据集上的表现不稳定,而AutoSmart框架则保持了稳定的表现。
AutoSmart框架由以下几个模块构成: 1. 数据预处理; 2. 表合并; 3. 特征工程; 4. 模型调整; 5. 用于控制时间和内存使用的控制器。
为了充分利用表信息并减少内存消耗,特征工程被划分为四个顺序模块,每个模块使用LightGBM验证特征的有效性并进行特征选择。此外,深兰团队采用了基于先验知识的方法来快速获得超参数设置,而不是传统的贝叶斯优化方法,从而提高了效率。
最后,框架在给定时间预算的情况下,能够自动调整以达到最佳性能。实验结果表明,AutoSmart框架不仅能够在不同时间序列数据集上提供一致的优秀性能,还可以在时间和内存预算内高效地自我调整,并扩展到更大规模的数据集。
该框架的代码已公开发布,便于工业界应用。GitHub链接为:https://github.com/DeepBlueAI/AutoSmart
简而言之,这篇论文提出的框架能够根据不同情况实现最佳和稳定的性能,具有广泛的应用前景。