揭秘腾讯大数据十年发展历程
作者头像
  • 亿欧
  • 2019-11-03 13:24:46 0

大数据技术在过去十多年间显著改变了企业在数据存储、处理和分析方面的方式。目前,大数据技术日趋成熟,包括计算、存储、数据仓库、数据集成、可视化、NoSQL、联机分析处理(OLAP)以及机器学习等多个领域。未来,大数据技术还将继续向引擎容器化、大数据机器学习、数据湖等领域拓展。

近日,腾讯大数据技术沙龙在深圳成功举办了首次活动——Angel专场。活动中,腾讯大数据团队详尽介绍了腾讯大数据十年来的成长历程,并展示了其第三代全栈机器学习平台Angel在大模型数据训练、深度学习、图计算等方面的技术实力。此外,还分享了Angel在微信支付、效果广告、微众银行等具体应用场景中的实际案例。

在会上,腾讯大数据负责人刘煜宏正式公布了“星火计划”。他表示:“在腾讯大数据发展的十年间,我们不断追求技术创新,集群数量从最初的30台增加到超过35000台。2016年,我们打破了被称为‘计算奥运会’的Sort Benchmark四项世界纪录,性能领先全球。腾讯大数据的成长得益于开源,秉持开放共享的精神,今天我们推出了技术共享的‘星火计划’,希望能够促进和回馈大数据生态的发展。”

腾讯大数据发展的“三部曲”

作为大数据领域的先锋探索者,腾讯大数据从2009年开始经历了离线计算、实时计算和机器学习三个发展阶段,在实践中积累了丰富的经验。

据刘煜宏介绍,2009年之前,腾讯主要使用传统的关系型数据库。2009年之后,由于业务快速增长,传统的单机数据库在系统可扩展性和性价比方面已经不能满足需求。为此,腾讯转向分布式架构,基于开源的Hadoop体系构建了第一代大数据平台,并建立了离线计算平台,主要聚焦于规模化。腾讯大数据因此进入了第一个发展阶段。在接下来的三年里,腾讯实现了从关系型数据库到自建大数据平台的全面迁移,到2012年,腾讯大数据单集群规模突破了4400台。

2012年,随着移动互联网的爆发,腾讯大数据需要更好地应对业务数据的实时性和快速处理需求。因此,腾讯从Hadoop转向Spark和Storm系统,在借鉴开源技术的基础上,结合自身需求进行了二次开发,探索流式计算和秒级采集系统的建设,构建了企业级的实时数据分析体系,从而进入了发展的第二阶段。

2015年至今,腾讯大数据迈入了第三阶段。随着数据挖掘和应用的深入,腾讯大数据再次进行自我迭代,于2016年推出了自主研发的机器学习平台Angel,专注于复杂计算场景,能够进行大规模数据训练,支持内容推荐、广告推荐等AI应用场景。该平台由腾讯与北京大学联合研发,兼顾了工业界高可用性和学术界创新性。不仅满足了腾讯自身的业务需求,也在行业中产生了里程碑式的意义。

从海量业务中来,专注图计算场景

作为面向机器学习的第三代高性能计算平台,腾讯Angel在稀疏数据高维模型训练方面具有独特优势,特别适用于推荐模型和图网络模型。当前主流的大规模图计算系统主要有Facebook的Big Graph、PowerGraph和DataBricks的Spark GraphX等,但这些系统并不完全支持图挖掘、图表示学习和图神经网络这三种类型的算法。

据腾讯Angel开发负责人肖品介绍,腾讯Angel源于腾讯海量业务场景,是一个超大样本和超高维度的机器学习平台。从性能角度来看,Angel优于现有的图计算系统,可以支持数十亿节点和数千亿条边的传统图挖掘算法,以及数十亿条边的图神经网络算法。它能够在多任务集群和公有云环境中运行,具有高效的容错恢复机制,支持新算法的快速部署,同时在图挖掘、图表示和图神经网络算法方面表现出色,具备图学习的能力。

如今,Angel已被广泛应用于QQ、微信支付、腾讯广告、腾讯视频等腾讯内部产品,并向微众银行等外部合作伙伴全面开放,广泛适用于智能推荐、金融风险评估等图计算业务场景。

到开源中去,积极贡献社区

发布仅一年后,腾讯Angel于2017年正式开源。2018年8月,腾讯将其捐赠给了Linux基金会旗下的LF AI基金会,结合基金会成熟的运营模式,全面升级的Angel与国际开源社区展开了深度互动,致力于让机器学习技术更易于研究和应用。

“自2018年加入LF AI基金会以来,Angel一直遵循开源社区的模式运作,增长迅速,新增了特征工程、自动机器学习等功能,在GitHub上的Star数超过了2000。” Linux Foundation APAC大中华区总监杨轩表示:“Angel是LF AI基金会下最活跃的项目之一,相信不久的将来,Angel将成为LF AI的顶级项目之一。”

目前,Angel在GitHub上的Star数已经超过5300,Fork数超过1300,共有39位代码贡献者,提交了超过2336个commit。

面向未来,大数据、AI和云计算的深度融合

腾讯Angel在深度学习和图计算方面的发展,与大数据行业的整体发展趋势相吻合。据刘煜宏介绍,未来,腾讯大数据将继续重点发力数据湖、批流一致(即批量计算与流式计算的融合)、AI+大数据、云计算+大数据等主要方向。

刘煜宏表示:“AI、云计算与大数据密不可分,Angel从大数据平台成长为全栈机器学习平台,正是这一行业趋势的体现。未来,我们将把腾讯大数据的技术与AI和云计算深度融合,进一步实现大数据的价值,更好地服务于合作伙伴和用户。”

    本文来源:图灵汇
责任编辑: : 亿欧
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
腾讯揭秘历程数据发展
    下一篇