从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程
作者头像
  • 谢东凤
  • 2019-10-19 14:02:06 3

在过去十多年里,大数据技术极大地改变了企业处理数据的方式,包括数据的存储、处理和分析。如今,大数据技术已经日趋成熟,涵盖了一系列领域,如计算、存储、数据仓库、数据集成、可视化、NoSQL、联机分析处理(OLAP)和机器学习等。未来,大数据技术将继续向容器化引擎、大数据机器学习和数据湖等领域拓展。

最近,腾讯举办了大数据技术沙龙,首站活动在深圳举行。腾讯大数据团队详细介绍了腾讯过去十年在大数据领域的成长历程,并展示了其第三代全栈机器学习平台Angel在数据训练、深度学习和图计算方面的技术实力。此外,还分享了Angel在微信支付、效果广告和微众银行等实际应用场景中的成功案例。

会上,腾讯大数据负责人刘煜宏正式公布了“星火计划”。他表示,腾讯大数据在过去十年中一直致力于技术创新,从最初的30台服务器扩展到超过35000台。2016年,腾讯在Sort Benchmark比赛中打破了四项世界纪录,展示了其在全球范围内的领先技术实力。腾讯大数据的发展得益于开源技术的支持,秉持着开放共享的理念,今天腾讯推出了“星火计划”,旨在推动大数据生态的繁荣。

腾讯大数据发展的“三部曲”

腾讯大数据经历了从离线计算、实时计算到机器学习的三个发展阶段,积累了丰富的实践经验。最初,腾讯主要依赖传统的关系型数据库。然而,随着业务的快速增长,传统数据库在扩展性和成本效益方面显得不足。因此,腾讯转向分布式架构,基于开源的Hadoop系统,构建了自己的大数据平台,重点在于规模化。经过三年的努力,腾讯从关系型数据库迁移到自建的大数据平台,至2012年,其单集群规模达到了4400台。

2012年后,随着移动互联网的兴起,腾讯大数据转向Spark和Storm系统,结合自身的业务需求进行了优化,构建了实时数据分析体系,进入了发展的第二阶段。

2015年以来,腾讯大数据进入了第三个阶段。随着数据挖掘和应用的深入,腾讯推出了自主研发的机器学习平台Angel,专门针对复杂计算场景,支持大规模数据训练,服务于内容推荐、广告推荐等AI应用场景。该平台由腾讯与北京大学联合研发,兼顾了工业应用的可靠性和学术研究的创新性,不仅满足腾讯内部需求,也在行业内具有里程碑意义。

专注图计算场景

作为面向机器学习的第三代高性能计算平台,腾讯Angel在处理高维稀疏模型方面具有独特的优势,特别适合推荐模型和图网络模型的应用。当前主流的大规模图计算系统如Facebook的Big Graph、PowerGraph和DataBricks的Spark GraphX等,但这些系统并不全面支持图挖掘、图表示学习和图神经网络等算法。

腾讯Angel开发负责人肖品介绍,Angel是从腾讯海量业务场景中发展而来的机器学习平台,能够处理超大样本和超高维度的数据。从性能角度看,Angel优于现有的图计算系统,能够支持数十亿节点和数千亿边的传统图挖掘算法,以及数十亿边的图神经网络算法。它可以在多任务集群和公共云环境中运行,并具备高效的容错机制,便于支持新算法的开发。同时,Angel在图挖掘、图表示和图神经网络算法方面表现优异,具有强大的图学习能力。

开源与社区贡献

腾讯Angel仅发布一年后,就在2017年正式开源。2018年8月,腾讯将其捐赠给了Linux基金会旗下的LF AI基金会,通过基金会的运营和推广,Angel与国际开源社区进行了深入互动,致力于让机器学习技术更加易用。

Linux Foundation APAC大中华区总监杨轩表示,Angel是LF AI基金会中最活跃的项目之一,已经在GitHub上获得了超过5300个Star和1300多个Fork,共有39名代码贡献者,提交了超过2336个commit。Angel的快速成长和广泛应用证明了其技术实力和社区影响力。

未来展望

腾讯大数据将继续在数据湖、批流融合、AI+大数据和云计算+大数据等领域发力。刘煜宏表示,AI、云计算与大数据之间存在着密切的联系,Angel从大数据平台成长为全栈机器学习平台的过程,正是这一趋势的体现。未来,腾讯大数据将与AI和云计算深度融合,进一步发挥大数据的价值,更好地服务合作伙伴和用户。

了解腾讯大数据星火计划的人士指出,该计划是由腾讯发起的技术共享体系,基于腾讯大数据十年的研发和运营经验,通过社区开源、网络课程、线下沙龙和技术峰会等多种形式,全面开放腾讯在大数据领域的技术积累。此次Angel专场活动是星火计划首次线下活动。

    本文来源:图灵汇
责任编辑: : 谢东凤
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
关系型腾讯分布式揭秘历程机器数据库数据发展学习
    下一篇