在大数据行业中,有许多实际的应用案例。您可以访问https://yq.aliyun.com/activity/156了解更多信息,包括流计算、机器学习、功能调优等技术的实际应用。此外,通过Maxcompute及其配套产品,低成本的大数据分析变得简单快捷,详情可参考https://www.aliyun.com/product/odps。更多精彩内容请参见云栖社区大数据频道:https://yq.aliyun.com/big-data。
对于任何一家创业公司而言,成本与效率都是不可忽视的重要因素,正如汇合营销的CEO周鹏所指出的那样。
汇合营销主要提供汇合DSP和汇合DMP两个平台,服务于以电商为主的广告主。在接收商家的精准需求后,根据具体业务场景,为电商广告主提供精准营销服务。周鹏认为,建立一个完善的、可持续服务的大数据平台至关重要,这需要大量的人力和物力投入。此外,该平台还需要具备足够的“弹性”,既能应对双十一期间的流量高峰,又能有效控制日常运营成本。
在流量高峰时段,汇合营销每天需要收集、分析和存储超过20亿条访客浏览记录。同时,为了满足用户需求,需要在亿级日志表中实现秒级查询,这是CTO欧阳明提到的技术挑战之一。
汇合营销的大数据系统面临的主要技术挑战包括:
大规模数据统计:每天收集的数据量巨大,有时甚至达到20亿条访客浏览记录。在DMP业务系统中,需要对每个访客的浏览内容进行分析,打上相应标签并进行统计。数据分析师每天还需要生成各类报表,帮助客户优化广告投放。大量的数据存储、统计以及复杂的业务需求,要求在开发过程中既要保证高效,又要降低成本。
实时大数据查询:当广告商在后台选择标签时,系统需要在毫秒级时间内显示标签对应的用户数量,并预估展示量。由于用户选择的标签通常较多且条件复杂,且每个标签的用户可能重叠,因此无法在用户选择标签前进行预估,而必须在亿级日志表中实时查询,并确保平均延迟不超过1秒。
点击率预估:点击率预估直接影响广告的精准度及收益,是广告竞价系统中的重要环节。汇合营销采用业内领先的大数据框架和机器学习算法,如场感知分解机模型(FFM)和逻辑回归算法,对收集到的TB级数据进行训练,进而提升广告投放的精准度,从而显著提高广告效果。
考虑到技术和资源,汇合营销最终选择了阿里云数加,利用云计算服务获得了技术与效率上的双重优势,周鹏总结道。
基于云的架构极大地提高了开发效率,减少了运维负担,实现了即开即用,避免了资源浪费,欧阳明表示。
数加提供了完善的大数据解决方案,可以与阿里云的其他产品无缝对接。汇合营销采用了数加的大数据套件、ODPS、DataV和分析型数据库,并尝试了机器学习平台。如下所示的架构图展示了基于阿里云数加产品的系统架构:
[中心对齐]
目前,汇合营销的大部分离线统计需求都在大数据套件中完成,数据应用变得极为简便,只需掌握SQL技能即可导出所需报表,满足大多数业务需求。分析型数据库则能够在亿级数据中实现毫秒级查询,是一款非常优秀的数据分析工具。
在引入数加之前,汇合营销曾使用Spark和Hadoop,但每次数据报表都需要开发人员手动导出,维护成本较高。数加不仅降低了数据应用的门槛,还大幅提升了开发效率。现在,汇合营销的数据分析团队(非开发人员)能够独立完成大部分数据报表需求。此外,数加的按需计费模式避免了资源闲置,相较于年初,数加在满足相同业务需求的基础上,可以节省一半的成本,有助于创业型企业快速成长。