在线教育大数据营销平台实战

大脸猫
2021-03-09 15:34:16 3

当前，我在一家在线教育公司负责大数据营销产品的管理工作。因为一些偶然的机会，我还兼任了数据产品线和营销CRM产品线的工作。这使我有更多的机会思考如何将数据与营销业务深度融合，将大数据的潜力转化为营销平台的优势，实现业务的精细化运营和数据驱动。

接下来，我将系统地探讨在线教育领域的大数据营销平台的实际应用，涉及的内容可能包括大数据平台的搭建、用户画像服务体系、CRM线索动态评分模型及分配算法、数据产品的实施推广方案以及客户数据中台（CDP）等多个方面。

一、企业数据问题诊断

为了满足业务需求，是否需要构建大数据平台，以及构建什么样的大数据平台，主要取决于企业的数据化水平及其面临的数据问题。因此，在构建大数据平台前，必须进行充分调研，明确问题所在，以便精准解决。企业数据化水平的评估可以参照数据管理成熟度模型（DMM）。

当时，我们公司处于较低的数据管理成熟度等级，面临的主要数据问题如下：

1. 数据来源分散

不利于多数据源间的关联分析
数据资产的价值难以进一步挖掘
数据孤岛现象严重
缺乏统一的数据平台，数据资源无法有效汇总和沉淀
数据无法高效支持业务发展

2. 数据目标不一致

不同业务部门各自为政
数据的准确性和权威性受到质疑
各业务部门的KPI考核标准缺乏统一口径

3. 数据分析效率低下

各业务部门投入大量精力进行数据分析
数据分析工作往往从原始数据开始，数据分析师的支持不足
缺乏成型的数据分析工具

4. 数据管理问题

缺乏统一的数据字典
数据地图缺失
缺少元数据管理

二、大数据平台业务架构及Road Map

在上一部分中，我们已经对企业内部的数据问题进行了全面诊断和分析。接下来，我们将针对这些问题提出解决方案的架构和实施路径。

1. 数据服务体系蓝图

从业务视角出发，我们制定了一个数据服务体系蓝图，旨在满足以下三点：数据服务体系要覆盖整个公司业务、贯穿业务的所有阶段、并伴随企业的发展。

在这一体系中，数据整体建模和数据资产管理处于核心地位，这也是我们熟悉的统一数据仓库建设。结合在线教育的特点，数仓建设需要满足三个核心数据体系建设：

用户数据体系：用户分析、用户标签、用户行为数据、用户基本信息等。
营销数据体系：营销分析、营销标签、渠道特征数据、营收转化相关数据等。
学习数据体系：学习分析、学习偏好标签、学习行为数据、学习素材基础数据等。

2. 数据仓库架构

数据仓库采用业界通用的层次划分方式，包括ODS、DWD、DWS、ADS四个层次。

ODS层

数据同步：结构化数据的增量或全量同步到数据仓库；非结构化数据（日志）的结构化处理和存储。
数据累积和清洗：根据业务需求和稽核要求保存历史数据并进行数据清洗。

CDM层

数据组合：采用明细宽表，复用关联计算，减少数据扫描。
目标加工：基于OneData体系构建命名规范、口径一致和算法一致的统计目标；建立逻辑汇总宽表；建立一致性维度。

ADS层

目标加工：个性化目标加工，包括不公用性、复杂性（指数型、比值型、排名型等）；基于应用的数据组装，如大宽表集市、横表转纵表、趋势目标串。

3. 数据处理流程架构

数据处理流程主要包括源数据同步清洗、数据处理加工、模型运算和数据应用。基于在线教育公司的业务特点，源数据主要包括：渠道数据、用户数据、交易数据、营销过程数据、学习数据、外部第三方数据等。

模型引擎包括离线计算引擎和实时计算引擎两类，需要满足算法部署、模型训练和上线、以及为其他业务系统提供接口服务的能力，例如为CRM系统提供多算法的线索实时分配、用户画像分层等服务。在数据的汇聚、加工消费、应用的全流程中，全生命周期的数据管理至关重要，因为数据的准确性、完整性和一致性直接影响业务对数据系统的信任度。

4. 从0到1构建大数据平台的Road Map

结合自身在推动大数据平台建设过程中的经验，我给出以下路径图供参考。

三、数据建模及设计规范

1. 数据模型选型及举例

维度建模常见的模型有星型模型、雪花模型和星座模型三种，数据仓库设计一般采用星型模型。

星型模型是一种多维的数据关系，由一个事实表和一组维度表组成。每个维度表有一个维度作为主键，所有这些维度的主键组合成事实表的主键。事实表的非主键属性称为事实，通常是数值或其他可以进行计算的数据。

2. 数仓表设计规范

表命名规范

数仓各层表的命名规范如下：

字段级规范

新增字段的命名参考现有字段命名方式，避免出现同一字段有多种命名方式。

字段分类包括：明细、维度、目标、时间、代码、标志位，命名规范如下： - id结尾表示编号，部分维度编号对应含义需关联数仓相应维度表获取含义。 - name结尾表示名称，多与id对应，解释其含义。 - code结尾表示代码字段，部分含义可在文档直接查看，部分需关联数仓代码表获取。 - time结尾表示时间字段，格式为yyyy-mm-dd hh:mm:ss，从源系统获取，不作处理。 - money结尾表示金额，均为系统相应交易金额。 - is_开头表示标志字段，只有0或1，含义为1是，0否。 - 其他字段根据中文含义对应生成英文字段，多为一些属性字段。

四、大数据平台技术架构及模块简介

在大数据平台建设过程中，我和公司的大数据架构师共同研究讨论后给出的技术架构如下图所示。

1. 安全模块

作为数据平台，保障数据安全始终是首要任务。安全体系的建立主要包括以下几个方面： - 数据安全规范 - 安全等级制定 - 用户系统基础组件层权限管理 - 服务层权限管理 - 用户认证秘钥管理 - 流程审批 - 数据加密脱敏 - 审计

2. 监控模块

除了数据安全，平台的稳定性也是重要目标之一。良好的监控体系可以帮助预测风险、定位问题。例如： - 提前预判磁盘容量 - 定位内存、CPU资源问题 - 发现异常任务节点宕机 - 查看各服务负载，评估资源情况

3. 存储模块

存储模块属于基础组件模块，主要采用Hadoop生态系统中的相关组件。根据不同的应用场景选择合适的组件，例如： - Hive：离线数仓 - HBase：KV存储，适用于高度聚合后的固定目标，应对高并发请求场景 - Druid：面向OLAP场景，提供亚秒级、高请求量且需要钻取能力的OLAP功能 - Impala：在数仓数据基础上提供更高效的查询分析能力，适合即席查询场景，但无法处理更高的请求量

4. 计算模块

Yarn负责统一资源管理，Spark或Flink均可作为统一的流、批处理框架。或者阶段性允许两者并存。

5. 管理模块

数据管理

元数据管理
数据质量管理
血缘关系管理
数据安全、权限管理

任务管理

离线任务管理、调度
- 包含管道任务、SQL任务、Shell任务等形态，数仓场景中SQL任务占大多数
- 需要基于SQL自动生成任务之间的依赖关系，并按任务之间的依赖关系和优先级调度任务
流式任务管理
- 包括流式任务发布、监控、重启等操作

五、总结

至此，在线教育大数据营销平台的实际应用第一篇文章已经结束。在接下来的文章中，我将探讨在大数据平台建设初期，如何将数据仓库与神策分析系统（SA）相结合，快速满足运营人员对数据分析的需求，开启数据化运营战略的序幕。

作者：Tigerhu 数据&CRM高级产品经理

图灵汇

责任编辑：：大脸猫

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

在线教育实战营销数据平台

五号智评

2021-03-09