火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写
作者头像
  • 李俊慧
  • 2022-11-15 09:15:43 9

使用BI工具时常见的困惑

在使用商业智能(BI)工具的过程中,经常会遇到这样的疑问:“没有SQL技能如何处理数据?不懂算法是否能够进行数据挖掘?”专业算法团队在执行数据挖掘任务时,数据分析和数据可视化常常出现脱节现象。为了提高工作效率,将数据建模和数据分析流程化是一个不错的选择。

此外,专业数据仓库团队在处理同一主题的数据时,常面临“重复建设”和“管理分散”的问题。那么,是否有可能在一个任务中同时生成多个具有不同内容但同一主题的数据集?生成的数据集能否作为输入再次参与到数据建设中?

DataWind可视化建模能力的引入

火山引擎推出的BI平台DataWind智能数据洞察,新增了可视化建模功能。用户只需通过简单的拖拽和连线操作,就能将复杂的数据加工建模过程简化成直观的画布流程。这样一来,各种水平的用户都能轻松完成数据生产和加工,降低了数据获取的门槛。画布中还可以同时构建多个流程,以实现多任务的高效处理,减少任务管理的成本。画布中集成了40多种数据清洗和特征工程算子,覆盖了从初级到高级的数据处理能力,使得复杂的操作无需编码即可完成。

零门槛的SQL工具

数据生产和加工是获取和分析数据的第一步。对于非技术人员而言,SQL语法有一定的学习门槛,而且本地文件难以定时更新,导致每次都需要手动重做报表。获取数据的技术人员往往需要等待较长的时间,这会导致数据的获取效率和质量下降。因此,使用无代码的数据建设工具显得尤为重要。

场景1:可视化完成数据处理

在产品运营迭代过程中,需要迅速获取不同数据的反馈。这时可以将数据处理过程抽象化,通过可视化建模来实现。例如,获取按日期和城市划分的订单数和订单金额,并找出每日Top10消费金额最高的城市数据。

  • 传统数据处理流程

    1. 请技术人员拉取订单的详细数据,包括订单ID、订单金额、用户ID、订单日期和城市等。
    2. 将数据通过透视图操作,设置订单日期和城市为维度,订单金额和订单ID为指标。
    3. 对透视结果进行排序,并添加序号。
    4. 使用筛选器过滤出Top10的数据。
  • 可视化建模处理流程

    1. 选择数据源,可以选择数据库表、上传CSV文件或连接在线表格。
    2. 筛选出需要使用的字段,并配置字段名称和格式。
    3. 选择聚合算子,按日期和城市聚合计算订单量和订单金额。
    4. 选择Top值算子,取出Top10金额的数量。
    5. 输出数据集,该数据集可以用于绘制图表。

场景2:多表快速结合

在数据处理过程中,多个数据源需要组合使用。传统的Excel操作需要掌握高阶VLOOKUP等算法,且耗时较长。此外,当数据量较大时,电脑性能可能无法胜任。

  • 传统数据处理流程

    1. 将两个订单数据文件合并到一个文件中。
    2. 使用VLOOKUP查找订单和客户的用户数据,然后生成新的数据集。
    3. 使用透视表计算用户账单金额和成本金额,然后计算利润金额。
    4. 按照利润金额排序,获取TopN的客户信息。
  • 可视化建模处理流程

    1. 可以上传CSV文件或在线表格构建数据输入。
    2. 合并三个月和四个月的订单数据为一份数据。
    3. 连接客户属性表,绑定客户属性信息。
    4. 选择聚合算子,按客户计算账单金额和成本金额。
    5. 选择计算列,根据账单金额和成本金额计算利润金额。
    6. 根据利润金额排序,获取TopN的客户信息。

AI数据挖掘不再高不可及

当基础的数据清洗无法满足需求时,需要借助AI算法来挖掘数据中的潜在价值。然而,算法团队可能面临无法与可视化图表有效结合的问题,而普通用户可能因为Python编程的高门槛而放弃尝试。DataWind的可视化建模功能集成了30多种常见的AI算法,用户只需通过简单的配置即可完成模型训练,并快速获得预测结果。

初阶示例:无需Python也能进行数据挖掘

用户日常工作不涉及Python编程,但有时需要进行数据挖掘。例如,基于存量高意向客户样本进行客户意向度挖掘:

  1. 拖入样本数据和全部数据作为输入。
  2. 拖入分类算法,如XGB算法用于模型训练。
  3. 拖入预测算子,建立模型与全部数据的关系进行预测。
  4. 结合实际数据和预测结果,输出数据集以分析全体用户数据的意向分布。

高阶示例:无需Python也能构建复杂算法模型

用户需要构建一个用户回购模型,涉及数据清洗、格式转换以及梯度提升树算法的应用:

  1. 合并行:将多个算子输出的数据表合并成一张总表。
  2. 缺失值替换:替换空值以避免影响后续模型计算。
  3. One-Hot编码:将文本类型属性编码成数字向量。
  4. 梯度提升树:拟合训练数据,输出预测模型。
  5. 聚合:去除重复项,取最大概率。
  6. 提取字段:提取必要的标签和概率值输出。

多场景、多任务建设,管理不再分散

作为数据分析师,日常会有很多构建数据集和搭建数据看板的任务。但在使用数据仓库获取底表后,根据不同的场景需求构建不同的数据集任务,容易导致逻辑混乱和管理不便。DataWind的可视化建模功能可以很好地解决这个问题。它支持单一数据集通过多种逻辑处理生成多个数据集,从而提高管理和使用的便利性。

例如,处理订单数据和用户数据时:

  1. 用户希望查看订单统计数据,可以构建订单统计数据集。
  2. 用户需要查看明细数据,可以构建订单明细表数据集。
  3. 用户希望通过用户属性统计订单分布,可以构建用户订单统计数据集。
  4. 用户需要查看多表关联下的用户订单明细数据集。

通过这种方式,一个任务可以生成多个数据集,这些数据集可以构建一个数据主题域,方便后续的数据使用。

关于我们

火山引擎智能数据洞察DataWind是一款支持大数据明细级别自助分析的增强型ABI平台。它涵盖了数据接入、整合、查询、分析等环节,并最终以数据门户、数字大屏和管理驾驶舱的形式呈现给业务用户,使数据真正发挥其价值。

    本文来源:图灵汇
责任编辑: : 李俊慧
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
完成数据挖掘火山撰写门槛引擎工具分享技术SQL
    下一篇