在使用商业智能(BI)工具的过程中,经常会遇到这样的疑问:“没有SQL技能如何处理数据?不懂算法是否能够进行数据挖掘?”专业算法团队在执行数据挖掘任务时,数据分析和数据可视化常常出现脱节现象。为了提高工作效率,将数据建模和数据分析流程化是一个不错的选择。
此外,专业数据仓库团队在处理同一主题的数据时,常面临“重复建设”和“管理分散”的问题。那么,是否有可能在一个任务中同时生成多个具有不同内容但同一主题的数据集?生成的数据集能否作为输入再次参与到数据建设中?
火山引擎推出的BI平台DataWind智能数据洞察,新增了可视化建模功能。用户只需通过简单的拖拽和连线操作,就能将复杂的数据加工建模过程简化成直观的画布流程。这样一来,各种水平的用户都能轻松完成数据生产和加工,降低了数据获取的门槛。画布中还可以同时构建多个流程,以实现多任务的高效处理,减少任务管理的成本。画布中集成了40多种数据清洗和特征工程算子,覆盖了从初级到高级的数据处理能力,使得复杂的操作无需编码即可完成。
数据生产和加工是获取和分析数据的第一步。对于非技术人员而言,SQL语法有一定的学习门槛,而且本地文件难以定时更新,导致每次都需要手动重做报表。获取数据的技术人员往往需要等待较长的时间,这会导致数据的获取效率和质量下降。因此,使用无代码的数据建设工具显得尤为重要。
在产品运营迭代过程中,需要迅速获取不同数据的反馈。这时可以将数据处理过程抽象化,通过可视化建模来实现。例如,获取按日期和城市划分的订单数和订单金额,并找出每日Top10消费金额最高的城市数据。
传统数据处理流程:
可视化建模处理流程:
在数据处理过程中,多个数据源需要组合使用。传统的Excel操作需要掌握高阶VLOOKUP等算法,且耗时较长。此外,当数据量较大时,电脑性能可能无法胜任。
传统数据处理流程:
可视化建模处理流程:
当基础的数据清洗无法满足需求时,需要借助AI算法来挖掘数据中的潜在价值。然而,算法团队可能面临无法与可视化图表有效结合的问题,而普通用户可能因为Python编程的高门槛而放弃尝试。DataWind的可视化建模功能集成了30多种常见的AI算法,用户只需通过简单的配置即可完成模型训练,并快速获得预测结果。
用户日常工作不涉及Python编程,但有时需要进行数据挖掘。例如,基于存量高意向客户样本进行客户意向度挖掘:
用户需要构建一个用户回购模型,涉及数据清洗、格式转换以及梯度提升树算法的应用:
作为数据分析师,日常会有很多构建数据集和搭建数据看板的任务。但在使用数据仓库获取底表后,根据不同的场景需求构建不同的数据集任务,容易导致逻辑混乱和管理不便。DataWind的可视化建模功能可以很好地解决这个问题。它支持单一数据集通过多种逻辑处理生成多个数据集,从而提高管理和使用的便利性。
例如,处理订单数据和用户数据时:
通过这种方式,一个任务可以生成多个数据集,这些数据集可以构建一个数据主题域,方便后续的数据使用。
火山引擎智能数据洞察DataWind是一款支持大数据明细级别自助分析的增强型ABI平台。它涵盖了数据接入、整合、查询、分析等环节,并最终以数据门户、数字大屏和管理驾驶舱的形式呈现给业务用户,使数据真正发挥其价值。