数据挖掘领域有一个著名的通用流程,即CRISP-DM(跨行业数据挖掘标准流程),其创始人之一Tom Khabaza总结了数据挖掘中的九大原则,如下所示:
(1)商业目标法则:每一个数据挖掘解决方案的根本出发点都是为了实现商业目标。
(2)商业知识法则:数据挖掘过程的每一阶段都需要以商业信息为核心。
(3)数据准备法则:数据挖掘过程中后期的数据准备工作通常会占据整个过程的一半以上的时间。
(4)NFL法则(没有免费午餐):对于数据挖掘者而言,没有任何东西是免费的午餐。数据挖掘的每一个步骤都需要付出努力。
(5)沃特金斯法则:这一法则得名于David Watkins首次提出的观点。它指出,在数据世界中,总是存在某种模式。找不到规律并不是因为规律不存在,而是因为我们尚未发现它们。
(6)洞察法则:数据挖掘能够放大商业领域的信息。
(7)预测法则:预测可以为我们提供更多信息。
(8)价值法则:数据挖掘模型的准确性和稳定性并不能决定其价值,换句话说,技术手段再先进,如果没有商业意义或合适的商业应用,也是没有价值的。
(9)变化法则:所有模式都会发生变化。
这九条法则最终归结为一条:商业决策驱动数据挖掘。尽管数据挖掘技术与算法正在快速发展,但不应偏离以商业行为为核心的方向。追求技术的高深而忽视或损害商业目标是本末倒置的。
ETHINK数据智能分析平台集成了大数据存储与集成、大数据可视化、大数据自助分析、大数据挖掘、人工智能等多项核心技术。该平台采用了分布式内存计算技术及经过优化的分布式数据挖掘算法。ETHINK涵盖了ETHINK BI商业智能产品(主要实现数据可视化、报表生成、自助分析、移动BI等功能)、ETHINK DM数据挖掘产品(主要包括数据挖掘、机器学习、统计分析等,目前支持约200种算法)以及ETHINK AI数据智能应用产品(主要包括认知算法、深度学习算法、特征工程、自然语言处理、文本分析等一系列数据应用)。