大数据指的是那些现有计算机软硬件设施难以处理的超大规模数据集。这类数据集具有规模庞大、种类繁多、速度快、价值密度低等特点(即4V特性)。大数据的“大”是一个相对的概念,没有具体的量化标准,但一般而言,数据量达到10-100TB以上时,就可以被视为大数据。
数据分析可分为广义和狭义两种。广义的数据分析涵盖了狭义的数据分析和数据挖掘,而狭义的数据分析则是我们日常所说的那种对数据进行处理和分析的工作。
(1)定义: 数据分析是对数据进行处理和分析的过程。专业而言,数据分析通过运用合适的统计分析方法和工具,处理收集到的数据,从而提取有价值的信息,发挥数据的作用。
(2)作用: 数据分析主要用于三个方面的分析:现状分析、原因分析、预测分析(定量)。其目标明确,先设定假设,再通过数据分析验证假设的准确性,最终得出结论。
(3)方法: 常用的分析方法包括对比分析、分组分析、交叉分析、回归分析等。
(4)结果: 数据分析的结果通常表现为一些统计量,如总和、平均值等。这些指标需要结合业务背景进行解读,才能真正体现其价值和作用。
(1)定义: 数据挖掘是从海量数据中通过统计学、人工智能、机器学习等手段挖掘出未知且有价值的信息和知识的过程。
(2)作用: 数据挖掘主要解决四类问题:分类、聚类、关联和预测(定量和定性)。数据挖掘的关键在于发现未知的模式和规律,例如啤酒与尿布、安全套与巧克力等案例,都是事先未知但具有很高价值的信息。
(3)方法: 数据挖掘主要采用决策树、神经网络、关联规则、聚类分析等方法。
(4)结果: 数据挖掘的输出形式包括模型或规则,如流失概率值、总和得分、相似度、预测值等,以及标签如高价值用户、流失与非流失、信用等级等。
综上所述,狭义的数据分析和数据挖掘本质上都是从数据中发现关于业务的知识(有价值的信息),从而帮助企业更好地运营、改进产品以及做出更明智的决策。因此,狭义的数据分析和数据挖掘共同构成了广义的数据分析。