大数据不在于大,而在于全
作者头像
  • 张晓
  • 2021-01-14 07:04:47 0

大数据的核心在于全面性而非数据量

大数据并不单纯指数据量庞大,而是强调数据的全面性。虽然“大”这个词通常用来形容数据的规模,但它并不是大数据最核心的特征。相比之下,大数据的全面性更为重要。

数据量大,主要是指数据规模庞大;

数据全面,则意味着数据需要涵盖多个维度,以便进行全面的分析。

例如,当我们要分析客户的需求时,传统的做法可能只关注用户在各个商场或电商平台购买的产品信息。然而,在大数据时代,我们需要从更多维度来分析客户需求。可以参考用户在搜索引擎中的搜索记录,来评估其兴趣爱好;查看他们在新闻客户端浏览的文章,来了解其信息偏好;观察他们在电商平台上浏览的商品和停留时间,来判断其购买意向;分析他们常用的APP和访问的网站,来了解其行为习惯;还可以结合银行存款和电商平台的消费记录,来评估其消费能力和偏好。此外,我们还可以通过分析用户的社交网络,了解其潜在行为倾向等。

这种全面的数据分析方法才是真正的“大数据”。

全面性是关键

就像盲人摸象一样,如果你只从一个角度去观察,即便观察很长时间,也无法全面了解事物。只有从不同角度、全方位、多维度地收集数据,才能真正全面地了解事物。

因此,大数据的核心在于全面性,而不是数据量的大小。大数据的应用应当强调从多维度和全方位对客观事物进行分析和理解,从而实现对事物的全面掌握和系统理解。这样才能提出全面准确的业务建议和策略。反之,即使数据量再大,但如果分析维度不足,提出的建议也只是片面和不准确的。

大数据与全面数据的对比

数据量大和数据全面有何区别?下面通过一个真实的历史事件来说明。

兰登 VS 罗斯福

1936年,美国进行了总统选举,共和党的艾尔弗·兰登和民主党的富兰克林·罗斯福成为候选人。

罗斯福是时任总统,身患脊髓灰质炎,终身残疾,曾当过律师和纽约州长;

兰登则是著名的银行家和政治家,曾任堪萨斯州州长。

文学文摘 VS. 盖洛普

当时,最著名的民意调查机构是《文学文摘》杂志社,它因连续四次成功预测总统大选结果而闻名。

这次,《文学文摘》进行了大规模的民意调查,预测兰登上台的概率为57%,而罗斯福为43%。然而,一位名叫乔治·盖洛普的统计学家提出了相反的观点,认为罗斯福将连任。

最终,罗斯福以62%对38%的优势胜出,成为美国历史上任期最长的总统之一。

这个失败的调查使《文学文摘》失去了信誉,不久便关门复刊。而盖洛普则因此一夜成名,成立了具有权威性的民调公司——盖洛普公司,成功预测了后续几次大选。

240万 VS. 5万

为何《文学文摘》的预测失败了?

《文学文摘》虽然调查样本数量高达240万,但这些样本并不具备代表性。他们主要依赖电话簿和俱乐部成员名单进行调查,而这些人群大多是有钱人,倾向于支持共和党。

相比之下,盖洛普的样本数量虽然只有5万,但由于他在选择样本时考虑了种族、性别、年龄和收入等多种因素,使得样本更具代表性。

这就是数据量大和数据全面之间的区别。

蒋介石的教训

1948年底,盖洛普公司预测共和党候选人杜威将击败时任总统杜鲁门。然而,最终杜鲁门以较大优势胜出,令许多人感到意外,包括蒋介石。蒋介石原本对杜鲁门不太友好,但因相信盖洛普的预测而公开支持杜威,结果却大失所望。

这表明,即使样本量很大,但如果样本不具备代表性,预测结果也可能出现偏差。因此,数据的全面性至关重要。

总的来说,大数据的关键在于全面性,而不仅仅是数据量的大小。只有从多维度和全方位进行数据分析,才能获得准确的结果。

    本文来源:图灵汇
责任编辑: : 张晓
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
在于不在数据于大
    下一篇