大数据对于现有行业会有哪些影响?深化分析面向大数据的数据迷信
作者头像
  • 廖青
  • 2021-07-03 21:19:13 5

数据迷信是指学者们尝试将数据视为一个独立的研究对象,进而提出了所谓的“数据界”概念(复旦大学)。然而,关于脱离具体应用领域的“数据界”究竟具备哪些共性问题,目前仍不清楚。

一些学者认为数据迷信介于哲学和自然科学之间,是一种超自然科学(澳门大学赵伟)。要提炼出“数据界”的共性问题,还需要一段时间的理论积累。至少在未来5到10年内,需要更多精力解决大数据带来的技术挑战。通过多层次的抽象化过程,大数据的共性问题才会逐渐明朗,研究路径应从白盒研究逐步转向黑盒研究。

数据迷信是数学(如统计、代数、拓扑等)、计算机科学、基础科学和各类应用科学融合而成的学科,类似于钱学森先生提出的“大成智慧学”,即只有集大成者才能获得真正的智慧。

那么,推动大数据发展的主要动力有哪些呢?

1. 促进经济发展 大数据热潮的主要推动力来自网络服务公司。地方政府推动大数据规划的主要目标是增加GDP。但大数据的作用更像是蜜蜂,它的重要价值在于传播知识,而不是直接创造经济价值。广义的大数据产业虽然在2013年的产值仅为186亿美元(Wikibon),但几乎涵盖了所有产业。麦肯锡公司预测,开放数据在教育、医疗等七个行业中可以释放3.2至5.4万亿美元的经济价值。

2. 促进社会公平正义 开发政府大数据的价值,大数据时代的国家治理。经济系统类似于人体的血液循环系统,信息系统则类似于神经传导系统,两者各有其重要性,无需用一只手证明另一只手的价值。

3. 促进科学研究(尤其是基础科学)的发展 大数据为科学研究提供了新的工具,类似于望远镜和显微镜,开启了第四范式。计算机科学的新领域也随之诞生,这为数据科学的形成和发展奠定了基础。例如,门捷列夫的周期表为化学成为一门科学奠定了基础。现在,在生物学领域,基因组学扮演着类似的角色,材料科学、化学、制药、生理学、病理学和干细胞研究等领域都在探索基因组。这些基因组都是构成整体的基本元素。为了发现这些基因组,研究人员必须利用计算机对海量数据进行分析,从而催生了各种“信息学”。

自20世纪70年代末期以来,围绕计算复杂性形成了以算法研究为核心的计算机科学。随着计算机科学与其他学科的交叉融合,计算机科学的研究重点将逐渐转移到以基因组学为重点的数据科学。现在,我们正处于发现新的门捷列夫周期表的时代。

计算理论的新研究方向 传统的计算复杂性理论关注的是当问题规模增大时,计算量如何变化,即从小问题预测大问题。而大数据的问题一开始就提供了全部数据,因此需要反向思考如何找到减少规模的数据,而问题的本质属性并未发生大的变化。

如果说传统的计算复杂性理论衡量的是规模扩大带来的复杂性增长,那么大数据的计算理论应该衡量的是规模压缩带来的难度。如果数据规模扩大时,反映数据间关系的网络结构保持良好的相似性,那么这是一个相对容易处理的大数据问题;反之,如果网络结构发生了显著变化,那么这就是一个难以处理的大数据问题。

培养“π型人才” 越来越多的研究人员开始在数据科学领域探索,数据驱动型的发现将成为常态。熟练处理大量数据集的能力很快将成为传统科学领域的必备技能,所有的科学都将迅速转变为数据科学。在其他领域,科学家可能需要几天时间才能完成的数据处理,有经验的计算机科学家可能只需几分钟即可完成。在各个领域培养熟悉数据分析的研究人员,使他们具备跨领域的双足支撑,以便更好地前行。

高等教育应对大数据时代的新挑战 面对大数据时代各领域的科研新挑战,高校计算机系需要调整和增设与数据采集、整理和分析相关的课程。

    本文来源:图灵汇
责任编辑: : 廖青
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
数据深化迷信现有面向对于哪些影响分析行业
    下一篇