大数据简历
作者头像
  • 2022-11-15 08:55:35 4

大数据时代

大数据时代始于2010年,中国的起步则是在2013年。在这个时代,信息技术领域经历了多次重大变革。其中,存储设备的容量、CPU的处理能力和网络带宽都得到了显著提升。

数据产生方式

数据产生方式经历了三个主要阶段:运营式系统阶段、用户原创内容阶段以及感知式系统阶段。

大数据的四大特性

大数据通常被称为“4V”数据,包括:大量化(Volume)、快速化(Velocity)、多样化(Variety)和价值密度较低(Value)。

  1. 数据量大

    • IDC预测,数据正以每年50%的速度增长,即每两年翻一番。
    • 近两年产生的数据量已经超过了过去所有数据的总和。
    • 到2020年,全球数据总量将达到35ZB,相比2010年增长近30倍。
  2. 数据类型繁多

    • 大数据包括结构化数据和非结构化数据。
    • 结构化数据占10%,存储在数据库中;非结构化数据占90%,与人类信息密切相关。
  3. 处理速度快

    • 数据生成到消费的时间窗口非常短,可用于决策的时间也很有限。
    • 快速处理能力使得大数据分析与传统数据挖掘技术有了本质的区别。
  4. 价值密度低

    • 尽管数据的价值密度较低,但其商业价值却很高。
    • 例如,在连续监控过程中,有价值的片段可能只有一两秒,但具有很高的商业价值。

大数据的影响

图灵奖得主、著名数据库专家Jim Gray博士指出,人类科学研究经历了实验、理论、计算和数据四种范式。大数据思维彻底改变了传统的思维方式:

  1. 全样而非抽样
  2. 效率而非精确
  3. 相关而非因果

大数据关键技术

大数据技术主要包括数据采集、数据存储和管理、数据处理与分析以及数据隐私和安全。其中,分布式存储和分布式处理是两项核心技术。

  1. 分布式存储

    • GFS/HDFS、BigTable/HBase、NoSQL(键值、列族、图形、文档数据库)和NewSQL(如SQL Azure)
  2. 分布式处理

    • MapReduce

大数据计算模式

代表性大数据技术

  1. Hadoop

    • Hadoop采用MapReduce模型,简化了分布式计算过程。
    • MapReduce将复杂的大规模计算任务分解成多个Map任务和Reduce任务,实现了高效的并行处理。
    • YARN框架实现了资源的统一管理和调度,提高了集群的利用率和资源弹性。
  2. Spark

    • Spark是一个快速的、通用的大数据处理引擎,支持内存计算,大大提高了数据处理速度。
  3. Flink

    • Flink是一个高性能的流处理框架,适用于实时数据分析。
  4. Beam

    • Beam提供了统一的数据处理模型,支持批处理和流处理。

这些技术在大数据时代发挥着关键作用,推动了各行各业的发展。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
简历数据
    下一篇