大数据时代
大数据时代始于2010年,中国的起步则是在2013年。在这个时代,信息技术领域经历了多次重大变革。其中,存储设备的容量、CPU的处理能力和网络带宽都得到了显著提升。
数据产生方式
数据产生方式经历了三个主要阶段:运营式系统阶段、用户原创内容阶段以及感知式系统阶段。
大数据的四大特性
大数据通常被称为“4V”数据,包括:大量化(Volume)、快速化(Velocity)、多样化(Variety)和价值密度较低(Value)。
数据量大
- IDC预测,数据正以每年50%的速度增长,即每两年翻一番。
- 近两年产生的数据量已经超过了过去所有数据的总和。
- 到2020年,全球数据总量将达到35ZB,相比2010年增长近30倍。
数据类型繁多
- 大数据包括结构化数据和非结构化数据。
- 结构化数据占10%,存储在数据库中;非结构化数据占90%,与人类信息密切相关。
处理速度快
- 数据生成到消费的时间窗口非常短,可用于决策的时间也很有限。
- 快速处理能力使得大数据分析与传统数据挖掘技术有了本质的区别。
价值密度低
- 尽管数据的价值密度较低,但其商业价值却很高。
- 例如,在连续监控过程中,有价值的片段可能只有一两秒,但具有很高的商业价值。
大数据的影响
图灵奖得主、著名数据库专家Jim Gray博士指出,人类科学研究经历了实验、理论、计算和数据四种范式。大数据思维彻底改变了传统的思维方式:
- 全样而非抽样
- 效率而非精确
- 相关而非因果
大数据关键技术
大数据技术主要包括数据采集、数据存储和管理、数据处理与分析以及数据隐私和安全。其中,分布式存储和分布式处理是两项核心技术。
分布式存储
- GFS/HDFS、BigTable/HBase、NoSQL(键值、列族、图形、文档数据库)和NewSQL(如SQL Azure)
分布式处理
大数据计算模式
代表性大数据技术
Hadoop
- Hadoop采用MapReduce模型,简化了分布式计算过程。
- MapReduce将复杂的大规模计算任务分解成多个Map任务和Reduce任务,实现了高效的并行处理。
- YARN框架实现了资源的统一管理和调度,提高了集群的利用率和资源弹性。
Spark
- Spark是一个快速的、通用的大数据处理引擎,支持内存计算,大大提高了数据处理速度。
Flink
- Flink是一个高性能的流处理框架,适用于实时数据分析。
Beam
- Beam提供了统一的数据处理模型,支持批处理和流处理。
这些技术在大数据时代发挥着关键作用,推动了各行各业的发展。