什么是大数据?
作者头像
  • 区块链行业资讯
  • 2020-04-14 08:18:50 0

大数据的需求涉及多种云计算技术,其中包括虚拟化技术、分布式处理技术、海量数据存储与管理技术,以及NoSQL数据库、实时流数据处理、智能分析技术(如图像识别和自然语言处理)等。

云计算与大数据之间的关系可以通过以下几点来阐述:云计算能够提供更多基于海量业务数据的创新型服务,而通过云计算技术的发展,大数据业务的创新成本得以降低。

云计算和大数据的主要区别在于:

  1. 概念上的不同:云计算改变了IT基础设施,而大数据改变了业务流程。但大数据需要借助云计算作为基础架构才能顺利运行。
  2. 目标受众的不同:云计算主要服务于CIO等关注技术层面的群体,而大数据则是CEO等高层管理者所关注的业务层产品。

分布式处理技术

分布式处理系统是指将分布在不同地点或具有不同功能或存储不同数据的多台计算机通过通信网络连接起来,由统一的控制系统进行协调,共同完成信息处理任务。以Hadoop为例,它是一个实现了MapReduce模式的软件框架,能够以可靠、高效和可扩展的方式处理大量数据。

MapReduce是一种云计算的核心计算模型,它简化了分布式编程的形式。其核心思想是将任务分解为Map和Reduce两部分,通过Map函数将数据分割成不同的区块并分配给计算机集群处理,再通过Reduce函数将结果汇总,最终输出所需的结果。

Hadoop具有以下特点: - 可靠性:Hadoop假定计算元素和存储可能会失败,因此它会保存多个工作数据副本,以便在节点故障时重新分配处理。 - 高效性:通过并行处理提高处理速度。 - 可扩展性:可以处理PB级别的数据。 - 低成本:依靠社区服务器,降低了成本。

Hadoop的构成包括HDFS(分布式文件系统)、HBase(分布式NoSQL数据库)、MapReduce(数据处理框架)以及其他组件。Hadoop使用的技术还包括HDFS、MapReduce、HBase、Hive、Zookeeper、Avro、Pig、Ambari、Sqoop等。

以淘宝为例,其大数据技术架构分为五个层次:数据源、计算层、存储层、查询层和产品层。计算层主要依赖Hadoop集群,存储层则采用MyFox和Prom两种工具,查询层通过Glider提供RESTful接口。

存储技术

大数据可以分为存储和分析两个方面,存储技术致力于研发可以扩展至PB甚至EB级别的数据存储平台,而分析技术则专注于在短时间内处理不同类型的数据集。随着存储技术的进步,成本持续下降,使得大数据存储变得更加可行。例如,Google管理着大量的服务器和硬盘,而Amazon S3则提供了一种低成本、高可靠性的存储服务,可以为用户提供高达99.999999999%的数据持久性和99.99%的可用性。

感知技术

大数据的采集与感知技术密切相关,传感器、指纹识别、RFID、坐标定位等技术的应用提升了感知能力,推动了物联网的发展。随着智能手机的普及,感知技术也迎来了新的发展机遇,如iPhone 5S内置的指纹传感器、新型手机通过呼气检测脂肪量、嗅觉传感器监测空气污染等。

这些感知技术的发展意味着世界正在被数据化,数据成为了信息的载体,正如那句名言所说:“人类以前延续的是文明,现在传承的是信息。”

互联网的大数据

互联网上的数据每年增长50%,每两年就会翻一番。目前全球90%以上的数据是在过去几年内产生的。预计到2020年,全球数据总量将达到35ZB。互联网上的大数据难以清晰界定分类,BAT公司(百度、阿里巴巴、腾讯)是典型的代表。百度拥有用户搜索需求数据和公共Web数据,阿里巴巴拥有交易数据和信用数据,腾讯则拥有用户关系数据和社交数据。这些数据可以用于精准广告投放、内容推荐、行为习惯分析、产品优化等领域。

政府的大数据

奥巴马政府宣布投资2亿美元推动大数据产业发展,并将其视为国家战略。政府各部门握有大量的基础数据,如气候、金融、信誉、电力、煤气、自来水、道路交通、安全案件、住房、海关、旅游、医疗、教育、环保等数据。政府若能有效关联和分析这些数据,将会产生巨大的价值。例如,智慧城市项目依赖于大数据,可以提高城市管理服务的科学性和前瞻性,优化交通管理,提高舆情分析的及时性和全面性,增强应急管理能力。

美国政府通过建立data.gov网站,公开透明地共享数据,已有91054个数据集、349个公民开发的应用、137个移动应用、175个机构和子机构、87个画廊和295个政府API对外开放。

企业的大数据

企业的领导者越来越重视通过数据驱动决策。大数据为企业带来了巨大的竞争优势,如精准营销、服务转型、应对互联网压力等。随着数据逐渐成为企业的重要资产,数据产业将向传统企业的供应链模式发展,形成“数据供应链”。企业期待通过合作利用数据,如微软史密斯所说:“给我一些数据,我就能做出改变。给我所有数据,我就能拯救世界。”

传统IT巨头如IBM和HP也开始涉足大数据领域。IBM提出了“大数据平台”架构,包括Hadoop系统、流计算、数据仓库和信息整合与管理。HP推出了HAVEn解决方案,包括HP Autonomy、HP Vertica、HP ArcSight和HP运营管理,涵盖了音频视频识别、数据处理速度、机器记录信息处理和IT基础设施数据处理等多个方面。

个人的大数据

个人大数据的概念较少被提及,主要是指与个人相关联的有价值数据信息被有效采集后,用户可以授权第三方进行处理和使用。例如,用户可以将牙齿监测数据授权给牙科诊所,将运动数据授权给健身机构,或将消费数据授权给金融理财机构。个人数据的采集应明确分类,并由用户决定是否被采集,数据的使用也需经过用户授权。

未来,个人数据中心可能成为趋势,但如何平衡数据使用与隐私保护仍然是一个挑战。随着数据量的增加,关于数据重要性与隐私保护的博弈也将愈发激烈。

    本文来源:图灵汇
责任编辑: : 区块链行业资讯
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
数据什么
    下一篇