大数据培训，大数据需求学什么？

杜小含
2018-12-20 14:04:14 0

+关注

大数据领域需要学习哪些内容？许多人曾向我询问过这个问题。

大数据行业在过去五年内迅速崛起，许多技术也在这些年中不断迭代，变得更加成熟。与此同时，新的技术和工具不断涌现。为了保持竞争力，唯一的方法就是持续学习。

下面是我整理的一个思维导图，内容分为几个主要部分，包括分布式计算与查询、分布式调度与管理、持久化存储，以及大数据常用的编程语言等。每个大类下有许多开源工具，这些都是大数据开发者既爱又恨的对象。

大数据所需的语言

Java

Java可以说是大数据领域中最基础的编程语言。根据我个人的经验，很多大数据开发人员最初都是从Java Web开发转型过来的（当然也有其他背景的人）。一方面，大数据本质上是对海量数据的计算、查询与存储，而后台开发很容易涉及到大数据量的处理场景；另一方面，Java语言本身就有许多天然的优势，因为许多大数据组件都是用Java编写的，例如HDFS、Yarn、Hbase、MapReduce和Zookeeper等。要深入学习这些组件并在实际环境中避免各种问题，首先需要掌握Java语言并阅读相关组件的源码。

提到阅读源码，一开始可能会觉得困难重重，需要对组件及其编程语言有较深的理解。但随着经验的积累，你会发现阅读源码解决实际问题是一件非常有成就感的事情。

Scala

Scala与Java非常相似，运行在相同的虚拟机上，两者之间可以无缝调用。Scala在大数据领域的影响力主要来自于社区中的明星项目Spark和Kafka，它们的发展推动了Scala在该领域的流行。

Python和Shell

Shell是一种非常常用的编程语言，属于程序员的基本技能之一。Python则更多地应用于数据挖掘领域以及编写复杂的脚本，这些脚本往往难以用Shell实现。

分布式计算

分布式计算研究的是如何将庞大的计算任务分解成多个小部分，然后分配给多台服务器处理，最后将结果汇总。这就像组长将一个大型项目分解成多个小任务，分别分配给团队成员，最后整合所有人的工作成果。虽然这个过程听起来简单，但实际上涉及很多复杂的问题，比如任务如何分配、个人工作如何协调、成员能力差异如何平衡等。这些问题在分布式计算系统中尤其关键，需要有良好的解决方案。

目前流行的分布式计算工具包括：

离线工具：如Spark和MapReduce。
实时工具：如Spark Streaming、Storm和Flink。

这些工具各有特点和适用场景，后续我将详细介绍它们的不同之处。

分布式存储

传统的集中式存储系统通常由一台服务器存放所有数据，这种方式的性能受限于单一服务器的I/O能力，且在可靠性方面无法满足大规模存储的需求。分布式存储系统则将数据分散存储在多台独立设备上，通过扩展系统架构提高整体性能和可靠性。

例如，HDFS作为分布式文件系统，具备高可靠性和扩展性，数据会被复制三份存储在不同机器上（其中两份在同一机架，一份在其他机架），以确保数据不丢失。NameNode负责统一管理元数据，可以根据需要任意扩展集群。

主流的分布式数据库包括HBase、MongoDB、GreenPlum和Redis等，每个数据库都有自己的应用场景和优势，没有绝对的好坏之分。

分布式调度与管理

尽管现在很多人推崇“去中心化”的概念，但在大数据领域，“中心化”的管理模式仍然非常重要。分布式集群管理需要有一个组件来调度资源，如Yarn；需要另一个组件处理分布式环境下的“锁”问题，如Zookeeper；还需要一个组件来记录任务间的依赖关系并定时调度，如Azkaban。

这些组件并非唯一的解决方案，还有很多替代品可供选择。

总结

回答完这个问题，我想谈谈未来的计划。最近我一直在思考，准备开始撰写一系列文章，记录这些年来的收获和感悟。由于内容较多，我先画了一个思维导图来确定大的方向。考虑到大数据技术更新换代的速度很快，未来我会不断更新这张图和相关文章。

此外，关于组件分类，我尽量做到客观，但难免有所争议。例如，Kafka作为一种消息队列，通常不会与数据库或文件系统放在一起，但它确实具备分布式持久化存储的能力，因此被归类在相关类别中。OpenTSDB作为时序数据库，实际上是基于HBase的一个应用，我认为它更侧重于查询和存储方式，而不是存储本身，因此被放在“分布式计算与查询”这一类。