干货：大数据学习道路，如何学好大数据？（精髓）

川蜀无人机
2020-05-25 14:49:20 2

+关注

Linux基础和分布式集群技术

学完此阶段可掌握的核心技能：

熟练掌握Linux操作系统及其软件安装，了解负载均衡、高可靠性等集群技术，能够搭建高性能、高可靠性的服务架构。

学完此阶段可解决的实际问题：

搭建负载均衡和高可靠的服务器集群，提高网站的并发处理能力，确保服务持续稳定运行。

学完此阶段可具备的市场价值：

具备初级程序员所需的Linux服务器运维技能。

课程内容介绍：

在大数据领域，Linux操作系统因其强大的性能和分布式特性被广泛使用。本课程作为大数据的基础课程，主要涵盖Linux操作系统、常用命令、软件安装、网络配置、防火墙设置及Shell编程等内容。

案例：搭建互联网高并发、高可靠的服务架构

离线计算系统课程阶段

HADOOP核心技术框架

学完此阶段可掌握的核心技能：

了解Hadoop在大数据领域的应用及其工作原理。
掌握HDFS分布式文件系统的操作和开发。
理解MapReduce分布式计算框架的工作原理及其开发方法。
掌握Hive数据仓库工具的使用和开发。

学完此阶段可解决的实际问题：

搭建海量数据离线计算平台。
根据具体业务需求设计和实现海量数据存储方案。
根据具体分析需求完成基于MapReduce的分布式计算程序。

学完此阶段可具备的市场价值：

具备企业数据部门初级开发人员的能力。

1.1 Hadoop快速入门

1.1.1 Hadoop知识背景

介绍Hadoop的历史背景、在大数据云计算中的作用及国内就业情况，课程概览。

国内外Hadoop应用案例介绍。

分布式系统概述、Hadoop生态系统及各组件介绍。

1.1.2 Hive快速入门

介绍Hive的基本概念、应用及数据仓库基础知识。

1.1.3 数据分析流程案例

以Web点击流日志为例，展示数据分析需求、数据来源、处理流程、结果导出及展示。

1.1.4 Hadoop数据分析系统集群搭建

包括集群简介、服务器配置、网络环境设置、JDK安装、Hadoop集群部署及启动、集群状态测试。

Hive配置安装、启动及测试。

1.2 HDFS详解

1.2.1 HDFS的概念和特性

介绍分布式文件系统、HDFS的设计目标及其与其他存储系统的比较。

1.2.2 HDFS的Shell操作

HDFS命令行客户端启动、基本操作、常用命令及参数说明。

1.2.3 HDFS的工作机制

HDFS模块架构、写入数据流程、读取数据流程、NameNode工作机制、元数据存储机制、DataNode工作机制等。

1.2.4 HDFS的Java开发

搭建开发环境、获取客户端对象、HDFS Java客户端功能及操作示例。

1.3 MapReduce详解

1.3.1 MapReduce快速上手

介绍MapReduce的需求背景、程序演示、编程规范、运行模式及调试方法。

1.3.2 MapReduce程序的运行机制

详细解析MapReduce程序运行流程、并发数控制、Combiner组件、序列化框架、排序、自定义分区、Shuffle机制及优化技巧。

通过案例演示，熟悉复杂的MapReduce程序开发，计算Nginx日志中的访问次数及时间长度。

1.4 Hive增强

1.4.1 Hive基本概念

介绍Hive的应用场景、架构、与Hadoop的关系、与传统数据库的对比、数据存储机制及运算执行机制。

1.4.2 Hive基本操作

包括DDL、DML操作、高效JOIN查询、内置函数使用、Shell高级应用、参数配置及自定义函数开发。

1.4.3 Hive高级应用

涵盖Hive执行过程分析及优化策略、实战案例、数据ETL及用户访问时长统计。

离线数据挖掘系统

学完此阶段可掌握的核心技能：

通过学习数据仓库知识，掌握数据仓库的核心概念和设计流程；通过学习Hadoop生态系统的辅助工具，掌握Hadoop分析系统的整合能力；通过实战项目，掌握离线数据挖掘系统的完整流程。

学完此阶段可解决的实际问题：

根据企业需求设计海量数据分析系统架构。
根据具体场景调整数据分析技术选型。
搭建完整的离线数据分析系统。
设计简单的数据仓库模型。
完成各个环节的具体功能模块开发。

学完此阶段可具备的市场价值：

具备企业数据部门中高级开发人员和初级架构师的能力。

2.1 数据仓库增强

2.1.1 数据仓库及数据模型入门

介绍数据仓库的概念、意义、核心概念及体系结构。

2.1.2 数据仓库设计

包括数据仓库建设步骤、数据抽取、转换、加载、数据模型设计及架构选择。

2.1.3 数据仓库设计实战

通过实际业务需求分析，设计合理的数据模型。

2.2 离线辅助系统

2.2.1 数据采集系统

介绍数据采集概念、Flume日志采集框架、工作机制、核心组件及配置示例。

2.2.2 任务调度系统

介绍任务调度系统概念、常用工具比较、Oozie介绍及配置示例。

2.2.3 数据导出

介绍数据导出概念、Sqoop基础知识、原理及配置示例、数据导入和导出实战、批量作业操作。

2.3 Web点击流日志分析系统实战项目

2.3.1 项目介绍

介绍数据驱动型商业模式及其实现方法。

2.3.2 需求分析

介绍点击流日志的商业价值、分析需求及业务模型设计。

2.3.3 系统设计及开发

包括系统架构设计、数据采集设计、数据存储设计、数据统计设计、报表统计设计及业务目的设计。

2.3.4 任务调度系统设计

包括任务调度单元设计、各环节任务频率及依赖关系、工作流设计及配置。

2.3.5 数据可视化

包括数据导出、报表展现系统技术选型、Web展现程序架构搭建及页面设计开发。

实时计算部分阶段

1. 流式计算核心技术

学完此阶段可掌握的核心技能：

了解实时计算及其应用场景。
掌握Storm开发及底层原理、Kafka开发及底层原理。
具备Kafka与Storm集成应用的能力。

学完此阶段可解决的实际问题：

具备开发基于Storm的实时计算程序的能力。

学完此阶段可具备的市场价值：

具备实时计算开发的技术能力，但需要进一步提升对业务的理解。

1.1 流式计算一般结构

介绍流式计算的一般架构，包括数据采集、数据缓冲、数据处理、数据输入。

一般情况下，使用Flume+kafka+Storm+Redis结构进行流式数据分析。课程重点学习Kafka和Storm。

1.2 流式计算的应用场景

介绍一淘、携程、游戏公司、腾讯等企业在流式计算方面的应用。

1.3 Storm核心技术点

介绍Storm的基础技术点，包括Linux环境准备、ZooKeeper集群搭建、Storm集群搭建、配置文件配置及常见问题处理。

Storm练习案例

通过案例演示如何实时计算订单金额，展示Storm在实际中的应用。

Storm基础及原理

介绍Storm常用组件和编程API，包括Topology、Spout、Bolt、分组策略、Maven环境搭建、开发示例、本地调试、消息可靠性和容错机制等。

1.4 Kafka核心技术点

介绍Kafka的基本概念（Producer、Consumer、Topic、Broker等）、应用场景、与Storm的结合及编程API、负载均衡及消息存储原理。

2. 流式计算案例实战

实战案例

包括基于点击流的日志分析系统、基于系统日志的监控报警系统、基于订单系统的交易风控系统。

学完此阶段可掌握的核心技能：

掌握企业核心业务需求。
掌握实时系统常见的开发流程及运营经验。

学完此阶段可解决的实际问题：

能够独立开发Storm程序以满足业务需求。

学完此阶段可具备的市场价值：

熟练掌握后，可满足企业开发的初级需求，薪资普遍在15000-18000元/月。

2.1 案例：流量日志分析

介绍流量日志分析的漏斗模型及基础数据分析。

2.2 案例：统一监控报警系统

介绍如何实时监控多个系统的运行情况，及时发现问题并处理。

Spark内存计算阶段

学完此阶段可掌握的核心技能：

掌握Scala函数式编程特性，熟练使用Scala开发程序，能够读懂Scala编写的源码。
搭建Spark集群，使用Scala编写Spark计算程序，理解Spark原理，能够阅读Spark源码。
理解DataFrame和RDD之间的关系，熟练使用DataFrame API，熟练使用Spark SQL处理结构化数据，能够对接各种数据源并将处理结果写回存储介质。
理解Spark Streaming的核心DStream，掌握DStream的编程API并编写实时计算程序。

学完此阶段可解决的实际问题：

熟练使用Scala快速开发Spark大数据应用，通过计算分析大量数据，挖掘出有价值的数据，为企业提供决策依据。

学完此阶段可具备的市场价值：

掌握Spark后，具备中级大数据工程师的能力，薪资可达20K~25K。

1. Scala函数式编程

介绍Scala作为面向对象和函数式编程语言的优点，以及Spark底层使用Scala编写的原因。

案例：Scala编程实战

基于Akka框架，编写一个简单的分布式RPC通信框架。

2. 使用Spark处理离线数据

介绍Spark作为基于内存的大数据并行计算框架的优势，以及其在大数据处理中的应用。

3. 使用Spark SQL处理结构化数据

介绍Spark SQL的前身Shark，如何将SQL转换为RDD任务并在Spark集群中运行，相比Hive的性能提升。

4. 使用Spark Streaming完成实时计算

介绍Spark Streaming的特点及应用，支持多种数据源和多种计算操作，能够与机器学习库和图形库无缝对接。

5. Spark综合项目

介绍如何使用Spark SQL和Spark Streaming对游戏数据进行分析，包括玩家登录、游戏日志、用户留存、充值比例、游戏收入、外挂分析等方面。

通过上述项目，帮助游戏运维人员了解游戏运营状况，提供个性化的调整策略，确保游戏健康、稳定的运营。

以上就是整理的关于大数据学习路径及如何学好大数据的相关内容。

图灵汇

责任编辑：：川蜀无人机

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

数据干货精髓学好道路如何学习

zhouyun66

2020-05-25

Linux基础和分布式集群技术

离线计算系统课程阶段

实时计算部分阶段

Spark内存计算阶段

大佬终于讲明白了大数据基础框架、数据库、大数据分析分布式技术