每天就学2小时,零基础末尾15周后成为顶级大数据人才,附教程
作者头像
  • 数码的生活
  • 2019-09-05 09:10:48 2

第一阶段:Linux + 搜索 + Hadoop 体系

Linux基础 → Shell编程 → 高并发架构 → Lucene, Solr搜索 → Hadoop 体系 → HDFS → MapReduce → HBase → ZooKeeper → Hive → Flume → Sqoop → 项目实战一

第二阶段:机器学习

R语言 → Mahout → 项目实战二

第三阶段:Storm 流式计算

Kafka → Storm → Redis → 项目实战三

第四阶段:Spark 内存计算

Scala编程 → Spark Core → Spark SQL → Spark Streaming → Spark MLlib → Spark GraphX → 项目实战四 → Python 机器学习 → Spark Python编程 → 项目实战五 → 项目实战六

第五阶段:云计算平台

Docker → KVM → OpenStack 云计算 → 就业指导

第一阶段:Linux + 搜索 + Hadoop 体系

本阶段主要介绍Linux基础、Shell编程、高并发架构、Lucene和Solr搜索以及Hadoop体系。Linux是大数据领域的基础,学习Linux有助于更好地掌握Hadoop、HBase、NoSQL、Spark、Storm、Docker、KVM和OpenStack等技术。由于企业广泛使用Linux搭建和部署项目,本阶段将帮助学员掌握Linux的基础知识和常用命令。

  1. Linux基础

    • Linux介绍与安装
    • 机架服务器部署Linux
    • 常用Linux命令
    • 进程管理工具
    • Linux启动流程
    • VI/VIM编辑器
    • 用户和组账户管理
    • 磁盘管理
    • 文件权限管理
    • RPM软件包管理
    • Yum命令与源搭建
    • Linux网络配置与维护
    • Shell编程
    • 软件安装
  2. 高并发架构

    • 负载均衡技术
      • 第四层负载均衡(LVS)
      • 第七层负载均衡(Nginx、Apache)
    • Tomcat与JVM优化
    • 缓存优化(Java缓存框架、Redis、Memcached)
  3. Lucene

    • Lucene介绍
    • 倒排索引原理
    • 建立索引与搜索
    • 查询优化与高亮
  4. Solr

    • Solr介绍
    • Solr在工程中的应用
    • Solr原理
    • Solr在Tomcat中的运行
    • Solr索引与搜索
    • Solr查询、过滤、排序与高亮
  5. Hadoop

    • Hadoop介绍
    • Hadoop生态系统
    • Hadoop架构与集群结构
    • HDFS底层原理与操作
    • MapReduce详解
    • MapReduce案例
    • Hadoop集群搭建与管理
    • HBase介绍与案例
    • 数据仓库Hive
    • 数据迁移工具Sqoop
    • 日志框架Flume
    • ZooKeeper应用

第二阶段:机器学习

本阶段将带领学员进入机器学习领域,通过R语言和Mahout的学习,掌握机器学习的基本理论和实际应用。

  1. R语言

    • R语言介绍
    • 线性回归
    • 聚类算法
    • 决策树分类
    • K均值聚类
    • 关联规则挖掘
    • 神经网络
  2. Mahout

    • Mahout介绍
    • 学习Mahout组件
    • 推荐算法
    • 分类算法
    • 聚类算法
    • TF-IDF与归一化
    • 项目实战

第三阶段:Storm 流式计算

本阶段重点介绍Kafka、Storm和Redis的应用,帮助学员掌握流式计算的相关技术和工具。

  1. Kafka

    • Kafka介绍
    • Kafka架构
    • Kafka配置与安装
    • Kafka存储策略
    • Kafka分区特点
    • 发布与订阅
    • ZooKeeper协调管理
    • Java与Scala编程操作Kafka
    • Kafka与Flume整合
  2. Storm

    • Storm介绍
    • Storm应用场景
    • Storm与Hadoop对比
    • Storm集群搭建
    • Storm组件与编程API
    • WordCount示例
    • Storm开发与调试
    • Storm消息可靠性和容错原理
    • Storm与Kafka整合
    • Storm Trident概念
    • 项目实战

第四阶段:Spark 内存计算

本阶段详细介绍Spark的生态系统、编程模型、计算原理、内存管理和容错处理等内容,使学员能够掌握Spark的各项功能和技术。

  1. Spark

    • Spark介绍
    • Spark应用场景
    • Spark与Hadoop MR、Storm对比
    • RDD与Transformation
    • Spark计算PageRank
    • Spark模型简介
    • Spark缓存策略与容错处理
    • 数据本地性与任务调度
    • Spark源码解读
    • 性能调优
    • Spark与Hadoop2.x整合
  2. Spark Streaming

    • Spark Streaming介绍
    • 数据源与DStream
    • 有状态与无状态转换
    • Window操作
    • Spark SQL编程实战
    • 多语言操作
    • 新特性
  3. Spark MLlib

    • Spark MLlib介绍
    • 回归算法
    • 分类算法
    • 聚类算法
    • 推荐系统
    • 图计算

第五阶段:云计算平台

本阶段重点介绍Docker、KVM和OpenStack,帮助学员掌握云计算平台的构建和管理。

  1. Docker

    • Docker介绍
    • Docker与虚拟机对比
    • Docker架构
    • Docker基本操作
    • Docker镜像迁移
    • Docker网络配置
  2. KVM

    • 虚拟化介绍
    • KVM安装与配置
    • KVM虚拟机管理
    • KVM虚拟机扩展与快照
    • KVM迁移
    • KVM编程控制
  3. OpenStack

    • OpenStack介绍
    • OpenStack模块原理
    • OpenStack安装部署
    • Keystone、Glance、Nova、Cinder、Neutron、Horizon模块详解
    • OpenStack API二次开发
    • 虚拟网络配置与管理

项目实战

  1. 某大型电商日志分析和订单管理

    • 项目技术架构体系:Web项目与云计算项目整合、Flume日志收集、数据ETL、Hive批量SQL执行、Hive与HBase整合、HBase数据查询分析、MapReduce数据挖掘、HBase DAO处理、Sqoop应用、MapReduce定时调用与监控
  2. 微博营销数据挖掘项目

    • 项目技术架构体系:Hadoop、MapReduce、Flume、HBase、Redis、Mahout
  3. 中国移动基站保障平台

    • 项目技术架构体系:Storm、HBase、Kafka、Flume、Echarts
  4. 智慧城市大数据分析项目

    • 项目技术架构体系:Kafka、Spark Streaming、Hadoop、HBase、Redis、Spark MLlib、Struts2、Echart
  5. 手机软件推荐系统项目

    • 项目技术架构体系:Hadoop、Spark、Hive、R、MLlib、Dubbox、Drools
  6. 网络流量异常检测项目

    • 项目技术架构体系:Hadoop、Spark、R、MLlib、数据评估与参数调优

通过以上五个阶段的学习,学员将全面掌握大数据、机器学习、流式计算、内存计算和云计算平台的关键技术和应用。

    本文来源:图灵汇
责任编辑: : 数码的生活
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
末尾就学顶级每天小时成为基础教程人才数据
    下一篇