“Hadoop大数据平台开发与案例分析 ”高级工程师 实战培训班的通知 ...
作者头像
  • 飞机领头羊
  • 2018-09-03 18:41:51 1

课程介绍

1. 需求理解

Hadoop 自设计之初便致力于高可靠性、高可扩展性、高容错性和高效性,这些特性使其迅速获得众多大公司的青睐,并引起了学术界的高度关注。

对于电信运营商来说,用户上网日志包含大量用户个性化需求和偏好信息。通过对这些数据进行分析和挖掘,可以更深入地了解客户需求。传统的经营分析系统采用小型机加关系型数据库架构,无法有效处理海量非结构化数据。建立基于X86的Hadoop平台,引入大数据处理技术,可以实现高效、低成本、易于扩展的经营分析系统,这是电信运营商最倾向的选择。本课程将详细介绍Hadoop平台的开发和运维技术,帮助学员更好地掌握这些实用技术。

2. 培训课程架构与设计思路

培训架构:

本课程分为三个主要部分:

  • 第一部分: 重点介绍大数据技术的应用,使学员对大数据技术的广泛应用有清晰认识。在此部分中,我们将详细介绍Hadoop技术在大数据领域的关键作用。
  • 第二部分: 对Hadoop技术进行模块化拆解,从大数据文件存储系统和分布式文件系统平台及其应用开始,介绍Hadoop技术的主要工具和方法,以及在运维维护中的主流做法,使学员全面掌握Hadoop技术的核心内容。
  • 第三部分: 通过剖析大数据的实际应用案例,加深学员对Hadoop技术的理解和认识。

设计思路:

本课程采用模块化教学方法,以案例分析为主线,从浅入深、循序渐进地讲解理论知识和实践操作。

与企业的贴合点:

本课程结合企业转型和大数据发展战略,围绕企业大数据业务及行业应用市场拓展目标,重点讲授Hadoop技术的应用,提升企业IT技术人员的开发和运维能力。

培训时间及地点

报名咨询:13932327338(微信同号)

培训时间:2018年9月12日-9月16日,上海(12日报到)

培训对象

  • 业务支撑建设维护室、业务维护室、经营分析室人员
  • 网络部、网管中心、网优中心从事大数据相关工作的人员

培训目标

掌握大数据处理平台(Hadoop、Spark、Storm)的技术架构、安装部署、运维配置和应用开发。了解Hadoop和Spark在实际中的应用,学会使用Hadoop和Spark进行行业大数据存储管理、分析挖掘。了解Hadoop生态系统组件,如Storm、HDFS、MapReduce、HIVE、HBase、Spark、GraphX、MLib、Shark、ElasticSearch等。

培训大纲

时间安排

| 时间 | 内容 | 教学方式 | |------|------|----------| | 第一天 | 移动互联网、大数据、云计算相关技术介绍;大数据的挑战和发展方向 | 理论讲授+案例分析 | | 下午 | 大数据文件存储系统技术和分布式文件系统平台及其应用;Hadoop文件系统HDFS最佳实战 | 理论讲授+案例分析+小组讨论 | | 第二天 | Hadoop运维管理与性能调优;NOSQL数据库Hbase与Redis | 理论讲授+案例分析+实战演练 | | 下午 | 类SQL语句工具——Hive;数据挖掘SPARK建模基础介绍 | 理论讲授+案例分析+实战演练 | | 第三天 | Kafka基础介绍;大数据典型应用与开发案例分析:互联网数据运营 | 理论讲授+案例分析 | | 下午 | 当前数据中心的改造和转换分析;课程总结与问题答疑 | 理论讲授+案例分析+小组讨论 |

课程内容

模块一: 移动互联网、大数据、云计算相关技术介绍

  • 数据中心与云计算技术应用
  • 智慧城市与云计算技术应用
  • 移动互联网、大数据与云计算关联技术
  • 移动云计算生态系统及产业链
  • 大数据技术在不同行业的应用实践
  • 国内外主流的大数据解决方案介绍
  • 大数据解决方案与传统数据库方案的比较
  • Cloudera Hadoop大数据平台方案剖析
  • 开源的大数据生态系统平台剖析

模块二: 大数据的挑战和发展方向

  • 大数据时代的挑战
    • 战略决策能力
    • 技术开发和数据处理能力
    • 组织和运营能力
  • 大数据时代的发展方向
    • 云计算作为基础设施架构
    • 大数据是灵魂资产
    • 分析、挖掘是手段
    • 发现和预测是最终目标
  • 大数据挖掘在各行业的应用情况
    • 电信行业应用及案例分析
    • 互联网行业应用及案例分析
    • 金融行业应用及案例研究
    • 销售行业应用案例分析

模块三: 大数据文件存储系统技术和分布式文件系统平台及其应用

  • Hadoop的发展历程
    • Hadoop大数据平台架构
    • PB级大数据存储管理与分析处理的工作原理与机制
    • Hadoop核心组件剖析
  • 分布式文件系统HDFS
    • 概述、功能、作用、优势
    • 应用范畴、应用现状
    • 发展趋势
  • 分布式文件系统HDFS架构及原理
    • 核心关键技术
    • 设计精髓
    • 基本工作原理
    • 系统架构
    • 文件存储模式
    • 工作机制
    • 存储扩容与吞吐性能扩展
  • 分布式文件系统HDFS操作
    • SHELL命令操作
    • I/O流式操作
    • 文件数据读取、写入、追加、删除
    • 文件状态查询
    • 数据块分布机制
    • 数据同步与一致性
    • 元数据管理技术
    • 主节点与从节点工作机制
    • 大数据负载均衡技术
    • HDFS大数据存储集群管理技术

模块四: Hadoop文件系统HDFS最佳实战

  • HDFS的设计
  • HDFS的概念
    • 数据块
    • namenode和datanode
    • 联邦HDFS
    • HDFS的高可用性
  • 命令行接口
  • Hadoop文件系统
  • Java接口
    • 从Hadoop URL读取数据
    • 通过FileSystem API读取数据
    • 写入数据
    • 目录
    • 查询文件系统
    • 删除数据
  • 数据流
    • 剖析文件读取
    • 剖析文件写入
    • 一致模型
  • 通过Flume和Sqoop导入数据
  • 通过distcp并行复制
  • Hadoop存档
    • 使用Hadoop存档工具
    • 不足之处

模块五: Hadoop运维管理与性能调优

  • 第二代大数据处理框架
    • Yarn的工作原理及DAG并行执行机制
    • Yarn大数据分析处理案例分析
    • Yarn框架并行应用程序实践
  • 集群配置管理
    • Hadoop集群配置
    • Hadoop性能调优与参数配置
    • Hadoop机架感知策略与配置
    • Hadoop压缩机制
    • Hadoop任务负载均衡
    • Hadoop集群维护
    • Hadoop监控管理
  • HDFS的静态调优技巧
    • HDFS的高吞吐量I/O性能调优技巧
    • MapReduce/Yarn的并行处理性能调优技巧
    • Hadoop集群的运行故障剖析及解决方案
    • 基于Hadoop大数据应用程序的性能瓶颈剖析与提升
    • Hadoop大数据运维监控管理系统HUE平台的安装部署与应用配置
    • Hadoop运维管理监控系统Ambari平台的安装部署与配置
    • Hadoop集群运维系统Ganglia、Nagios的安装部署与应用配置

模块六: NOSQL数据库Hbase与Redis

  • NOSQL基础
    • CAP理论
    • BASE与ACID
    • NOSQL数据库存储类型
      • 键值存储
      • 列存储
      • 文档存储
      • 图形存储
  • HBase分布式数据基础
  • 安装Hbase
  • Hbase应用
    • HBase的逻辑数据模型
    • 表、行、列族、列、单元格、版本、row key排序
    • HBase的物理模型
    • 命名空间(表空间)、表模式(Schema)的设计法则
    • HBase主节点HMaster的工作原理、高可用配置及性能调优
    • HBase从节点RegionServer(分区服务节点)的工作原理、表分区及存储I/O高并发配置及性能调优
    • HBase存储引擎工作原理及HBase表数据的键值存储结构、HFile存储结构剖析
    • HBase表设计与数据操作及数据库管理操作
    • HBase集群的安装部署、参数配置及性能优化
  • HBase分布式数据库简介、发展历程、应用场景、工作原理、应用优势与不足之处
    • HBase分布式数据库集群的主从式平台架构和关键技术剖析
    • HBase伪分布式和物理集群分布式的控制与运行配置
    • HBase从节点RegionServer(分区服务节点)的工作原理、表分区及存储I/O高并发配置及性能调优
    • HBase存储引擎工作原理及HBase表数据的键值存储结构、HFile存储结构剖析
    • HBase表设计与数据操作及数据库管理操作
    • HBase集群的安装部署、参数配置及性能优化
    • ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战
    • ZooKeeper集群的原理架构及应用配置
  • Redis内存数据库介绍及业界应用案例
    • Redis内存数据库集群架构及核心技术剖析
    • Redis集群的安装部署与应用开发实战

模块七: 类SQL语句工具——Hive

  • 安装Hive
  • 示例
  • 运行Hive
    • 配置Hive
    • Hive服务
    • Metastore
  • Hive与传统数据库对比
    • 读时模式vs.写时模式
    • 更新、事务和索引
  • HiveQL
    • 数据类型
    • 操作与函数
    • 托管表和外部表
    • 分区和桶
    • 存储格式
    • 导入数据
    • 表的修改
    • 表的丢弃
  • 查询数据
    • 排序和聚集
    • MapReduce脚本
    • 连接
    • 子查询
    • 视图
  • 用户定义函数
    • 编写UDF
    • 编写UDAF

模块八: 数据挖掘SPARK建模基础介绍

  • Spark简介
    • Spark是什么
    • Spark生态系统BDAS
  • Spark架构
    • Spark分布式架构与单机多核架构的异同
  • Spark集群的安装与部署
    • Spark的安装与部署
    • Spark集群初试
  • Spark硬件配置
    • Spark硬件
    • Spark硬件配置流程

模块九: Kafka基础介绍

  • Kafka介绍
  • Kafka体系结构
  • Kafka设计理念简介
  • Kafka通信协议
  • Kafka的伪分布安装、集群安装
  • Kafka的shell操作、java操作
  • Kafka设计理念
  • Kafka producer和consumer开发
  • Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战
  • Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战
  • Hadoop与DBMS之间数据交互工具Sqoop的应用实践
  • Sqoop导入导出数据以及Sqoop集群部署与配置
  • Kettle集群的平台架构、核心技术、部署配置和应用实战
  • 利用Sqoop实现MySQL与Hadoop集群之间的数据交换

模块十: 大数据典型应用与开发案例分析:互联网数据运营

  • 案例1:贵州数据交易中心
    • 交易所交易形式:电子交易
    • 交易所服务:大数据交易、大数据清洗建模分析、大数据定向采购、大数据平台技术开发
    • 大数据交易安全性探讨分析
    • 数据交易中心商业模式探讨分析
  • 案例2:大数据应用案例:公共交通线路的智能规划
    • UrbanInsights:为公交公司提供基于订阅访问的大数据工具及大数据咨询服务
    • Urban Insights数据源、数据收集、数据仓库、数据分析——设计运营线路
    • Urban Insights通过互联网数据的运营
  • 讨论:浙江移动大数据应用与开发方向

模块十一: 当前数据中心的改造和转换分析

  • 流商业大数据解决方案比较
  • 主流开源云计算系统比较
  • 国内外代表性大数据平台比较
  • 各厂商最新的大数据产品介绍
  • 案例分析
    • Facebook的SNS平台应用
    • Google的搜索引擎应用
    • Rackspace的日志处理
    • Verizon成立精准市场营销部
    • Telefonica Dynamic Insights推出的名为“智慧足迹”的商业服务
    • 中国联通的“移动通信用户上网记录集中查询与分析支撑系统”

模块十二: 课程总结与问题答疑

师资介绍

张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家。他多年来深入研究HDFS、MapReduce、HBase、Hive、Mahout、Storm、Spark和openTSDB等Hadoop生态系统中的技术,并将其应用于大量实际项目中,积累了丰富的Hadoop开发和运维经验。近年来的主要项目包括:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

颁发证书

参加相关培训并通过考试的学员,可以获得: - 工业和信息化部颁发的《HADOOP大数据》技能证书。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。注:请学员带一寸彩照2张(背面注明姓名)、身份证复印件一张。

培训费用及须知

培训费用:6800元/人(含教材、培训费、考证费以及学习用具等费用)。食宿统一安排,费用自理。

    本文来源:图灵汇
责任编辑: : 飞机领头羊
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
培训班高级工程师案例分析实战通知数据Hadoop开发平台
    下一篇