40个大数据学习资源“干货”最后7个最给力,给不给力看完再说
作者头像
  • 18500355862
  • 2019-08-06 11:49:21 3

“数据是推动商业发展的核心,也是未来人类社会的关键。”

这句话虽有些断章取义,但其含义清晰明确。接下来的内容将为你介绍40个教程,旨在帮助那些对未来充满信心、积极进取的学习者。这些教程涵盖了大数据领域的大部分基础知识,从Java基础到Scala、Hadoop、HBase、Mahout、Sqoop和Spark等。

获取资料的方式:

请分享本文,并在私信中发送“资料”。

入门知识

  1. Linux 基础入门(最新版)
  2. Vim 编辑器
  3. Git 实战教程
  4. MySQL 基础课程
  5. MongoDB 基础教程
  6. Redis 基础教程

这些教程的主要特点是注重实践操作。不同于市面上大多数收费教程,这些教程的核心在于动手实践。跟随教程的步骤,在在线Linux系统中逐一敲出代码,完成有趣的项目。这样可以避免只看书或看视频而不动手的情况,让你学得更快。

Java基础

  1. Java编程语言(最新版) 该教程涵盖Java语言的基础语法、Java平台的应用、JVM、JDK、JRE以及面向对象的思想等内容。此外,还会教你如何搭建Java开发环境,并利用第三方工具进行开发。

  2. Java进阶之设计模式 该教程介绍了常用的设计模式及其在Java中的具体实现,如工厂模式、抽象工厂模式、单例模式、适配器模式、观察者模式和装饰器模式等。

  3. JDK核心API 学习Java.lang包、java.util包、java.io包、Swing以及多线程的知识。

  4. JDBC入门教程 通过学习JDBC的定义和架构,回顾SQL语法,搭建JDBC环境,并通过实例深入学习JDBC。此外,还将学习如何连接数据库并编写一个信息管理系统,从而提高数据库管理技能。

  5. Java 8新特性指南 该教程介绍了Lambda表达式、函数式接口、Stream流和Date/Time API等知识点。适合Java初学者或有一定编程经验的开发者。

Scala基础

  1. Scala开发教程 Scala是一门多范式的编程语言,类似于Java,旨在实现可伸缩的语言,集成面向对象编程和函数式编程的各种特性。

  2. Scala专题教程 - Case Class和模式匹配 该教程重点介绍了Scala的Case Class和模式匹配,这两个程序结构对于处理树状数据非常有帮助。

  3. Scala专题教程 - 隐式转换和隐式参数 主要介绍了Scala中的隐式转换和隐式参数,以及如何通过它们简化函数库调用。

  4. Scala专题教程 - 抽象成员 介绍了Scala中的抽象成员的用法,包括Type成员和抽象vals变量的初始化方法等。

  5. Scala专题教程 - Extractor 讲解了Scala中的Extractor,它可以在数据模型和视图逻辑之间起到适配器的作用,是一种具有函数式特点的做法。

  6. 使用Scala开发24点游戏 24点是一种数学游戏,类似于象棋和围棋,是一种广受喜爱的娱乐活动。通过这个教程,你将学会如何使用Scala开发一个24点游戏。

Hadoop技术模块

  1. Hadoop部署及管理 Hadoop是一款支持数据密集型分布式应用的开源软件框架,本教程将教你如何部署和管理Hadoop系统。

  2. Hadoop入门进阶课程 涵盖了大数据领域常见的组件,如Hadoop、MapReduce、HBase、Mahout、Pig、Hive和Sqoop等。首先从理论上进行介绍,然后在实验环境中逐步搭建和学习相关案例。

  3. HBase教程 HBase是一个开源的非关系型分布式数据库,运行于HDFS之上,为Hadoop提供了类似BigTable规模的服务。

  4. Hadoop分布式文件系统——导入和导出数据 在经典的数据架构中,Hadoop是处理复杂数据流的核心。数据通常从多个分散的系统收集并导入HDFS,通过MapReduce或其他基于MapReduce封装的语言进行处理,最终将结果导出到一个或多个外部系统中。

  5. 使用Flume收集数据 Flume可以从多个数据源获取数据,并将其传输到远程主机。尽管Flume提供了开发自定义数据源和数据目标的编程API,但它本身支持许多常见场景。

  6. Kafka快速上手教程 介绍了Kafka及其工作原理,然后讲解了Kafka与Flume的集成、KafkaOffsetMonitor的安装和使用,并通过案例演示学习。

  7. 基于Hadoop的武侠小说词频分析 利用实验楼提供的Hadoop环境,对一本武侠小说的文集进行简单的词频统计,从而得到该书中出现频率最高的人名。

  8. Hadoop图处理——《Hadoop应用框架》 Hadoop的MapReduce提供了一层合并功能,因此我们需要逐层处理图数据。Giraph是Google Pregel的一种开源实现。本教程将基于Hadoop平台完成Giraph分布式系统中的图处理。

Spark技术模块

  1. Spark 2.x快速入门教程 Spark进入2.0时代,引入了许多优秀特性,提升了功能,API更加易用。实现了离线计算和流计算API的一致,Spark SQL和Hive SQL操作API的一致。真正做到了“更简单、更快速、更智能”。

  2. Spark大数据动手实验 通过9个实验,带你体验Spark大数据分析的魅力,这是最快上手的教程,涵盖了最新的技术和最多动手实践的机会。

  3. Spark基础之GraphX图计算框架学习 GraphX通过RDD的扩展,在其中引入了一个新的图抽象,即带属性的有向多重图,提供了一些基本运算符和优化的Pregel API,支持图计算。

  4. 实时日志分析系统——《Spark最佳实践》 我们将基于Spark Streaming流式计算框架,完成一个类似于百度分析的系统。本教程源自图灵教育的《Spark最佳实践》第6章第3节。

  5. Spark基础之DataFrame基本概念学习 通过分析航班准点率数据集,学习DataFrame的由来、构建方式以及一些常用操作。本教程将帮助你了解Spark生态系统中,核心的RDD与DataFrame之间的区别和联系。

  6. Spark基础之DataFrame高级运用技巧 通过深入讲解,利用真实的SFPD数据集,结合实际问题的分析过程,学习DataFrame的创建方式、常用操作、UDF自定义函数和重分区相关知识。

  7. Spark基础之Streaming快速上手 Spark Streaming是Spark引擎的一种扩展,适用于实时处理流式数据。本教程将带你学习Spark Streaming的工作机制,了解Streaming应用的基本结构,以及如何在Streaming应用中附加SQL查询。

  8. Spark基础之SQL快速上手 你将学习Spark SQL的基础概念,了解如何应用SQLContext及相关API进行统计分析。最后还将通过一个分析股票价格与石油价格关系的实例,进一步学习如何应用Spark SQL分析数据。

  9. Spark基础之运用机器学习库MLlib 你将学习Spark的机器学习库——MLlib的相关知识,了解MLlib与ML的区别和联系,掌握MLlib中的基本数据类型。通过电影推荐实例,讲解如何应用机器学习算法解决实际问题。

  10. Spark基础之SparkR快速上手 学习Spark平台中对R语言的支持前端——SparkR。教程将讲解如何在SparkR中创建和操作DataFrame、运行SQL查询,以及应用机器学习相关的API。

  11. 使用Spark和D3.js分析航班大数据 通过一个航班数据分析实例,学习Spark综合技巧和数据可视化技术。在航班数据分析实验中,可以学习如何使用OpenRefine进行简单的数据清洗,以及如何通过Spark提供的DataFrame、SQL和机器学习框架等工具对航班起降记录数据进行分析,尝试找出造成航班延误的原因,并对航班延误情况进行预测。

大数据进阶项目

  1. eBay在线拍卖数据分析 介绍如何利用eBay上的拍卖数据进行分析,完成通过数据分析判断拍卖是否能成功交易以及预测最终成交价格。

  2. 实时日志分析系统——《Spark最佳实践》 基于Spark Streaming流式计算框架,完成一个类似于百度分析的系统。本教程源自图灵教育的《Spark最佳实践》第6章第3节。

  3. Spark模式挖掘—FPGrowth算法 模式挖掘也称为关联规则,即从大量数据中挖掘出有用的关联规则。例如,超市有大量的购物数据,可以根据用户的购物数据找到哪些商品之间关联性较大,从而进行关联销售。也可以进行用户推荐。

  4. Twitter数据情感分析 使用Spark MLlib对Twitter上的流数据进行情感分析,并利用Python的工具包Basemap可视化美国不同州对前总统候选人希拉里和特朗普的情感分析结果,通过地理信息可视化直观感受到这两位候选人的受欢迎程度。

  5. Spark流式计算电商商品关注度 使用Socket模拟用户浏览商品产生的实时数据,包括用户当前浏览的商品、浏览次数、停留时间和是否收藏该商品等。使用Spark Streaming构建实时数据处理系统,计算当前电商平台最受关注的商品。

  6. 使用Spark进行流量日志分析 日志在计算机系统中是一个广泛的概念,任何程序都可能产生日志,例如操作系统内核、各种应用服务器等。日志包含了大量有用的信息,如访问者的IP地址、访问时间、访问的目的网页、来源地址以及访问者使用的客户端UserAgent信息等,分析日志有助于企业制定营销决策。

  7. 大数据揭秘打车秘诀 分析在哪些地方更容易打到出租车,在什么时间段更容易打到出租车。本教程将基于某市的出租车行驶轨迹数据,利用Spark SQL和机器学习相关技巧,通过数据可视化手段展示分析结果。

获取资料的方式:

请分享本文,并在私信中发送“资料”。

    本文来源:图灵汇
责任编辑: : 18500355862
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
干货学习资源再说最后数据
    下一篇