“数据是推动商业发展和未来社会进步的核心。”
明天将为大家介绍40个涵盖大数据基础知识的教程,这些教程特别适合对未来充满期待的进取型学习者。内容包括从Linux基础入门到Scala、Hadoop、HBase、Mahout、Sqoop以及Spark等各个方面的知识。
入门知识
这些教程的主要特点是强调实践操作。不同于市场上大多数的付费教程,本教程的核心在于动手实践。通过文档指导,在在线Linux系统中逐步敲击代码,参与各种有趣的项目。这样可以避免单纯看书或看视频而不动手的情况,从而提高学习效率。
Java基础
Java编程语言(最新版) 本教程介绍Java的基本语法、Java平台的应用以及Java的核心概念,如JVM、JDK、JRE和面向对象的思想。此外,还会教授如何搭建Java开发环境以及如何使用第三方工具进行Java程序开发。
Java进阶设计模式 本教程介绍常用的Java设计模式及其实际应用,例如工厂模式、抽象工厂模式、单例模式、适配器模式、观察者模式和装饰者模式等。
JDK核心API 学习Java.lang包、java.util包、java.io包、Swing以及多线程相关知识。
JDBC入门教程 通过学习JDBC定义和架构,回顾SQL语法,搭建JDBC环境,并通过实例深入学习JDBC。本教程将教你如何用Java连接数据库,并编写信息管理系统程序,从而提升数据库管理能力。
Java 8新特性指南 介绍Lambda表达式、函数式接口、Stream流和Date/Time API等知识点,适合Java初学者或有一定编程经验的开发者。
Scala基础
Scala开发教程 Scala是一门多范式编程语言,类似于Java,旨在实现可伸缩的语言,并结合面向对象编程和函数式编程的各种特性。
Scala专题教程 - Case Class和模式匹配 本教程重点介绍Scala的Case Class和Pattern Matching,这两个程序结构对于处理树状数据非常有帮助。你将学会常量模式、通配模式和变量模式等。
Scala专题教程 - 隐式转换和隐式参数 主要介绍Scala中使函数库调用更便捷的隐式转换和隐式参数,以及如何通过它们避免繁琐和不必要的细节问题。
Scala专题教程 - 抽象成员 主要介绍Scala中的抽象成员用法。你将学习如何使用Type成员和抽象vals变量的初始化方法等要点。
Scala专题教程 - Extractor 本教程详细讲解Scala中的Extractor,它可以在Scala体系中充当适配器角色,实现数据模型与视图逻辑的分离。你将学会如何定义和设置Extractor。
Scala开发二十四点游戏 24点是一种数学游戏,类似于象棋和围棋。它始于何时已无从考证,但因其独特的数学魅力和丰富内涵逐渐受到更多人的欢迎。
Hadoop技术模块
Hadoop部署及管理 Hadoop是一款支持数据密集型分布式应用的开源软件框架,本教程将学习并实际部署Hadoop系统,并了解其基本运用和管理。
Hadoop入门进阶课程 涵盖了大数据领域的常见组件,如Hadoop、MapReduce、HBase、Mahout、Pig、Hive和Sqoop等。首先从理论上进行介绍,然后在实验环境中一步步搭建,并进行案例学习。
HBase教程 HBase是一个开源的非关系型分布式数据库(NoSQL),运行于HDFS文件系统之上,为Hadoop提供了类似BigTable规模的服务。
Hadoop分布式文件系统——数据导入和导出 Hadoop是处理复杂数据流的核心。数据通常从多个分散的系统中收集,并导入Hadoop分布式文件系统(HDFS)中,通过MapReduce或其他基于MapReduce封装的语言进行处理,将处理结果导出到一个或多个外部系统中。
使用Flume收集数据 Flume可以从多个数据源获取数据,并将其传输到远程主机。尽管Flume提供了开发自定义数据源和数据目标的编程API,但它本身支持许多常见的场景。
Kafka快速上手教程 介绍Kafka及其工作原理,讲解Kafka集成Flume、KafkaOffsetMonitor安装和使用,并通过案例演示,帮助你深入了解Kafka并快速上手。
基于Hadoop的武侠小说词频分析 利用实验楼提供的Hadoop环境,对一本武侠小说的文集进行简单的WordCount词频统计,以得到该书中出现频率最高的人名。需要一定的Hadoop和MapReduce基础。
Hadoop图处理——《Hadoop运用框架》 Hadoop的MapReduce提供了一层合并,这意味着我们需要像剥洋葱一样处理图数据。Giraph是Google Pregel的一种开源实现。本教程将在Hadoop平台上完成Giraph分布式系统中的图处理。
Spark技术模块
Spark2.x快速入门教程 Spark进入了2.0时代,引入了许多优秀特性,提升了功能,使API更加易用。在“编程一致性”方面表现优异,实现了离线计算和流计算API的一致性,以及Spark SQL和Hive SQL操作API的一致性,真正做到了“更简单、更快速、更智能”。
Spark大数据动手实验 九个实验带你亲身体验Spark大数据分析的魅力,是最快速的上手教程,涵盖最新的技术领域和最多动手实践。
Spark基础之GraphX图计算框架学习 GraphX通过RDD的扩展,引入了一个新的图抽象,即具有特性的有向多重图,提供了一些基本运算符和优化过的Pregel API,以支持图计算。
流式实时日志分析系统——《Spark最佳实践》 我们将基于Spark Streaming流式计算框架,简单地完成一个类似于百度分析的系统。本教程源自《Spark最佳实践》第六章第三节,感谢图灵教育授权实验楼发布。
Spark基础之DataFrame基本概念学习 针对飞行准点率数据集,通过一些简单的分析任务来学习DataFrame的由来、构建方式以及一些常用操作。你可以了解到Spark生态系统中,核心的RDD与DataFrame之间的区别和联系。
Spark基础之DataFrame高级运用技巧 通过更深入的讲解,结合真实SFPD数据集,带你学习DataFrame的创建方式、常用操作、UDF自定义函数和重分区相关知识。
Spark基础之Streaming快速上手 Spark Streaming是Spark引擎的一种扩展,适用于实时处理流式数据。本教程将教你了解Spark Streaming的工作机制,掌握Streaming应用的基本结构,以及如何在Streaming应用中附加SQL查询。
Spark基础之SQL快速上手 你将学习Spark SQL的基础概念,了解如何使用SQLContext及相关API进行统计分析。最后,通过分析股票价格与石油价格关系的实例,进一步学习如何使用Spark SQL分析数据。
Spark基础之使用机器学习库MLlib 你将学习Spark的机器学习库——MLlib的相关知识,了解MLlib与ML的区别和联系,掌握MLlib中的几个基本数据类型。通过一个电影推荐实例,讲解如何应用机器学习算法解决实际问题。
Spark基础之SparkR快速上手 学习Spark平台中对R语言的支持前端——SparkR。教程将讲解如何在SparkR中创建和操作DataFrame、如何运行SQL查询,以及如何应用机器学习相关API。
使用Spark和D3.js分析航班大数据 通过一个航班数据分析实例,学习Spark综合技巧和数据可视化技术。在航班数据分析实验中,你可以学习如何使用OpenRefine进行简单的数据清洗,以及如何通过Spark提供的DataFrame、SQL和机器学习框架等工具,对航班起降记录数据进行分析,找出造成航班延误的原因,并预测航班延误情况。
大数据进阶项目
eBay在线拍卖数据分析 介绍如何使用eBay上的拍卖数据进行数据分析,完成通过数据判断拍卖最终是否能成功交易和预测最终成交价格的任务。
流式实时日志分析系统——《Spark最佳实践》 我们将基于Spark Streaming流式计算框架,简单地完成一个类似于百度分析的系统。本课教程源自《Spark最佳实践》第六章第三节,感谢图灵教育授权实验楼发布。
Spark模式挖掘—FPGrowth算法 模式挖掘也称关联规则,是从大量数据中发掘出有用数据的过程,例如挖掘频繁项。通过关联规则可以进行商品推荐,也可以进行用户推荐。
Twitter数据情感分析 使用Spark MLlib对Twitter上的流数据进行情感分析,并通过Python的工具包basemap可视化美国各州对前总统候选人希拉里和特朗普的情感分析结果,从而直观地感受到两位候选人的受欢迎程度。
Spark流式计算电商商品关注度 使用Socket模拟用户阅读商品产生的实时数据,数据包括用户当前阅读的商品、阅读次数、停留时间以及是否收藏该商品。使用Spark Streaming构建实时数据处理系统,计算当前电商平台最受关注的商品。
使用Spark进行流量日志分析 日志在计算机系统中非常重要,任何程序都可能生成日志。日志包含很多有用的信息,例如访问者的IP、访问的时间、访问的目标网页、来源的地址以及访问者使用的客户端的UserAgent信息等。通过分析日志可以帮助企业做出决策。
大数据揭秘打车秘诀 在哪些地方更容易打到出租车?在什么时间更容易打到出租车?本教程将基于某市的出租车行驶轨迹数据,教你如何使用Spark SQL和机器学习相关技巧,并通过数据可视化手段展示分析结果。
获取学习材料的方法:
请关注并分享,然后私信回复“材料”。私信不要多字、少字或错字。具体步骤如下: 1. 点击我的头像,进入主页。 2. 主页右上角有私信功能。 3. 在关注的位置下方发送“材料”。