史上最全“大数据”学习资源整理

蕾学姐
2019-09-16 13:13:03 3

当前，互联网正从IT时代向DT（数据技术）时代转型，大数据技术正在帮助企业与公众进入DT世界。如今，“大数据”一词不仅仅指代数据规模，还标志着信息技术进入了一个新时代。它代表了爆炸性的数据信息给传统计算技术和信息技术带来的挑战和困难，同时也代表了处理这些数据所需的新技术和方法，以及大数据分析和应用所带来的创新、新服务和新的发展机遇。

为了帮助大家更好地理解大数据，云栖社区组织翻译了GitHub上的Awesome Big Data资源，供参考。该资源涵盖了多种实用资源，包括大数据框架、论文等。

大数据资源列表

大数据框架

Apache Hadoop：一个分布式处理架构，结合了MapReduce（并行处理）、YARN（作业调度）和HDFS（分布式文件系统）。
Tigon：一个高吞吐量的实时流处理框架。
Apache Beam：提供统一的模型和特定的SDK语言，用于定义和执行数据处理工作流。
Apache Flink：高性能的分布式计算框架。
Apache Spark：内存中的集群计算框架。
Apache Storm：Twitter的流处理框架，也可用于YARN。
Apache Samza：基于Kafka和YARN的流处理框架。
Apache Tez：基于YARN的复杂DAG（有向无环图）执行框架。
Apache Twill：基于YARN的抽象概念，用于简化分布式应用程序的开发。
Apache HBase：由BigTable授权的面向列的分布式数据存储。
Google BigTable：面向列的分布式数据存储。
Facebook Haystack：对象存储系统。
Cassandra：面向列的分布式数据存储。
Hypertable：面向列的分布式数据存储。
Google Cloud Datastore：完全管理型的无模式数据库，用于存储非关系型数据。

分布式文件系统

Apache HDFS：在多台机器上存储大型文件的方式。
Ceph Filesystem：设计的软件存储平台。
Lustre file system：高性能分布式文件系统。
Seaweed-FS：简单的、高度可扩展的分布式文件系统。
Alluxio：可靠的分布式文件系统。

文件数据模型

Crate Data：一个开源的大规模可扩展的数据存储，无需管理。
MongoDB：面向文档的数据库系统。
RethinkDB：支持连接查询和分组查询的文档型数据库。

键-值数据模型

Aerospike：支持NoSQL的闪存优化，数据存储在内存中。
Amazon DynamoDB：分布式键/值存储。
Redis：内存中的键值数据存储。
Riak：分布式数据存储。
Tarantool：高效的NoSQL数据库和Lua应用服务器。

图形数据模型

Apache Giraph：基于Hadoop的Pregel实现。
DGraph：可扩展的、分布式、低延迟、高吞吐量的图形数据库。
Neo4j：完全用Java编写的图形数据库。

NewSQL数据库

Amazon RedShift：基于PostgreSQL的数据仓库服务。
CitusDB：通过分区和复制扩展PostgreSQL。
Google F1：建立在Spanner上的分布式SQL数据库。
SAP HANA：在内存中面向列的关系型数据库管理系统。

列式数据库

Actian Vector：面向列的分析型数据库。
MonetDB：列存储数据库。
Parquet：Hadoop的列存储格式。
Vertica：用于管理大规模、快速增长的数据，提供快速查询功能。

时间序列数据库

InfluxDB：分布式时间序列数据库。
Heroic：基于Cassandra和Elasticsearch的时间序列数据库。
Prometheus：一种时间序列数据库和服务监控系统。

类SQL处理

Apache Drill：由Dremel启发的交互式分析框架。
Apache Hive：Hadoop的类SQL数据仓库系统。
Apache Phoenix：HBase的SQL驱动。
Cloudera Impala：由Dremel启发的交互式分析框架。
Pivotal HAWQ：Hadoop的类SQL数据仓库系统。

数据摄取

Amazon Kinesis：实时处理大规模数据流。
Apache Flume：管理大量日志数据的服务。
Apache Kafka：分布式发布-订阅消息系统。
Apache Sqoop：在Hadoop和结构化数据存储区之间传输数据的工具。
LinkedIn Databus：对数据库更改捕获的事件流。

服务编程

Apache Avro：数据序列化系统。
Apache Thrift：构建二进制协议的框架。
Apache Zookeeper：流程管理集中式服务。
LinkedIn Norbert：集群管理器。
Spotify Luigi：用于构建批处理作业的复杂管道的Python包。

调度

Apache Aurora：在Apache Mesos之上运行的服务调度程序。
Apache Oozie：工作流作业调度程序。
LinkedIn Azkaban：批处理工作流作业调度。
Airflow：用于编程编写、调度和监控工作流的平台。

机器学习

Apache Mahout：Hadoop的机器学习库。
Cloudera Oryx：实时大规模机器学习。
Google Sibyl：Google的大规模机器学习系统。
GraphLab Create：Python的机器学习平台。
H2O：Hadoop统计性的机器学习和数学运算。

基准测试

Apache Hadoop Benchmarking：测试Hadoop性能的微基准。
Intel HiBench：Hadoop基准测试套件。
Yahoo Gridmix3：雅虎工程师团队的Hadoop集群基准测试。

安全性

Apache Knox Gateway：Hadoop集群的安全访问点。
Apache Sentry：存储在Hadoop中的数据安全模块。

系统部署

Apache Ambari：Hadoop管理的运行框架。
Apache Bigtop：Hadoop生态系统的部署框架。
Apache Mesos：集群管理器。
Apache YARN：集群管理器。
Apache Slider：用于部署现有分布式应用程序的YARN应用。
Apache Whirr：运行云服务的库集。

应用程序

Adobe Spindle：使用Scala、Spark和Parquet处理的下一代Web分析。
Apache Kiji：基于HBase，实时采集和分析数据的框架。
Apache Tika：内容分析工具包。
Countly：基于Node.js和MongoDB的开源移动和网络分析平台。
ElasticSearch：基于Apache Lucene的搜索和分析引擎。

搜索引擎与框架

Apache Solr：用于Apache Lucene的搜索平台。
ElasticSearch：基于Apache Lucene的搜索和分析引擎。
Google Caffeine：连续索引系统。
HBase Coprocessor：HBase的一部分，用于Percolator的实现。

MySQL的分支和演化

Amazon RDS：亚马逊云的MySQL数据库。
Drizzle：MySQL的6.0版本演化。
MariaDB：MySQL的增强版嵌入式替代品。
Percona Server：MySQL的增强版嵌入式替代品。

PostgreSQL的分支和演化

Postgres-XL：基于PostgreSQL的可扩展开源数据库集群。
RecDB：完全基于PostgreSQL的开源推荐引擎。

Memcached的分支和演化

Facebook McDipper：闪存的键/值缓存。
Facebook Memcached：Memcached的分支。
Twitter Fatcache：闪存的键/值缓存。

嵌入式数据库

BerkeleyDB：为键/值数据提供高性能的嵌入式数据库的软件库。
LevelDB：谷歌开发的快速键-值存储库。
RocksDB：基于LevelDB的嵌入式持续性键-值存储。

商业智能

BIME Analytics：商业智能云平台。
Chartio：精益业务智能平台。
Qlik：商业智能和分析平台。
Tableau：商业智能平台。

数据可视化

C3：基于D3的可重复使用的图表库。
Chart.js：开源的HTML5图表可视化效果。
D3：操作文件的JavaScript库。
Gephi：用于可视化和操作大型图形和网络连接的开源平台。
Highcharts：简单而灵活的图表API。
Kibana：可视化日志和时间标记数据。

物联网和传感器

TempoIQ：基于云的传感器分析。
Pubnub：数据流网络。
ThingWorx：快速创建和运行互联应用程序的平台。
IFTTT：网络自动化服务。

文章推荐

NoSQL Comparison：Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris。
Big Data Benchmark：Redshift, Hive, Shark, Impala and Stiger/Tez的基准。

论文

Facebook - One Trillion Edges: Graph Processing at Facebook-Scale：一兆边：Facebook规模的图像处理。
Stanford - Mining of Massive Datasets：海量数据集挖掘。
AMPLab - Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices：稀疏矩阵的分布式机器学习和图像处理。
AMPLab - MLbase: A Distributed Machine-learning System：分布式机器学习系统。
AMPLab - Shark: SQL and Rich Analytics at Scale：大规模的SQL和丰富的分析。
AMPLab - GraphX: A Resilient Distributed Graph System on Spark：基于Spark的弹性分布式图计算系统。
Google - HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm：艺术形状的基数估算算法。
Microsoft - Scalable Progressive Analytics on Big Data in the Cloud：云端大数据的可扩展性渐进分析。
Metamarkets - Druid: A Real-time Analytical Data Store：实时分析数据存储。
Google - Online, Asynchronous Schema Change in F1：F1中在线、异步形式的转变。
Google - F1: A Distributed SQL Database That Scales：分布式SQL数据库。
Google - MillWheel: Fault-Tolerant Stream Processing at Internet Scale：互联网规模下的容错流处理。
Facebook - Scuba: Diving into Data at Facebook：深化Facebook的数据世界。
Facebook - Unicorn: A System for Searching the Social Graph：搜索社交图的系统。
Facebook - Scaling Memcache at Facebook：Facebook对Memcache的扩展。

视频

数据可视化：包括Noah Iliinsky的数据可视化设计、Hans Rosling的200 Countries, 200 Years, 4 Minutes等。

图灵汇

责任编辑：：蕾学姐

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

学习资源最全整理数据史上

cwzl

2019-09-16