史上最全的“大数据”学习资源（上）

RigelEvents
2019-08-25 08:21:55 3

大数据：新时代的技术挑战与机遇

当今“大数据”一词的核心不仅在于数据规模的定义，还代表着信息技术进入了一个全新的时代。它标志着爆炸性的数据信息对传统计算技术和信息技术提出了新的挑战，同时也催生了新的技术和方法。此外，大数据分析和应用带来了创新、新服务和新的发展机遇。随着互联网从IT时代向DT时代的转变，大数据技术正帮助企业和社会开启新的篇章。

为了更好地理解大数据，云栖社区组织翻译了GitHub上的Awesome Big Data资源，供读者参考。该资源涵盖了多种大数据框架、论文等实用资源。

资源列表：

关系数据库管理系统（RDBMS）
- MySQL：世界上最流行的开源数据库。
- PostgreSQL：全球最先进的开源数据库。
- Oracle 数据库：一种对象-关系型数据库管理系统。
分布式编程
- Apache Hadoop：分布式处理架构，集成了MapReduce、YARN和HDFS。
- Tigon：高吞吐量实时流处理框架。
分布式文件系统
- Apache HDFS：在多台机器上存储大型文件的方法。
- BeeGFS：高性能并行分布式文件系统。
- Ceph Filesystem：设计用于软件存储平台。
- Google Colossus：分布式文件系统（GFS2）。
- Google GFS：分布式文件系统。
- GridGain：兼容GGFS和Hadoop内存的文件系统。
- Lustre file system：高性能分布式文件系统。
- QFS：开源分布式文件系统。
- Red Hat GlusterFS：网络附加存储文件系统。
- Seaweed-FS：简单且高度可扩展的分布式文件系统。
文件数据模型
- Actian Versant：面向对象数据库管理系统。
- Crate Data：大规模可扩展的数据存储，无需管理。
- Facebook Apollo：Facebook的Paxos算法，类似于NoSQL数据库。
- jumboDB：基于Hadoop的面向文档的数据存储。
- LinkedIn Espresso：可横向扩展的面向文档的NoSQL数据存储。
- MarkLogic：形式不可知的企业级NoSQL数据库技术。
- MongoDB：面向文档的数据库系统。
- RavenDB：事务性的开源文档数据库。
- RethinkDB：支持连接查询和群组查询的文档型数据库。
Key-Map 数据模型
- Apache Accumulo：内置在Hadoop上的分布式键/值存储。
- Apache Cassandra：面向列的分布式数据存储。
- Apache HBase：面向列的分布式数据存储。
- Facebook HydraBase：HBase的衍生品。
- Google BigTable：面向列的分布式数据存储。
- Google Cloud Datastore：用于存储非关系型数据的完全管理型数据库。
- Hypertable：面向列的分布式数据存储。
- InfiniDB：通过MySQL接口访问，使用大规模并行处理。
- Tephra：用于HBase处理。
- Twitter Manhattan：实时、多租户分布式数据库。
键-值数据模型
- Aerospike：支持NoSQL的闪存优化数据库。
- Amazon DynamoDB：分布式键/值存储。
- Edis：为替代Redis的协议兼容服务器。
- ElephantDB：专门研究Hadoop中数据导出的分布式数据库。
- EventStore：分布式时间序列数据库。
- GridDB：适用于存储时间序列中的传感器数据。
- LinkedIn Krati：简单的持久性数据存储，具有低延迟和高吞吐量。
- LinkedIn Voldemort：分布式键/值存储系统。
- Oracle NoSQL Database：分布式键值数据库。
- Redis：内存中的键值数据存储。
- Riak：分布式数据存储。
- Storehaus：Twitter开发的异步键值存储库。
- Tarantool：高效的NoSQL数据库和Lua应用服务器。
- TiKV：基于Google Spanner和HBase授权的分布式键值数据库。
- TreodeDB：可复制、共享的键-值存储，支持多行原子写入。
图形数据模型
- Apache Giraph：基于Hadoop的Pregel实现。
- Apache Spark Bagel：作为Spark一部分的Pregel实现。
- ArangoDB：多层模型分布式数据库。
- DGraph：可扩展、分布式、低延迟、高吞吐量的图形数据库。
- Facebook TAO：Facebook广泛使用的社交图谱分布式数据存储。
- GCHQ Gaffer：易于存储大规模图形的框架。
- Google Cayley：开源图形数据库。
- Google Pregel：图形处理框架。
- GraphLab PowerGraph：高性能机器学习和数据挖掘工具包。
- GraphX：Spark中的弹性分布式图形系统。
- Gremlin：图形追踪语言。
- Infovore：以RDF为中心的Map/Reduce框架。
- Intel GraphBuilder：在Hadoop上构建大规模图形的工具。
- MapGraph：用于GPU上的大规模并行图形处理。
- Neo4j：用Java编写的图形数据库。
- OrientDB：文档和图形数据库。
- Phoebus：大型图形处理框架。
- Titan：基于Cassandra的分布式图形数据库。
- Twitter FlockDB：分布式图形数据库。
NewSQL数据库
- Actian Ingres：商业支持的开源SQL关系数据库管理系统。
- Amazon RedShift：基于PostgreSQL的数据仓库服务。
- BayesDB：面向统计数值的SQL数据库。
- CitusDB：通过分区和复制扩展PostgreSQL。
- Cockroach：可扩展、地址可复制、交易型数据库。
- Datomic：旨在产生可扩展、灵活的智能应用的分布式数据库。
- FoundationDB：由F1授意的分布式数据库。
- Google F1：建立在Spanner上的分布式SQL数据库。
- Google Spanner：全球分布式的半关系型数据库。
- H-Store：用于在线事务处理的实验性主存并行数据库管理系统。
- Haeinsa：基于Percolator的HBase线性可扩展多行多表交易库。
- HandlerSocket：MySQL/MariaDB的NoSQL插件。
- InfiniSQL：有限可扩展的RDBMS。
- MemSQL：内存中的SQL数据库，具有优化的闪存列存储。
- NuoDB：SQL/ACID兼容的分布式数据库。
- Oracle TimesTen in-Memory Database：内存中具有持久性和可恢复性的关系型数据库管理系统。
- Pivotal GemFire XD：内存中低延迟的分布式SQL数据存储。
- SAP HANA：内存中的面向列的关系型数据库管理系统。
- SenseiDB：分布式实时半结构化数据库。
- Sky：用于行为数据的灵活、高性能分析数据库。
- SymmetricDS：用于文件和数据库同步的开源软件。
- Map-D：GPU内存数据库，用于大数据分析和可视化。
- TiDB：基于Google F1设计灵感的分布式SQL数据库。
- VoltDB：自称最快的内存数据库。
列式数据库
- Actian Vector：面向列的分析型数据库。
- C-Store：面向列的DBMS。
- MonetDB：列存储数据库。
- Parquet：Hadoop的列存储格式。
- Pivotal Greenplum：专门设计的公用分析数据仓库。
- Vertica：用于管理大规模、快速增长的数据，特别适合数据仓库。
- Google BigQuery：谷歌的云产品，基于Dremel的交互式分析框架。
- Amazon Redshift：亚马逊的云产品，基于柱状数据存储。
时间序列数据库
- Cube：使用MongoDB存储时间序列数据。
- Axibase Time Series Database：基于HBase的分布式时间序列数据库，包括内置的规则引擎、数据预测和可视化。
- Heroic：基于Cassandra和Elasticsearch的可扩展时间序列数据库。
- InfluxDB：分布式时间序列数据库。
- Kairosdb：类似于OpenTSDB，考虑到了Cassandra。
- OpenTSDB：基于HBase的分布式时间序列数据库。
- Prometheus：一种时间序列数据库和服务监控系统。
- Newts：基于Apache Cassandra的时间序列数据库。
类SQL处理
- Actian SQL for Hadoop：高性能交互式SQL，访问所有Hadoop数据。
- Apache Drill：交互式分析框架，受Dremel启发。
- Apache HCatalog：Hadoop的表格和存储管理层。
- Apache Hive：Hadoop的类SQL数据仓库系统。
- Apache Optiq：允许高效查询翻译的框架。
- Apache Phoenix：HBase的SQL驱动。
- Cloudera Impala：交互式分析框架，受Dremel启发。
- Concurrent Lingual：Cascading中的类SQL查询语言。
- Datasalt Splout SQL：用于大数据集的完整SQL查询工具。
- Facebook PrestoDB：分布式SQL查询工具。
- Google BigQuery：交互式分析框架，Dremel的实现。
- Pivotal HAWQ：Hadoop的类SQL数据仓库系统。
- RainstorDB：用于存储大规模PB级结构化和半结构化数据的数据库。
- Spark Catalyst：用于Spark和Shark的查询优化框架。
- SparkSQL：使用Spark操作结构化数据。
- Splice Machine：全功能的Hadoop上的SQL RDBMS，带有ACID事务。
- Stinger：用于Hive的交互式查询。
- Tajo：Hadoop的分布式数据仓库系统。
- Trafodion：面向HBase的企业级SQL-on-HBase解决方案。
数据摄取
- Amazon Kinesis：实时处理大规模数据流。
- Apache Chukwa：数据采集系统。
- Apache Flume：管理大量日志数据的服务。
- Apache Kafka：分布式发布-订阅消息系统。
- Apache Sqoop：在Hadoop和结构化数据存储之间传输数据的工具。
- Cloudera Morphlines：帮助Solr、HBase和HDFS实现ETL的框架。
- Facebook Scribe：流日志数据聚合器。
- Fluentd：采集事件和日志的工具。
- Google Photon：分布式计算系统，高可扩展性和低延迟。
- Heka：开源流处理软件系统。
- HIHO：用Hadoop连接不同数据源的框架。
- Kestrel：分布式消息队列系统。
- LinkedIn Databus：对数据库更改捕获的事件流。
- LinkedIn Kamikaze：压缩已分类整型数组的程序包。
- LinkedIn White Elephant：日志聚合器和仪表板。
- Logstash：用于管理事件和日志的工具。
- Netflix Suro：像基于Chukwa的Storm和Samza的日志聚合器。
- Pinterest Secor：完成Kafka日志持久性的服务。
- LinkedIn Gobblin：LinkedIn的通用数据摄取框架。
- Skizze：一种数据存储概览，使用概率性数据结构处理计数、概览等。