大数据每周分享第 6 期

于九野
2019-10-13 09:21:31 5

+关注

大数据周报

欢迎大家提供本周值得分享的内容，包括但不限于技术心得、行业动态、优秀项目等。请将相关内容提交至 GitHub 的 aikuyun/bt_weekly 仓库。

技术一瞥

hdfs getconf 命令 hdfs getconf 是一个用于获取配置信息的实用工具。可以通过以下参数获取集群配置：
- -namenodes：获取主节点列表
- -secondaryNameNodes：获取次要节点列表
- -backupNodes：获取备份节点列表
- -includeFile：获取包含文件路径，定义可加入集群的节点
- -excludeFile：获取排除文件路径，定义需要退出集群的节点
- -nnRpcAddresses：获取主节点的 RPC 地址
- -confKey [key]：获取特定配置项
示例：hdfs getconf -confKey fs.defaultFS 可查看 HDFS 的 URI 地址。
Gzip 在 Hadoop 中的应用 Gzip 文件在 Hadoop 中通常不会被分割处理。

对比 Storm，为何选择 Flink

在使用 Storm 开发时，处理逻辑和需求固化在 Bolt 的代码中。相比之下，Flink 支持通过 SQL 进行开发，代码更具可读性，逻辑实现由开源框架保证，对特定场景的优化只需修改 Flink SQL 即可，而不影响逻辑代码。这意味着我们可以更多地专注于数据开发而非逻辑实现。当需要离线数据和实时数据口径一致时，只需稍作调整即可大幅提升开发效率。此外，Flink Table 可以通过元数据定义数据结构，更好地与数据管理和开发系统结合，提高开发效率。

文章推荐

Flink Kafka Connector 与 Exactly Once 容错 Flink Kafka Connector 包含了从 Kafka Topic 读入数据的 Flink Kafka Consumer 和向 Kafka Topic 写出数据的 Flink Kafka Producer。此外，Flink Kafka Connector 基于 Flink Checkpoint 机制提供了完善的容错能力。本文从基本应用到端到端的容错原理进行了详细探讨。
唯一ID生成算法分析 在业务开发中，大量场景需要唯一ID进行标识，例如用户、商品、消息、事件等。特别是在分布式场景下，唯一ID的需求更为重要。唯一ID应具备以下特性：
- 唯一性：生成的ID全局唯一，在特定范围内冲突概率极低
- 有序性：生成的ID按某种规则有序，便于数据库插入及排序
- 可用性：高并发情况下仍能保证可用性
- 自主性：分布式环境下不依赖中心认证即可生成ID
- 安全性：不暴露系统和业务信息
真实案例：Flink 实时计算处理脏数据 Flink 在处理实时数据时，若遇到脏数据（格式错误、字段缺失等）会导致报错。本文结合实际案例，总结了处理这类问题的经验。
大数据发展的八个要点 一位资深技术专家从多个角度分析了大数据的发展趋势。他认为大数据的核心在于“数据”，而非“大”。媒体过分强调“大”的概念，容易让人忽视数据的本质。作者还分享了自己多年来从事大数据底层框架和应用开发的经验。
Linux系统架构浅析 作者结合自身多年经验，对Linux系统的架构进行了简要介绍。尽管对Linux系统已有一定了解，但仍有很多细节需要深入学习。

资源推荐

必备软件工具 分享几个常用的软件工具，提高工作效率。
浏览器原理深入解析 本文介绍了主流浏览器及其内核引擎的工作原理，特别是Chromium浏览器的多进程架构。从页面导航、渲染、资源加载到最终GPU展示的全过程都有详细介绍，适合对浏览器架构感兴趣的读者。
Redis理论与实践 当面临存储选型时，如何选择关系型或非关系型数据库？本文介绍了Redis的常用数据类型及其内存占用情况，以及Redis的功能瓶颈。

文摘

关于外交 文章指出，国家最重要的不是军事实力，而是金融话语权。作者认为中国外交处于一种尴尬境地，一方面国内认为外交脆弱，另一方面外界则认为强硬。作者呼吁人们不要忽视内部矛盾，警惕外部势力利用这些问题瓦解国家。
关于“NBA”辱华事件 作者分析了中美两国在言论自由底线上的差异。美国的言论自由底线是反对种族歧视，而中国的底线则是维护国家主权和领土完整。作者认为这一事件难以解决，建议大家提高民族自信心，支持国内体育赛事，提高其关注度和收入。