大数据每周分享第 6 期
作者头像
  • 于九野
  • 2019-10-13 09:21:31 5

大数据周报

欢迎大家提供本周值得分享的内容,包括但不限于技术心得、行业动态、优秀项目等。请将相关内容提交至 GitHub 的 aikuyun/bt_weekly 仓库。

技术一瞥

  1. hdfs getconf 命令 hdfs getconf 是一个用于获取配置信息的实用工具。可以通过以下参数获取集群配置:

    • -namenodes:获取主节点列表
    • -secondaryNameNodes:获取次要节点列表
    • -backupNodes:获取备份节点列表
    • -includeFile:获取包含文件路径,定义可加入集群的节点
    • -excludeFile:获取排除文件路径,定义需要退出集群的节点
    • -nnRpcAddresses:获取主节点的 RPC 地址
    • -confKey [key]:获取特定配置项

    示例:hdfs getconf -confKey fs.defaultFS 可查看 HDFS 的 URI 地址。

  2. Gzip 在 Hadoop 中的应用 Gzip 文件在 Hadoop 中通常不会被分割处理。

对比 Storm,为何选择 Flink

在使用 Storm 开发时,处理逻辑和需求固化在 Bolt 的代码中。相比之下,Flink 支持通过 SQL 进行开发,代码更具可读性,逻辑实现由开源框架保证,对特定场景的优化只需修改 Flink SQL 即可,而不影响逻辑代码。这意味着我们可以更多地专注于数据开发而非逻辑实现。当需要离线数据和实时数据口径一致时,只需稍作调整即可大幅提升开发效率。此外,Flink Table 可以通过元数据定义数据结构,更好地与数据管理和开发系统结合,提高开发效率。

文章推荐

  1. Flink Kafka Connector 与 Exactly Once 容错 Flink Kafka Connector 包含了从 Kafka Topic 读入数据的 Flink Kafka Consumer 和向 Kafka Topic 写出数据的 Flink Kafka Producer。此外,Flink Kafka Connector 基于 Flink Checkpoint 机制提供了完善的容错能力。本文从基本应用到端到端的容错原理进行了详细探讨。

  2. 唯一ID生成算法分析 在业务开发中,大量场景需要唯一ID进行标识,例如用户、商品、消息、事件等。特别是在分布式场景下,唯一ID的需求更为重要。唯一ID应具备以下特性:

    • 唯一性:生成的ID全局唯一,在特定范围内冲突概率极低
    • 有序性:生成的ID按某种规则有序,便于数据库插入及排序
    • 可用性:高并发情况下仍能保证可用性
    • 自主性:分布式环境下不依赖中心认证即可生成ID
    • 安全性:不暴露系统和业务信息
  3. 真实案例:Flink 实时计算处理脏数据 Flink 在处理实时数据时,若遇到脏数据(格式错误、字段缺失等)会导致报错。本文结合实际案例,总结了处理这类问题的经验。

  4. 大数据发展的八个要点 一位资深技术专家从多个角度分析了大数据的发展趋势。他认为大数据的核心在于“数据”,而非“大”。媒体过分强调“大”的概念,容易让人忽视数据的本质。作者还分享了自己多年来从事大数据底层框架和应用开发的经验。

  5. Linux系统架构浅析 作者结合自身多年经验,对Linux系统的架构进行了简要介绍。尽管对Linux系统已有一定了解,但仍有很多细节需要深入学习。

资源推荐

  1. 必备软件工具 分享几个常用的软件工具,提高工作效率。

  2. 浏览器原理深入解析 本文介绍了主流浏览器及其内核引擎的工作原理,特别是Chromium浏览器的多进程架构。从页面导航、渲染、资源加载到最终GPU展示的全过程都有详细介绍,适合对浏览器架构感兴趣的读者。

  3. Redis理论与实践 当面临存储选型时,如何选择关系型或非关系型数据库?本文介绍了Redis的常用数据类型及其内存占用情况,以及Redis的功能瓶颈。

文摘

  1. 关于外交 文章指出,国家最重要的不是军事实力,而是金融话语权。作者认为中国外交处于一种尴尬境地,一方面国内认为外交脆弱,另一方面外界则认为强硬。作者呼吁人们不要忽视内部矛盾,警惕外部势力利用这些问题瓦解国家。

  2. 关于“NBA”辱华事件 作者分析了中美两国在言论自由底线上的差异。美国的言论自由底线是反对种族歧视,而中国的底线则是维护国家主权和领土完整。作者认为这一事件难以解决,建议大家提高民族自信心,支持国内体育赛事,提高其关注度和收入。

订阅信息

本专栏内容也会同步到公众号和知识星球,欢迎订阅。直接扫码或搜索 cuteximi

(完)

    本文来源:图灵汇
责任编辑: : 于九野
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
每周数据分享
    下一篇