大数据项目架构
作者头像
  • 陈平
  • 2020-06-30 11:44:12 0

提升自信

云上数据仓库处理方案

离线数仓架构

离线数仓特点

采用Serverless架构的云上数据仓库处理方案,提供一站式大数据开发平台。

架构特点 - 开箱即用:只需简单几步即可启动大数据开发平台。 - 低TCO:Serverless服务无需运维,有效降低成本。 - 资源弹性:系统能根据数据规模自动扩展存储和计算资源。 - 计算能力强:支持高效的数据处理任务。 - 数据安全:具备多层防护机制,确保数据安全。

实时数仓架构

实时数仓架构特点

实现秒级延迟的数据仓库构建,架构简洁,适合传统数仓升级。

架构特点 - 数据模型基本不变:通过消息队列替代传统的分层表。 - 实时计算取代批处理:利用订阅式实时计算取代定时批处理。

数据仓库概念

输入数据源和输入系统

输入系统包括: - 用户行为数据:由埋点产生。 - 业务数据:由JavaEE后台产生。 - 爬虫数据:某些公司会采集。

输入系统还包括: - 报表系统 - 用户画像系统 - 推荐系统

系统数据流程设计

(图略)

框架版本选型

  1. Apache:适用于运维经验丰富的大公司,需要自行调研组件间的兼容性。
  2. CDH:国内应用最广泛的版本,CM不开源但不影响中、小公司使用。CDP每个节点收费10000美元。
  3. HDP:开源版本,可二次开发,但稳定性不如CDH,国内应用较少。

服务器选型

物理机 vs 云主机

  1. 机器成本

    • 物理机:128G内存、20核CPU、40线程、8TB HDD和2TB SSD硬盘,单台约4万元,寿命约为5年。
    • 云主机:如阿里云,配置相似,每年约5万元。
  2. 运维成本

    • 物理机:需专业运维人员、电费、空调等。
    • 云主机:大部分运维工作已由云服务商完成。
  3. 企业选择

    • 金融公司及无直接冲突的公司:选择阿里云。
    • 中小公司:选择云主机,待融资后购买物理机。
    • 长期规划且资金充足:选择物理机。

集群规模

(图略)

人员配置参考

整体架构

属于研发部/技术部/数据部,其中大数据组负责大数据开发,其他团队包括后端、前端、测试、UI等。

岗位配置 - 大数据开发工程师 => 大数据组组长 => 项目经理 => 部门经理 => 技术总监

职级等级及提升规则

  • 职级:分为初级、中级、高级,提升规则视公司效益和职位空缺而定。
  • 举例
    • 京东:T1、T2应届毕业生;T3约14k;T4约18k;T5约24k-28k。
    • 阿里:p5、p6、p7、p8。

人员配置参考

  • 小型公司(3人左右):组长1人,其余成员无明确分工。
  • 中小型公司(3~6人左右):组长1人,离线2人,实时1人,组长兼管JavaEE和前端。
  • 中型公司(5~10人左右):组长1人,离线3~5人,实时2人,组长和技术大牛兼管JavaEE和前端。
  • 中大型公司(10~20人左右):组长1人,离线5~10人,实时5人,JavaEE1人,前端1人。

其他岗位配置参考

  • iOS:1-2人
  • Android:1-2人
  • 前端:1-3人
  • JavaEE:1-1.5倍于大数据人数
  • 测试:1人左右
  • 产品经理:1人
  • 产品助理:1-2人
  • 运营:1-3人

公司规模分类

  • 0-50人:小公司
  • 50-500人:中等规模公司
  • 500-1000人:大规模公司
  • 1000人以上:大型公司
    本文来源:图灵汇
责任编辑: : 陈平
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
大数架构项目
    下一篇