提升自信
云上数据仓库处理方案
离线数仓架构
离线数仓特点
采用Serverless架构的云上数据仓库处理方案,提供一站式大数据开发平台。
架构特点
- 开箱即用:只需简单几步即可启动大数据开发平台。
- 低TCO:Serverless服务无需运维,有效降低成本。
- 资源弹性:系统能根据数据规模自动扩展存储和计算资源。
- 计算能力强:支持高效的数据处理任务。
- 数据安全:具备多层防护机制,确保数据安全。
实时数仓架构
实时数仓架构特点
实现秒级延迟的数据仓库构建,架构简洁,适合传统数仓升级。
架构特点
- 数据模型基本不变:通过消息队列替代传统的分层表。
- 实时计算取代批处理:利用订阅式实时计算取代定时批处理。
数据仓库概念
输入数据源和输入系统
输入系统包括:
- 用户行为数据:由埋点产生。
- 业务数据:由JavaEE后台产生。
- 爬虫数据:某些公司会采集。
输入系统还包括:
- 报表系统
- 用户画像系统
- 推荐系统
系统数据流程设计
(图略)
框架版本选型
- Apache:适用于运维经验丰富的大公司,需要自行调研组件间的兼容性。
- CDH:国内应用最广泛的版本,CM不开源但不影响中、小公司使用。CDP每个节点收费10000美元。
- HDP:开源版本,可二次开发,但稳定性不如CDH,国内应用较少。
服务器选型
物理机 vs 云主机
机器成本
- 物理机:128G内存、20核CPU、40线程、8TB HDD和2TB SSD硬盘,单台约4万元,寿命约为5年。
- 云主机:如阿里云,配置相似,每年约5万元。
运维成本
- 物理机:需专业运维人员、电费、空调等。
- 云主机:大部分运维工作已由云服务商完成。
企业选择
- 金融公司及无直接冲突的公司:选择阿里云。
- 中小公司:选择云主机,待融资后购买物理机。
- 长期规划且资金充足:选择物理机。
集群规模
(图略)
人员配置参考
整体架构
属于研发部/技术部/数据部,其中大数据组负责大数据开发,其他团队包括后端、前端、测试、UI等。
岗位配置
- 大数据开发工程师 => 大数据组组长 => 项目经理 => 部门经理 => 技术总监
职级等级及提升规则
- 职级:分为初级、中级、高级,提升规则视公司效益和职位空缺而定。
- 举例:
- 京东:T1、T2应届毕业生;T3约14k;T4约18k;T5约24k-28k。
- 阿里:p5、p6、p7、p8。
人员配置参考
- 小型公司(3人左右):组长1人,其余成员无明确分工。
- 中小型公司(3~6人左右):组长1人,离线2人,实时1人,组长兼管JavaEE和前端。
- 中型公司(5~10人左右):组长1人,离线3~5人,实时2人,组长和技术大牛兼管JavaEE和前端。
- 中大型公司(10~20人左右):组长1人,离线5~10人,实时5人,JavaEE1人,前端1人。
其他岗位配置参考
- iOS:1-2人
- Android:1-2人
- 前端:1-3人
- JavaEE:1-1.5倍于大数据人数
- 测试:1人左右
- 产品经理:1人
- 产品助理:1-2人
- 运营:1-3人
公司规模分类
- 0-50人:小公司
- 50-500人:中等规模公司
- 500-1000人:大规模公司
- 1000人以上:大型公司