在最新的“2018年Gartner数据管理技术成熟度曲线”报告中,首次提出了DataOps的概念。Gartner指出,这项技术目前处于“极为初级”阶段,预计需要5至10年时间才能达到成熟期。
Gartner认为一项技术从提出到普及,会经历五个阶段:
DataOps作为一个新兴的技术概念,类似于几年前的Spark和流处理技术,正处于“极为初级”阶段。那么,DataOps究竟是什么?它为何在Hadoop引领大数据浪潮近十年后才出现?
为了更好地理解DataOps,我们可以从大数据项目的六个发展阶段入手。
在这个阶段,你的团队可能需要安装一个Hadoop集群和Hive(可能还需要Sqoop),并将一些数据导入集群运行查询。近年来,Kafka和Spark等组件也被纳入考虑范围。如果需要进行日志分析,还可以安装ELK(ElasticSearch、Logstash、Kibana)等工具。
尽管这些系统较为复杂,但开源社区的努力使得大多数工程团队可以顺利地使用这些工具。如果有经验丰富的工程师,可以在几周内搭建起一个可运行的系统。
当初步搭建好大数据系统后,接下来的步骤可能包括: - 定期运行Hive查询,生成商业智能报告。 - 使用Spark程序进行机器学习任务,提供个性化服务。 - 开发爬虫程序,从远程站点提取数据。 - 实施流数据处理程序,生成实时数据仪表板。
为实现这些目标,你需要一个作业调度系统,根据时间和数据可用性运行程序。工作流系统如Oozie、Azkaban、Airflow等可以帮助你指定执行计划。
现在,你已经有一个自动化的数据管道,但在生产环境中,还会遇到各种问题: - 硬盘故障率较高。 - 开源程序存在很多bug。 - 数据源延迟、数据库停机等问题。 - 系统需要具备监控、报警、备份和恢复等功能。
这些挑战表明,建立一个企业级的大数据系统远比安装一些开源程序复杂得多。
企业级大数据系统不仅要解决标准系统操作中的硬件和软件问题,还要处理数据相关的问题。对于真正的数据驱动系统,数据的完整性和准确性至关重要。
具体来说,你需要: - 监控数据处理过程,确保数据不会丢失。 - 建立数据质量测试机制。 - 管理数据血缘关系,确保数据源的可靠性。 - 对应用程序进行版本控制,确保数据与程序同步。
此外,还需要为数据科学家提供单独的测试环境,确保代码的正确性和安全性。
随着大数据系统的不断发展,数据安全变得尤为重要。你需要确保数据只能被授权人员访问,并且系统具备身份验证和授权功能。此外,还需要处理审计、多租户支持、端到端安全等问题。
由于大多数开源工具在免费版中并未提供这些功能,许多项目在安全方面往往采用“碰运气”的方式。然而,安全措施的缺失可能导致严重的后果。
随着业务的增长,越来越多的应用程序被添加到大数据系统中。除了传统的Hadoop、Hive、Spark等系统,你还需要运行深度学习任务、时间序列分析等任务。在云基础架构上运行大数据系统,可以利用云计算技术带来的诸多优势,如易于配置和部署、弹性扩展等。
通过Mesos等云平台,可以更好地管理资源分配和程序协调,简化复杂度,提高效率。
DataOps是一个旨在简化大数据项目实施过程的持续性方法。通过正确的工具和技术,DataOps可以使企业在数据中获得最大价值。虽然目前DataOps还处于初级阶段,但随着Mesos、Docker等技术的发展,DataOps有望在未来几年内得到广泛应用,降低大数据项目的实施难度,让每个企业和机构都能更好地利用数据。
这就是改写后的内容,确保了原文的核心信息和事实被保留,同时进行了适当的精简和结构优化。希望对你有所帮助。