尽管大数据分析技术取得了显著进步,但我们仍然需要大量手动操作来完成许多关键任务,如数据转换和数据管理。随着数据量的增加,手动操作与自动化带来的生产力差距不断扩大,这使得基于人工智能和机器学习的自动化解决方案越来越受欢迎。机器学习能否缩小这一差距呢?
坦诚而言,数据转换和数据管理问题充满挑战。各行各业的企业都在寻求将机器学习与自身数据库结合,以获得竞争优势。然而,由于数据不干净、数据未集成、数据不可比及数据不匹配等问题频发,许多企业的大数据计划陷入困境。
许多数据科学家在机器学习项目中花费了90%的时间来查找、整合、修复和清理输入数据。这导致数据科学家的角色逐渐转变为数据整合专家,而非纯粹的数据分析师。
好消息是,机器学习本身可以提供一定的帮助。通过利用算法的预测能力来模拟人类数据处理过程,可以减轻数据科学家的工作负担,使他们能专注于更具创新性的任务。
您可以在市场上找到多种机器学习工具,利用这些工具可以帮助您简化数据转换流程。
数据转换与管理
尽管数据转换和数据管理在某些方面存在关联,但它们有着本质的区别。数据转换是数据集成的第一步,旨在将异构数据转换为统一的格式,以便组织提前定义。自动化脚本通常用于执行货币换算(如美元转欧元)或单位转换(如英镑转公斤)等任务。
数据转换完成后,分析师将进入数据管理和分析阶段。通常,首先运行“匹配/合并”函数,将具有相似名称的不同记录归为同一类别。例如,“编辑距离”等概念可用于评估两个不同实体间的相似度。
接下来,通过更多规则对各类实体进行比较,以确定最佳记录值。企业可以选择采用最佳单个记录或一组公共值,从而生成高质量数据。
多年来,这种两步法广泛应用于众多数据仓库,并在现代数据湖中持续使用。然而,ETL(提取、转换、加载)和数据管理方法在应对当今海量数据及复杂挑战时显得力不从心。
例如,预设全局数据格式的需求限制了许多ETL项目的实施。在面对大量数据源时,手动设置转换规则变得愈发困难。
当数据源数量较少时,如10个,这种方法尚可接受;但在拥有10,000个数据源的情况下,则几乎不可能实现。
显然,我们需要一种全新的方法来应对这些挑战。
在小企业中,可以提前设计全局数据模型,并在整个组织内强制执行,从而避免高昂的ETL和数据管理成本。然而,在大型企业中,这种自上而下的策略往往难以奏效。
即使在同一组织内部,不同业务部门也可能采用截然不同的数据记录方式,这需要充分考虑后再进行有意义的分析。因此,业务灵活性要求一定程度的自主权,这意味着每个业务部门可能需要建立自己的数据中心。
以丰田汽车欧洲公司为例,该公司在各个业务国家设有独立的客户服务部门。为了整合来自250个数据库的约3000万条记录(涉及40种语言),丰田决定采用Tamr来应对机器学习带来的挑战,而不是依赖传统的数据转换和数据管理方法。
ETL项目的主要难题在于如何大规模地预先定义全局数据格式。自下而上的匹配和构建目标格式的方法,从规模上看是唯一可行的选择。
这并不意味着机器学习能轻松解决所有复杂的数据集成问题。它依然需要大量的数据和计算能力,通常还需要优秀的人类专家指导软件得出正确的分析结论和决策建议。
尽管如此,成本并不是唯一的考量因素。另一个问题是供应商选择。不同地区提供的解决方案各不相同,因此需要综合考虑各种宏观因素。
考虑到数据安全问题,不能完全依赖外部公司来处理数据。因此,单纯依靠机器学习并不能完全解决问题,人机协作才是提高数据集成和管理水平的关键。