编码是成功商业模式的关键所在。建立成功的AI/ML模型需要关注三个方面:算法、数据和计算。
虽然准确的算法和计算技能的应用是这一过程的重要组成部分,但真正奠定基础的是数据本身。无论是自动驾驶汽车这样的大规模技术革新,还是构建相对简单的算法,都需要正确格式的数据。实际上,特斯拉和福特公司一直在通过行车记录仪、传感器和倒车摄像头收集数据,并对其进行分析,以制造无人驾驶和全自动汽车,从而确保道路安全。
数据是每个组织的宝贵资源。然而,若不进一步分析,这种资源的价值可能会被忽视。企业利用数据来做出明智的业务决策、实施成功的销售和营销活动等。然而,这些目标无法仅凭原始数据实现。
只有经过清洗、标注、注释和准备的数据才能成为真正的资源。数据只有通过各种适应性测试,才能具备进一步处理的资格。处理方式可以多样化,例如将数据导入BI工具、CRM数据库,开发用于分析模型的算法,或使用数据管理工具等。
您从这些信息中获取的见解必须是准确且可信的。这需要依赖于数据的质量。无论您是自行构建模型还是从第三方获取模型,确保整个过程中的数据都是经过标注、扩展和整理的,这一点至关重要。
根据维基百科的定义,数据准备是指将原始数据(可能来自不同的数据源)操作或预处理为便于分析的形式,例如用于商业目的。数据准备是数据分析项目的首要步骤,涵盖了诸如加载数据、数据融合、数据清洗、数据扩展和数据交付等一系列任务。
根据Cognilytica的最新研究,组织、机构和最终用户企业在标记、注释、清洗、扩展和丰富机器学习模型的数据上花费了大量的时间。数据显示,数据科学家超过80%的时间都在准备数据。尽管这是一个积极的信号,但理想情况下,数据科学家应该把更多的时间花在与数据互动、高级分析、模型训练和评估以及部署到生产环境中。
仅有20%的时间用于流程的其他重要部分。为了克服时间限制,组织需要应用专门的数据工程、标记和准备解决方案,以减少在数据清洗、扩展、标记和丰富上的时间投入(具体取决于项目的复杂性)。
这引出了“垃圾进,垃圾出”的概念,即输入的质量决定了输出的质量。
以下是机器学习模型的数据准备过程的简要概述:
数据工作流的第一步是提取过程,通常是从非结构化来源(如网页、PDF文档、假脱机文件、电子邮件等)检索数据。从网络中提取信息的过程称为网络爬虫。
这是检查现有数据以提高质量并以结构化形式呈现的过程。这有助于评估质量和一致性。当数据集不平衡或配置不当时,大多数机器学习模型将无法正常工作。
确保数据干净、全面、无误,提供准确的信息。这不仅包括检测文本和数字中的异常值,还包括检测图像中的相关像素。消除偏见和过时信息,以保证数据的清洁。
对数据进行转换,使其标准化。例如,地址、名称和其他字段类型可能以不同格式表示,数据转换有助于统一和规范化这些数据。
从数据集中删除或加密个人信息,以保护隐私。
增加可用于训练模型的数据多样性。通过引入其他信息而不提取新信息,包括裁剪和填充以训练神经网络。
识别大型数据集中具有代表性的子集,以便进行分析和处理。
这是决定机器学习模型好坏的重要因素之一。为了提高模型的准确性,可以将数据集合并为一个整体。
例如,假设有一列是收入,另一列是分类(A、B、C)。A、B、C分别对应收入范围$2k-$3k、$4k-$5k和$6k-$7k。新特征是在收入范围内分配数值1、2和3。现在,这些数值被映射到我们创建的三个数据集。
在这里,收入范围就是特征工程的一个实例。
数据准备过程的另一个重要部分是数据标记。为了更好地理解这一概念,我们可以以热饮(如茶)为例。
项目的目标是确定特定类型茶中所含咖啡因的百分比或数量。
红茶含咖啡因20毫克,茶加牛奶含咖啡因11毫克,草茶含咖啡因0毫克,伯爵灰茶含咖啡因40毫克。
注意:(咖啡因百分比以100克茶计算)
因此,机器学习模型将为咖啡因含量最高的伯爵茶分配一个数值,例如1,为红茶分配2,依此类推。这就是标签的概念,它有助于识别数据集。
数据标记是将标签分配给未标记的数据,以便更容易地进行预测分析。
例如,标签可以表明照片中的动物是狗还是狐狸(见下图)。
通过向模型提供数百万个标记数据,标记可以帮助机器学习模型预测和分析未标记的数据。
以上是关于数据准备的重要性和方法的概述,希望能为您提供有价值的参考。