论机器学习的数据预备的重要性,及我们应该怎样做
作者头像
  • 重庆聊VR
  • 2019-11-07 16:17:14 6

数据准备对于机器学习的重要性及如何实现

编码是成功业务模型的前提。建立成功的AI/ML模型有三个关键方面:算法、数据和计算。尽管构建精确的算法和掌握计算技能是这一过程的重要部分,但真正起决定作用的是正确的数据。

运用正确的数据奠定基础

无论是自动驾驶汽车这样的大规模技术革新,还是构建简单的算法,都需要正确格式的数据。实际上,特斯拉和福特通过行车记录仪、传感器和倒车摄像头收集数据,并对其进行分析,以制造无人驾驶和全自动汽车,确保道路的安全。

在收集数据之后,下一步便是数据准备过程,这将是本文的核心内容。数据科学家需要了解数据准备的重要性,以便为模型提供必要的认知能力。

什么是数据准备?

数据是每个组织的宝贵资源,但只有经过清洗、标注、注释和准备后,数据才能成为真正的资产。数据经过各种适应性测试后,才具备进一步处理的资格。处理数据的方法有很多,例如将数据导入BI工具、CRM数据库、开发用于分析模型的算法或使用数据管理工具等。

数据的准确性和可信度至关重要。无论是构建自己的模型还是从第三方获取模型,都必须确保数据在整个标记、扩展、清理和结构化过程中保持一致。数据准备是数据分析项目的首要步骤,包括数据加载、数据融合、数据清理、数据扩展和数据交付等任务。

机器学习数据准备的重要性

根据Cognilytica的最新研究,组织、机构和企业花费大量时间在标记、注释、清理、扩展和丰富机器学习模型的数据上。数据科学家大约80%的时间都在准备数据。虽然这是一个好的开始,但数据科学家应更多地关注与数据互动、高级分析、模型训练和评估以及模型部署等方面。

数据准备过程包括以下几个关键步骤:

数据提取

数据工作的第一步是提取过程,通常是从非结构化来源(如网页、PDF文档、假脱机文件、电子邮件等)中检索数据。从网络中提取信息的过程被称为网络爬虫。

数据概要分析

这是检查现有数据以提高质量并进行结构化的过程。这有助于评估数据质量和一致性。如果数据集不平衡或配置不当,大多数机器学习模型将无法正常运行。

数据清理

数据清理确保数据干净、完整、无误,并提供准确的信息。它可以检测文本和数字的异常值,甚至可以在图像中识别相关像素。清除偏见和过时信息,确保数据清洁。

数据转换

数据转换将数据转换为统一格式,以便进行分析。不同格式表示的数据(如地址、名称等)可以通过标准化和规范化来处理。

数据匿名化

数据匿名化是指从数据集中删除或加密个人信息以保护隐私。

数据扩展

数据扩展用于增加可用于训练模型的数据多样性。通过引入其他信息而不提取新信息,如裁剪和填充,以训练神经网络。

数据采样

数据采样是从大型数据集中识别代表性子集,以便进行分析和处理。

特征工程

特征工程是决定机器学习模型好坏的关键因素之一。为了提高模型的准确性,可以将数据集合并以创建新的特征。

例如,假设有一列支出数据和另一列输入分类(A、B、C),A、B、C分别对应$2k-$3K、$4k-$5K和$6K-$7K的支出范围。新特征是将支出范围映射为数值1、2和3。

数据标记——数据准备的重要组成部分

数据标记是指将标签分配给一组未标记的数据,以便更容易地进行预测分析。标签可以帮助机器学习模型识别数据集。

例如,标记可以指示照片中的动物是狗还是狐狸。通过向模型提供数百万个标记数据,标记可以协助机器学习模型预测未标记的数据。

数据标记的应用场景

  • 图像分类/注释:包括图像注释、描述、边界框定义等。
  • 会话标记:例如,聊天机器人中对数据的标记和训练,使与用户的对话更加真实和相关。
  • 情感分析:标记文本或图像以了解内容的情感,例如在推文中分析情感。
  • 语音和文本NLP:标记音频和文本源,以训练模型。

这些步骤共同构成了数据准备过程,确保数据的质量和可用性,从而提高机器学习模型的性能。

    本文来源:图灵汇
责任编辑: : 重庆聊VR
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
预备重要性机器应该怎样数据学习我们
    下一篇