论机器学习的数据预备的重要性，及我们应该怎样做

重庆聊VR
2019-11-07 16:17:14 6

+关注

数据准备对于机器学习的重要性及如何实现

编码是成功业务模型的前提。建立成功的AI/ML模型有三个关键方面：算法、数据和计算。尽管构建精确的算法和掌握计算技能是这一过程的重要部分，但真正起决定作用的是正确的数据。

运用正确的数据奠定基础

无论是自动驾驶汽车这样的大规模技术革新，还是构建简单的算法，都需要正确格式的数据。实际上，特斯拉和福特通过行车记录仪、传感器和倒车摄像头收集数据，并对其进行分析，以制造无人驾驶和全自动汽车，确保道路的安全。

在收集数据之后，下一步便是数据准备过程，这将是本文的核心内容。数据科学家需要了解数据准备的重要性，以便为模型提供必要的认知能力。

什么是数据准备？

数据是每个组织的宝贵资源，但只有经过清洗、标注、注释和准备后，数据才能成为真正的资产。数据经过各种适应性测试后，才具备进一步处理的资格。处理数据的方法有很多，例如将数据导入BI工具、CRM数据库、开发用于分析模型的算法或使用数据管理工具等。

数据的准确性和可信度至关重要。无论是构建自己的模型还是从第三方获取模型，都必须确保数据在整个标记、扩展、清理和结构化过程中保持一致。数据准备是数据分析项目的首要步骤，包括数据加载、数据融合、数据清理、数据扩展和数据交付等任务。

机器学习数据准备的重要性

根据Cognilytica的最新研究，组织、机构和企业花费大量时间在标记、注释、清理、扩展和丰富机器学习模型的数据上。数据科学家大约80%的时间都在准备数据。虽然这是一个好的开始，但数据科学家应更多地关注与数据互动、高级分析、模型训练和评估以及模型部署等方面。

数据准备过程包括以下几个关键步骤：

数据提取

数据工作的第一步是提取过程，通常是从非结构化来源（如网页、PDF文档、假脱机文件、电子邮件等）中检索数据。从网络中提取信息的过程被称为网络爬虫。

数据概要分析

这是检查现有数据以提高质量并进行结构化的过程。这有助于评估数据质量和一致性。如果数据集不平衡或配置不当，大多数机器学习模型将无法正常运行。

数据清理

数据清理确保数据干净、完整、无误，并提供准确的信息。它可以检测文本和数字的异常值，甚至可以在图像中识别相关像素。清除偏见和过时信息，确保数据清洁。

数据转换

数据转换将数据转换为统一格式，以便进行分析。不同格式表示的数据（如地址、名称等）可以通过标准化和规范化来处理。

数据匿名化

数据匿名化是指从数据集中删除或加密个人信息以保护隐私。

数据扩展

数据扩展用于增加可用于训练模型的数据多样性。通过引入其他信息而不提取新信息，如裁剪和填充，以训练神经网络。

数据采样

数据采样是从大型数据集中识别代表性子集，以便进行分析和处理。

特征工程

特征工程是决定机器学习模型好坏的关键因素之一。为了提高模型的准确性，可以将数据集合并以创建新的特征。

例如，假设有一列支出数据和另一列输入分类（A、B、C），A、B、C分别对应$2k-$3K、$4k-$5K和$6K-$7K的支出范围。新特征是将支出范围映射为数值1、2和3。

数据标记——数据准备的重要组成部分

数据标记是指将标签分配给一组未标记的数据，以便更容易地进行预测分析。标签可以帮助机器学习模型识别数据集。

例如，标记可以指示照片中的动物是狗还是狐狸。通过向模型提供数百万个标记数据，标记可以协助机器学习模型预测未标记的数据。

数据标记的应用场景

图像分类/注释：包括图像注释、描述、边界框定义等。
会话标记：例如，聊天机器人中对数据的标记和训练，使与用户的对话更加真实和相关。
情感分析：标记文本或图像以了解内容的情感，例如在推文中分析情感。
语音和文本NLP：标记音频和文本源，以训练模型。

这些步骤共同构成了数据准备过程，确保数据的质量和可用性，从而提高机器学习模型的性能。

图灵汇

责任编辑：：重庆聊VR

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

预备重要性机器应该怎样数据学习我们

重庆聊VR

2019-11-08