编码是成功业务模型的前提。建立成功的AI/ML模型有三个关键方面:算法、数据和计算。尽管构建精确的算法和掌握计算技能是这一过程的重要部分,但真正起决定作用的是正确的数据。
无论是自动驾驶汽车这样的大规模技术革新,还是构建简单的算法,都需要正确格式的数据。实际上,特斯拉和福特通过行车记录仪、传感器和倒车摄像头收集数据,并对其进行分析,以制造无人驾驶和全自动汽车,确保道路的安全。
在收集数据之后,下一步便是数据准备过程,这将是本文的核心内容。数据科学家需要了解数据准备的重要性,以便为模型提供必要的认知能力。
数据是每个组织的宝贵资源,但只有经过清洗、标注、注释和准备后,数据才能成为真正的资产。数据经过各种适应性测试后,才具备进一步处理的资格。处理数据的方法有很多,例如将数据导入BI工具、CRM数据库、开发用于分析模型的算法或使用数据管理工具等。
数据的准确性和可信度至关重要。无论是构建自己的模型还是从第三方获取模型,都必须确保数据在整个标记、扩展、清理和结构化过程中保持一致。数据准备是数据分析项目的首要步骤,包括数据加载、数据融合、数据清理、数据扩展和数据交付等任务。
根据Cognilytica的最新研究,组织、机构和企业花费大量时间在标记、注释、清理、扩展和丰富机器学习模型的数据上。数据科学家大约80%的时间都在准备数据。虽然这是一个好的开始,但数据科学家应更多地关注与数据互动、高级分析、模型训练和评估以及模型部署等方面。
数据准备过程包括以下几个关键步骤:
数据工作的第一步是提取过程,通常是从非结构化来源(如网页、PDF文档、假脱机文件、电子邮件等)中检索数据。从网络中提取信息的过程被称为网络爬虫。
这是检查现有数据以提高质量并进行结构化的过程。这有助于评估数据质量和一致性。如果数据集不平衡或配置不当,大多数机器学习模型将无法正常运行。
数据清理确保数据干净、完整、无误,并提供准确的信息。它可以检测文本和数字的异常值,甚至可以在图像中识别相关像素。清除偏见和过时信息,确保数据清洁。
数据转换将数据转换为统一格式,以便进行分析。不同格式表示的数据(如地址、名称等)可以通过标准化和规范化来处理。
数据匿名化是指从数据集中删除或加密个人信息以保护隐私。
数据扩展用于增加可用于训练模型的数据多样性。通过引入其他信息而不提取新信息,如裁剪和填充,以训练神经网络。
数据采样是从大型数据集中识别代表性子集,以便进行分析和处理。
特征工程是决定机器学习模型好坏的关键因素之一。为了提高模型的准确性,可以将数据集合并以创建新的特征。
例如,假设有一列支出数据和另一列输入分类(A、B、C),A、B、C分别对应$2k-$3K、$4k-$5K和$6K-$7K的支出范围。新特征是将支出范围映射为数值1、2和3。
数据标记是指将标签分配给一组未标记的数据,以便更容易地进行预测分析。标签可以帮助机器学习模型识别数据集。
例如,标记可以指示照片中的动物是狗还是狐狸。通过向模型提供数百万个标记数据,标记可以协助机器学习模型预测未标记的数据。
这些步骤共同构成了数据准备过程,确保数据的质量和可用性,从而提高机器学习模型的性能。