机器学习是人工智能的一个分支,它通过示例和经验教会计算机执行任务,是目前研究和开发的重要领域。我们日常使用的许多应用程序都采用了机器学习算法,如AI助手、网页搜索和机器翻译。
您的社交媒体新闻推送由机器学习算法驱动。您所看到的推荐视频也是机器学习模型的结果。Spotify的“发现周刊”则利用机器学习的强大功能来创建符合您喜好的歌曲列表。
然而,机器学习有多种不同的形式。本文将重点介绍有监督和无监督学习,这是机器学习算法的两大主要类别。每个子类包含了多种适用于不同任务的算法。
在深入了解有监督和无监督学习之前,我们先来了解什么是机器学习。当前的人工智能系统通常将输入转化为输出。例如,图像分类器会将图像或视频帧作为输入,并输出图像中包含的对象类别。欺诈检测算法会将支付数据作为输入,并输出交易欺诈的可能性。下棋的人工智能则会将当前棋盘状态作为输入,并输出下一步动作。
传统上开发智能系统的方法被称为符号人工智能,这种方法需要程序员明确地指定如何将输入映射到输出。虽然符号人工智能有许多优点,但它在处理输入可以以多种方式呈现的问题(如计算机视觉、语音识别和自然语言处理)时受到限制。
相比之下,机器学习采用不同的方法来改进行为。在构建机器学习系统时,开发者会设计一个通用结构,并在大量示例中进行训练。这些示例可以是带标注的图像、国际象棋比赛数据、客户购买的商品、用户听过的歌曲或其他与问题相关的数据。在分析了训练数据后,机器学习算法会调整其外部参数,从而能够处理新的输入数据。
逻辑回归是一种有监督的机器学习算法,可以将输入分类到不同的类别。
如果您关注人工智能新闻,可能已经听说了人工智能算法需要大量人工标注的示例。这些示例指的是监督学习,这是机器学习中较为常见的一种类型。监督学习适用于已知输入数据结果的情况。例如,您希望创建一个图像分类算法,能够识别猫、狗和马的图像。
为了训练AI模型,您需要收集大量包含猫、狗和马的照片的数据集。但在将这些照片输入机器学习算法之前,您需要给它们标注类别。标注工作可能包括将每类图像放在单独的文件夹中,或者将元数据附加到图像文件中。这是一个耗时的手动过程,经常出现在人工智能开发的故事中。
标注完成后,机器学习算法(如卷积神经网络或支持向量机)会处理这些示例,并开发一个数学模型,将每个图像映射到正确的类别。如果模型接受了足够多的标注示例训练,它就能准确地识别新图像中的猫、狗和马。
监督学习解决了两类问题:分类和回归。上述例子是一个分类问题,即机器学习模型需要将输入分配到特定的类别中。另一个分类问题的例子是语音识别。
回归模型不限于特定的类别,它可以处理连续的数值,例如客户愿意为某件商品支付的价格,或者明天是否下雨的概率。
常见的监督学习算法包括: - 线性回归 - 逻辑回归 - 朴素贝叶斯 - 支持向量机 - 决策树和随机森林 - 人工神经网络
无监督学习算法可以根据共享特征将数据分组到不同的类别中。
假设您是一家电子商务公司的所有者,拥有数以千计的客户销售记录。您想要找出哪些客户有共同的购买习惯,以便您能够根据这些信息向他们推荐相关产品并优化追加销售策略。然而,您没有预定义的类别来划分客户,因此无法训练监督学习模型来完成这项任务。
这是一个聚类问题,主要应用于无监督学习。与监督学习不同,无监督学习不需要标记数据。它仔细分析训练示例,并根据它们的共同特征将它们分成几类。训练有素的无监督学习算法会将您的客户分组到相关的类别中,从而帮助您预测客户可能会购买的产品。
K-means是最著名的无监督聚类算法之一。使用K-means的一个挑战是确定将数据分成多少个组。如果分组太少,可能会导致不相似的数据被错误地组合在一起;如果分组太多,则会使模型变得复杂且不够准确。除了聚类,无监督学习还可以执行降维。当数据集包含过多特征时,可以使用降维技术。例如,您有一张包含100列的客户信息表,尽管听起来很有用,但实际上并不一定高效。
随着数据中特征数量的增加,您还需要更大的样本集来训练准确的机器学习模型。可能没有足够的样本来训练100列的模型。过多的特征还会增加过拟合的风险,这意味着模型在训练数据上表现良好,但在其他数据上表现不佳。
无监督学习算法可以分析数据并识别无关紧要的特征,这些特征可以被删除,以简化模型而不丢失重要的信息。例如,对于客户信息表,经过降维算法处理后,可能会发现年龄和家庭住址等特征与客户需求关联不大,因此可以删除这些特征。
主成分分析(PCA)是一种流行的降维算法。此外,一些安全分析师还使用无监督学习进行异常检测,以识别组织网络中的恶意活动。
无监督学习的优势在于,它不需要像监督学习那样经历繁琐的数据标注过程。不过,这也意味着评估其性能的有效性更加困难。相比之下,监督学习可以通过将算法的输出与测试数据的实际标签进行比较来轻松衡量其准确性。
原文链接:https://ai.51cto.com/art/202006/617921.htm
来源:51cto