你知道机器是怎样学习的吗?
作者头像
  • 谭坤有约
  • 2020-02-18 18:38:57 1

在一次家庭聚餐上,我父亲提到:“现在科技发展真快,连人工智能都出现了。它可以识别人脸,预测消费习惯,甚至在下棋时也能战胜顶尖的人类棋手。”他对这些人工智能的能力感到好奇:“这些人工智能怎么能如此聪明?难道它们自己就会了吗?”

当时我愣住了,确实,如果机器学习具备思考能力,那么它们是如何进行思考的呢?

就拿机器学习中最常见的方法来说,机器学习过程其实并不是“自己就会了”。一般来说,机器学习可以分为监督学习和无监督学习两大类。监督学习的过程类似于教小孩子认识事物,比如告诉他们“这是爸爸,那是妈妈”,或者教他们简单的数学问题,如土豆每斤2元,5斤是多少。这些都是通过预先定义好的数据来进行学习。而无监督学习则是通过自身的规则来区分数据之间的差异或识别特征,也就是所谓的“自己学会”。

然而,并不是所有的机器学习都完全依靠自我学习。其中涉及到一系列步骤,包括数据预处理、建立模型、验证模型以及优化模型。这些步骤与人类学习的过程有些类似,但在某些方面更加精细。数据预处理是为了让数据变得易于理解和处理;建立模型就像是形成个人经验,但这些经验需要验证,而优化模型则是为了进一步提升性能。

接下来,我们从机器学习的角度来看看人类的一些现象。

人类为何对某些类型的信息特别敏感?

比如,如果一个人的父亲是厨师,那么这个人可能对味觉更敏感;如果母亲是摄影师,那么这个人可能对色彩更敏感。同样,如果一个模型长期接触某种类型的数据,是否会对这种数据更敏感呢?答案是肯定的。在机器学习模型中,这种情况确实存在。在人生经验不足的情况下,机器学习可能会采取过采样或欠采样的方法来平衡数据。过采样是增加少数类样本的数量,而欠采样则是减少多数类样本的数量。

过采样和欠采样都有多种具体方法,其中一种过采样方法是合成少数类过采样技术(SMOTE)。这种方法通过在原始样本集中插入新的样本点来生成新的样本。另一种欠采样方法是NearMiss,它通过计算距离来减少数据信息的丢失。NearMiss有几种不同的变体,但基本思路都是选择距离较近的多数类样本点。

模型的“题海战术”

在提升模型稳健性方面,数据的平衡性至关重要。就像我们在学习时做的题海战术一样,通过大量的练习来提高模型的性能。套袋法(Bagging)是一种常用的集成学习方法,它通过组合多个随机生成的训练集来改进分类效果。这种方法可以减少方差,避免过度拟合。

提升法(Boosting)则是一种基于弱学习器构建强学习器的方法。它通过迭代学习,每次学习时都关注之前分类错误的样本,从而逐步提高模型的准确性。

机器学习的“神经”会出问题吗?

在了解神经网络之前,首先要了解感知器(神经元)是神经网络的基本单元。感知器本质上是一个过滤器,它有一个阈值,当输入变量超过或低于这个阈值时,输出结果为-1或1。感知器学习的目标是找到一个能将训练集中的正负样本完全分开的超平面。

神经网络主要经历了两个阶段:前向传播和反向传播。前向传播是指输入数据通过网络各层传递,最终得到输出结果;反向传播则是指根据输出结果调整网络中的权重,以最小化误差。

然而,神经网络也有其局限性。例如,在深度网络中,梯度在逐层传递过程中可能会逐渐消失,导致权重几乎不再变化,影响模型的训练效果。反之,梯度也可能变得过大,导致模型在训练过程中大幅更新权重,无法形成稳定的模型。

本文节选自《机器学习从入门到入职》,本书从分类、回归、聚类、降维、深度学习等方面介绍了机器学习的核心概念和模型原理,并结合实际案例进行讲解,帮助读者快速掌握机器学习的实际应用。

本书分为四个部分,第一部分介绍机器学习的基础概念、开发环境搭建及基本流程;第二部分涵盖回归、分类、聚类、降维等内容,以及Sklearn框架的具体应用;第三部分介绍深度学习,包括卷积神经网络、生成对抗网络、循环神经网络等,并结合Keras框架进行讲解;第四部分简要介绍机器学习岗位的入职技巧。

本书适合机器学习初学者、对机器学习感兴趣的人群以及相关岗位的求职者阅读。

    本文来源:图灵汇
责任编辑: : 谭坤有约
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器怎样知道学习
    下一篇