机器学习基础之算法学习
作者头像
  • 无颜说智能
  • 2019-10-14 15:46:13 2

[b]坚持不懈,不必三更灯火五更鸡鸣[/b]

[b]最有价值,莫过于持之以恒的努力[/b]

深度学习是机器学习的一个特定分支。要全面理解深度学习,首先需要掌握机器学习的基本原理。同时,机器学习的一些局限性也推动了深度学习算法的发展。那么,机器学习中的“学习”究竟意味着什么呢?简而言之,当我们使用某个算法来解决某一问题时,通过预先准备的数据进行训练,该算法在某一评估指标下的表现会逐渐提升。这时,算法便完成了从数据中学习的过程。以下是三个关键概念:任务、评估指标和经验。

[size=6][b]一、任务[/b][/size]

机器学习可以帮助我们解决那些传统编程难以应对的问题,这也是它备受关注的原因之一。学习本身并不是任务,而是获得完成任务的能力。一个成熟的机器学习系统在实际应用中会接收一组量化后的特征作为输入,我们将这组特征称为样本。例如,一张图片的特征可以表示为其像素值的集合。常见的机器学习任务包括:

[list=1]分类:计算机程序需要预测某些输入属于哪个类别。例如,Willow Garage PR2机器人能够像服务员一样识别不同的饮料并送至点餐顾客手中。目前最先进的物体识别技术正是基于深度学习实现的。 缺失输入分类:当某些输入数据缺失时,算法需要学习如何处理包含各种缺失数据的子集。这种情况在医疗诊断中很常见,因为许多医学检查既昂贵又对人体有害。 回归:算法需要对给定的输入提供一个预测数值。例如,预测保险索赔金额或股票未来的价格。 转录:算法将非结构化数据转换为结构化的文本形式。例如,光学字符识别(OCR)算法可以从图像中提取文字序列。 异常检测:算法需要从一组事件或对象中找出并标记异常或不寻常的个体。例如,信用卡欺诈检测。 密度估计或概率质量函数估计:算法需要捕捉样本的概率分布,即在何种情况下样本会密集出现,以及在何种情况下不太可能出现。 [/list] 以上列举的任务类型旨在介绍机器学习可以解决哪些问题,并非严格定义任务的分类。

[size=6][b]二、评估指标[/b][/size]

为了评估机器学习算法的表现,我们需要设计一套定量的评估指标。根据任务的不同,评估指标的选择也会有所不同。对于分类、缺失输入分类和转录任务,我们通常使用准确率作为评估指标。而对于密度估计这类任务,准确率的评估并不适用,常用的评估方法是计算模型在一些样本上的对数似然值的平均值。

实践中,选择合适的评估指标是一个复杂的过程,因为有时很难明确应采用哪种指标。例如,在转录任务中,我们是应该评估整个序列的准确率,还是采用更细粒度的评估目标?在回归任务中,我们是应该关注那些偶尔犯大错但总体误差较小的系统,还是关注那些虽然很少犯错但每次错误都较大的系统?这些问题的选择取决于具体的应用场景。

[size=6][b]三、经验[/b][/size]

根据机器学习过程中获得的不同经验,算法大致可以分为无监督学习和有监督学习两大类。我们可以认为大多数算法都是在整个数据集上进行学习的。

无监督学习

算法需要从训练数据中发现有用的结构特性,如概率分布。可以理解为,在没有指导的情况下,算法自行学习数据的内在规律。

有监督学习

算法需要通过观察输入变量x及其相关的输出变量y之间的关系,从而能够根据x预测y。可以理解为,教师提供了目标y,并指导机器学习系统应该如何操作。

通常情况下,监督学习和无监督学习之间的界限并不是非常清晰,很多机器学习算法可以应用于这两种任务。然而,这种分类有助于我们在研究机器学习算法时更好地理解和区分不同的问题。人们通常将回归、分类或结构化输入问题归类为监督学习,而将支持其他任务的密度估计视为无监督学习。此外,还存在一些介于两者之间的变体,如半监督学习,其中部分样本具有监督目标,而其他样本则没有。

    本文来源:图灵汇
责任编辑: : 无颜说智能
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
学习算法机器基础
    下一篇