如何向普通人解释机器学习、数据挖掘
作者头像
  • 2018-10-16 16:29:02 2

随着数据科学在人工智能领域的发展,数据挖掘和机器学习逐渐成为人们关注的焦点。然而,对于大多数人而言,机器学习听起来像是高深莫测的技术,其真正含义却鲜为人知。

尤其是对于从事数据科学工作的人来说,如何向非专业人士解释自己的工作内容往往是个难题。那么,究竟什么是机器学习?我们可以通过以下几个层次来解释这一概念。

一、专业理论型

这种解释方式通常包含一些专业术语和百科定义,虽然听起来令人印象深刻,但实际上却让人感到困惑。

机器学习(Machine Learning, ML)是一门跨学科的学问,涵盖了概率论、统计学、逼近论、凸分析和算法复杂度理论等多个领域。它专注于研究计算机如何模拟或实现人类的学习行为,从而获取新的知识或技能,进而提升自身的性能。作为人工智能的核心,机器学习使计算机具备智能的关键途径,并广泛应用于人工智能的各个领域,主要依赖归纳而非演绎的方法。

机器学习的应用范围十分广泛,包括但不限于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎优化、医学诊断、信用卡欺诈检测、证券市场分析、DNA序列分析、语音和手写识别、战略游戏和机器人技术等领域。

机器学习本质上是一种学习结构,由环境、知识库和执行三个部分组成。在这个过程中,环境向系统提供信息,系统利用这些信息更新知识库,以提高执行部分完成任务的能力。执行部分根据知识库完成任务,并将反馈信息传递给学习部分,从而进一步优化知识库。

在实际应用中,环境、知识和执行部分决定了具体工作的内容,学习部分需要解决的问题完全取决于这三个要素。简言之,机器学习就是计算机利用现有数据建立模型,并利用该模型对未来进行预测的方法,这与人类思考的方式非常相似。

二、以小见大型

通过具体实例来说明机器学习的概念,使人们更容易理解。

假设在一个房间里,有很多小球漂浮着。我们想弄清楚这些小球是否呈现出某种特定的结构。例如,小球是否倾向于集中在某个区域?是否避开某些点位?它们是否均匀分布?

由于房间内一片漆黑,我们无法直接看到小球。因此,我们使用带有闪光灯的照相机拍摄小球的照片。即便小球之间确实存在某种联系,但从这些照片上我们仍然无法看出规律。我们尝试从不同的角度拍摄照片,最终才发现了其中的规律:小球倾向于聚集在靠近屋顶和地面的位置。

在这个例子中,我们实际上是在讨论三维数据点。每个小球的位置可以用三个数字表示,分别代表其在X、Y、Z轴上的位置。在实际的计算机运算中,数据点的位置会用更多的数字组合来表示。

例如,医院病人的病历可能包含500组数字,包括出生日期、身高、体重、血压、最近的就诊记录、胆固醇水平等。我们需要了解这些数据点之间是否存在某种规律,例如心脏病患者的病历数据是否集中分布。如果确实存在这种规律,当我们发现新入院患者的病历数据也有类似的分布趋势时,我们就能推测这位患者可能患有心脏病。当然,实际情况会更复杂。

一个人不可能用肉眼分辨出这么多维度的数据点。就像在上面的例子中,没有人能在黑暗中看清小球一样,我们同样难以直接看到500维的数据点。我们可以通过二维图像来展示三维空间中的数据点,用同样的方法,我们也可以通过低维“照片”来展示高维数据点。只有从合适的角度拍摄“照片”,才能发现不同数据点之间的规律,否则将难以发现任何规律。这就是人们所说的如何从“大数据”中“发现见解”。

三、晓之以情,动之以理

通过日常生活中的例子,使人们更容易理解机器学习的概念。

假设你准备去买一些芒果。市场上有一个小贩摆出了一车芒果。你可以一个一个挑选,然后小贩根据你挑选的芒果的重量来计费(这是印度的一种常见情况)。你希望买到最甜最熟的芒果,因为小贩是按重量收费的,而不是按品质收费的。那么,你会如何选择?

你记得奶奶说过,嫩黄色的芒果比暗黄色的更甜。因此,你决定只挑选嫩黄色的芒果。你检查了各个芒果的颜色,挑了一些嫩黄色的,然后买了单。你满心欢喜地回家,却发现有些芒果并不如预期的那么甜。显然,奶奶的建议并不完全正确。

经过多次尝试和品尝不同类型的芒果,你发现大个儿、嫩黄色的芒果通常是甜的,而小个儿、嫩黄色的芒果只有大约一半是甜的。你把这些规则牢记在心,下次再去买芒果时,你便按照这些规则行事。但是,当你遇到新的小贩时,你发现之前的规则不再适用。在这个新的地方,小个儿、暗黄色的芒果反而更甜。不久后,你的表妹来看望你,她想要的是多汁的芒果,而不是最甜的。于是,你再次尝试,发现较软的芒果通常更多汁。之后,你搬到另一个国家,在那里,你发现绿色的芒果比黄色的更好吃。再后来,你娶了一位不喜欢芒果的妻子,她喜欢吃苹果。你不得不开始学习如何挑选苹果,因为你爱她。

现在,假设你需要编写一个计算机程序来帮助你挑选芒果(或者苹果)。你会写下一些简单的规则:

  • 如果颜色是嫩黄色且尺寸较大,则认为芒果是甜的。
  • 如果芒果较软,则认为它多汁。

你会用这些规则来挑选芒果,甚至让别人按照这个规则列表去购买芒果,保证买到满意的芒果。

但是,一旦你有了新的发现,你必须手动修改这些规则。你必须详细了解影响芒果质量的各种因素。如果问题变得更加复杂,你将不得不针对所有类型的芒果手动制定挑选规则,这将是一项艰巨的任务。

这时,机器学习算法便派上了用场。它可以从提供的数据中自动学习,让你的程序变得更“聪明”。你从市场上随机抽取一定数量的芒果样本,记录下每个芒果的物理属性(如颜色、大小、形状、产地、卖家等),并记录下这些芒果是否甜、是否多汁、是否成熟等信息。你将这些数据提供给一个机器学习算法,让它学习出一个关于芒果的物理属性和其质量之间关系的模型。

下次你再去市场时,只需测量那些芒果的特性,然后将这些数据输入机器学习算法。算法将根据之前计算出的模型来预测芒果是否甜、是否熟,是否多汁。该算法内部使用的规则类似于你之前手写的规则(如决策树),但你不必过多关心这些细节。

现在,你可以满怀信心地去买芒果,根本不需要考虑那些挑选芒果的细节。更重要的是,你可以让你的算法随着时间的推移变得更好(增强学习),当它接触到更多的训练数据时,它会变得更加准确,并在做出错误预测后自我纠正。最重要的是,你可以用相同的算法训练不同的模型,比如预测苹果质量的模型、桔子的质量模型、香蕉的质量模型、葡萄的质量模型、樱桃的质量模型、西瓜的质量模型,让所有你爱的人都开心。

这,就是专属你的机器学习,非常炫酷吧。

相比自己完成机器学习项目,如何让机器学习课程适合更多的人(特别是初学者)要复杂得多,既要易于理解,也要兼顾深度。因此,我们设计了一个完善的课程体系,涵盖了机器学习的主要知识点,并深入到各个细节。课程不仅教授具体的技巧,还培养内在能力,以及学习和泛化的技巧。只要愿意学习,你将会有无限的可能。

点击下方链接,立即开始你的机器学习之旅。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
数据挖掘普通人机器解释如何学习
    下一篇