Machine Learning（机器学习）之一

IT行业资讯
2019-10-23 07:54:52 6

机器学习的定义及学习算法

早期定义

在20世纪50年代，Arthur Samuel提出了最早的机器学习定义：在特定编程的条件下，赋予计算机学习的能力。他编写了一个西洋棋程序，尽管他自己并非下棋高手，但通过让程序自己下上万盘棋，程序逐渐学会了如何更好地布局。这一过程使得计算机在下棋水平上超越了Samuel本人，展现了计算机的强大耐心和学习能力。

近期定义

卡内基梅隆大学的Tom Mitchell进一步定义了机器学习：一个程序被认为是在经验E中学习，以解决任务T，通过性能度量P，当且仅当，有了经验E后，经过P的评估，程序在执行T时的性能有所提升。例如，在西洋棋的例子中，经验E就是程序通过上万次自我练习积累的经验，任务T就是下棋，而性能度量P则是它与新对手比赛时获胜的概率。

机器学习的学习算法

监督学习

监督学习是指计算机在已知输入和输出的情况下，学习如何完成任务。监督学习包括回归和分类两种类型。回归任务是通过连续输入预测结果，而分类任务是通过离散输入预测结果。

例子1：基于房地产市场的房屋面积数据，预测房价。这属于回归任务。也可以将问题转化为分类任务，比如预测房子是否卖得高于或低于要价。

例子2：回归任务是根据照片预测人的年龄；分类任务是根据患者的病情预测肿瘤是良性还是恶性。

非监督学习

非监督学习则是在不了解具体结果的情况下，让计算机自主学习。这种方法通常用于从数据中提取结构，如聚类分析。

例子：通过聚类分析，可以将100万个不同基因自动分组成不同的相似或相关组，或者使用“鸡尾酒会算法”在嘈杂环境中识别个别声音。

强化学习

强化学习是一种通过试错学习的方法，旨在使计算机学会如何做出决策。

线性回归算法

模型表示

在建立线性回归模型时，我们将输入变量（如房屋面积）记作(x)，将目标变量（如价格）记作(y)。一对训练样本((x^{(i)}, y^{(i)}))构成训练集的一部分。我们希望通过学习函数(h: X rightarrow Y)，使得(h(x))成为(y)的良好预测值。

成本函数

成本函数用来衡量假设函数的准确性。通过计算所有训练样本的平均差异，我们可以得出一个“平方误差函数”或“均方误差”。这个函数帮助我们找到最佳的拟合线，使得预测值与实际值之间的误差最小化。

梯度下降

梯度下降是一种优化方法，通过逐步调整参数，使成本函数最小化。具体来说，我们需要计算成本函数的导数，然后沿着导数的反方向逐步更新参数，直到收敛。每次更新的步长由学习率(alpha)控制，它决定了每次调整的幅度。

通过梯度下降算法，我们可以逐步逼近成本函数的最小值。当导数接近零时，梯度下降会自动减小步长，从而实现精确收敛。最终，我们的假设函数将变得越来越准确，实现对数据的最佳拟合。

总结

机器学习是一门通过编程赋予计算机学习能力的学科，主要分为监督学习、非监督学习、强化学习和推荐系统。通过线性回归和梯度下降等方法，我们可以有效地训练模型，使其在面对新数据时表现出色。希望以上内容对你有所帮助。

图灵汇

责任编辑：： IT行业资讯

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

Learning 机器之一 Machine 学习

金正辉

2019-10-23