在20世纪50年代,Arthur Samuel提出了最早的机器学习定义:在特定编程的条件下,赋予计算机学习的能力。他编写了一个西洋棋程序,尽管他自己并非下棋高手,但通过让程序自己下上万盘棋,程序逐渐学会了如何更好地布局。这一过程使得计算机在下棋水平上超越了Samuel本人,展现了计算机的强大耐心和学习能力。
卡内基梅隆大学的Tom Mitchell进一步定义了机器学习:一个程序被认为是在经验E中学习,以解决任务T,通过性能度量P,当且仅当,有了经验E后,经过P的评估,程序在执行T时的性能有所提升。例如,在西洋棋的例子中,经验E就是程序通过上万次自我练习积累的经验,任务T就是下棋,而性能度量P则是它与新对手比赛时获胜的概率。
监督学习是指计算机在已知输入和输出的情况下,学习如何完成任务。监督学习包括回归和分类两种类型。回归任务是通过连续输入预测结果,而分类任务是通过离散输入预测结果。
例子1:基于房地产市场的房屋面积数据,预测房价。这属于回归任务。也可以将问题转化为分类任务,比如预测房子是否卖得高于或低于要价。
例子2:回归任务是根据照片预测人的年龄;分类任务是根据患者的病情预测肿瘤是良性还是恶性。
非监督学习则是在不了解具体结果的情况下,让计算机自主学习。这种方法通常用于从数据中提取结构,如聚类分析。
例子:通过聚类分析,可以将100万个不同基因自动分组成不同的相似或相关组,或者使用“鸡尾酒会算法”在嘈杂环境中识别个别声音。
强化学习是一种通过试错学习的方法,旨在使计算机学会如何做出决策。
推荐系统是利用用户的历史行为和偏好来推荐产品或服务的一种方法。
在建立线性回归模型时,我们将输入变量(如房屋面积)记作(x),将目标变量(如价格)记作(y)。一对训练样本((x^{(i)}, y^{(i)}))构成训练集的一部分。我们希望通过学习函数(h: X rightarrow Y),使得(h(x))成为(y)的良好预测值。
成本函数用来衡量假设函数的准确性。通过计算所有训练样本的平均差异,我们可以得出一个“平方误差函数”或“均方误差”。这个函数帮助我们找到最佳的拟合线,使得预测值与实际值之间的误差最小化。
梯度下降是一种优化方法,通过逐步调整参数,使成本函数最小化。具体来说,我们需要计算成本函数的导数,然后沿着导数的反方向逐步更新参数,直到收敛。每次更新的步长由学习率(alpha)控制,它决定了每次调整的幅度。
通过梯度下降算法,我们可以逐步逼近成本函数的最小值。当导数接近零时,梯度下降会自动减小步长,从而实现精确收敛。最终,我们的假设函数将变得越来越准确,实现对数据的最佳拟合。
机器学习是一门通过编程赋予计算机学习能力的学科,主要分为监督学习、非监督学习、强化学习和推荐系统。通过线性回归和梯度下降等方法,我们可以有效地训练模型,使其在面对新数据时表现出色。希望以上内容对你有所帮助。