在这篇文章中,我们将探讨一种基础的机器学习算法——感知器算法。该算法是许多现代机器学习算法的基石,尤其是神经网络。此外,我们还将介绍感知器算法的近亲——逻辑回归。
在机器学习领域,主要分为两大类算法:监督学习和无监督学习。在之前的文章中,我们已经讨论过回归和分类,这些都是监督学习的一部分。监督学习算法通过已标记的训练数据进行学习,这意味着我们清楚地知道数据的正确答案。例如,当给定一堆被标记为苹果或橘子的图像时,算法会先猜测图像的内容,然后通过标签验证其猜测是否准确。
相比之下,无监督学习则是在未标记的数据中寻找模式。这种学习方式类似于人类在随机环境中发现模式的过程。无监督学习算法的目标是通过分析未标记的数据来识别潜在的结构或模式,而不依赖于特定的目标。
我们接下来将重点讨论无监督学习算法。现在,让我们来看看一种简单的监督学习算法——感知器算法。
机器学习和人工智能的一个重要目标是模仿甚至超越人类的能力。因此,尝试模拟人类大脑的工作原理是有道理的。人类大脑由数十亿个相互连接的神经元构成,这些神经元不断地发送信号,将信息从一个神经元传递到另一个神经元。神经元的基本功能是:当输入满足特定条件时,它会激活并向其他相连的神经元发送信号。尽管实际过程要复杂得多,但我们可以通过计算机模拟大脑的基本工作原理。
感知器算法正是为了模拟机器学习中的神经元功能而设计的。它是最早的机器学习算法之一。1957年,当第一次使用感知器来识别基本图像时,《纽约时报》曾预言它将是未来电子计算机的雏形,能够行走、交流、书写,甚至自我复制。虽然我们离这个目标还有一定距离,但《纽约时报》确实意识到了感知器的巨大潜力。如今,感知器已成为更复杂的神经网络的基础,我们将在后续文章中继续探讨这一话题。
感知器接受多个输入并输出一个结果。例如,一个感知器可以将温度作为输入,以判断“明天是否需要穿毛衣”。如果温度低于某个阈值(如70°F),感知器将输出1(是),否则输出0(否)。
然而,在决定是否穿毛衣时,考虑的因素不仅仅是温度。就像生物神经元可以接收多个输入信号一样,感知器也可以处理多个输入。在这种情况下,我们需要为每个输入分配一个权重。例如,温度可能会有一个负权重,因为温度越低,穿毛衣的可能性越大;风速可能有一个正权重,因为风速越高,穿毛衣的可能性也越大。
此外,不同地区的人对温度的敏感程度不同。比如,加拿大人可能对寒冷更加适应,所以他们的穿衣阈值较低;而澳大利亚人则倾向于温暖的气候,因此他们的穿衣阈值较高。为此,我们可以通过调整偏差值来反映这种差异。
现实生活中,许多决策并不是非黑即白的。例如,是否穿毛衣也可能受到不确定因素的影响。在某些温度下,人们穿毛衣的概率可能高达95%,而在其他温度下,这个概率可能只有30%。
逻辑回归模型提供了一种更灵活的方法来处理这类问题。其基本形式如下:
[ h(x) = frac{1}{1 + e^{-(theta^T x)}} ]
其中,(theta) 是参数向量,(x) 是输入变量,(h) 是模型的概率。更多详细内容可以参考 Andrew Ng 的相关笔记(https://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf)。逻辑回归与感知器算法非常相似,但它能预测概率,而感知器只能给出二进制结果。实际上,如果我们将逻辑回归模型的输出值小于0.5的部分设为0,大于0.5的部分设为1,那么其结果与感知器算法非常接近。
文章首发在微信公众号:btc201800
知识星球ID:28018093
音频发布在喜马拉雅上“区块链杂谈 (第2季)” http://xima.tv/Bjq4se
宁波格密链网络科技有限公司专注于区块链上的密码技术研发。