机器学习入门篇 | 面向初学者的十大机器学习算法
作者头像
  • 石娜娜
  • 2019-12-17 16:43:37 4

机器学习入门必备的十大算法

英国数学家、计算机科学家、逻辑学家和密码分析专家艾伦·图灵曾预言,未来机器将具备智能。

“这就像一位学生,从老师那里学到很多知识,但通过自己的工作又增加了许多知识。当这种情况发生时,我认为人们有责任把机器视为拥有智能。”

为了展示机器学习的影响,Man Group的AHL Dimension计划是一个管理着51亿美元的对冲基金,其中一部分由人工智能管理。自该基金成立以来,尽管管理的资产较少,但其机器学习算法已贡献了基金一半以上的利润。

在阅读本文后,您将了解一些流行的、令人惊叹的机器学习算法,这些算法已经被交易社区广泛使用,并将成为您创建最佳机器学习算法的基础。以下是这些算法:

线性回归

线性回归最初在统计学中发展起来,用于研究输入和输出数值变量之间的关系,后来被机器学习社区用来基于线性回归方程进行预测。

线性回归的数学表示是一个线性方程,它结合了一组特定的输入数据(x),以预测该组输入值的输出值(y)。线性方程为每组输入值分配一个系数,这些系数用希腊字母β(贝塔)表示。

例如,具有两组输入值x1和x2的线性回归模型的方程如下:

[ y = beta0 + beta1 x1 + beta2 x_2 ]

当只有一个输入变量时,线性方程表示一条直线。若β2等于零,则变量x2不会影响线性回归模型的输出。在这种情况下,线性回归将表示一条直线,其方程如下:

[ y = beta0 + beta1 x_1 ]

线性回归方程模型的图形如下所示。

逻辑回归

在逻辑回归中,我们的目标是生成一个二元值,即1或0。这有助于我们得出一个明确的答案。逻辑回归可以用数学公式表示为:

[ y = frac{1}{1 + e^{-x}} ]

逻辑回归模型类似于线性回归,用于计算输入变量的加权和,但它通过特殊的非线性函数——逻辑函数或S形函数运行结果,以产生输出y。

简单地说,逻辑回归可以用来预测市场的走势。

K近邻分类

K近邻(KNN)分类的目的是将数据点分为不同的类别,以便可以根据相似性度量(如距离函数)对其进行分类。

KNN不需要明确的训练阶段,而是由相邻数据点的多数票决定分类。因此,将目标数据点分配给在其k个最近邻样本中数量最多的类别。

例如,在下面的图片中,我们将绿色圆圈分为1类和2类。假设基于1个最近邻的KNN,KNN将绿色圆圈分类为1类。现在,假设最近邻的数量增加到3,即3个最近邻。从图中可以看到,圆圈内有两个2类对象和一个1类对象。因此,KNN将绿色圆圈归为2类对象,因为它是多数。

支持向量机(SVM)

支持向量机(SVM)最初用于数据分析。首先,一组训练实例被输入到SVM算法中,它们分别属于一个类别或另一个类别。然后,该算法可以构建一个模型,并开始将新的测试数据分配给在训练阶段学习到的一个类别。

在SVM算法中,创建了一个超平面,该超平面作为类别之间的分界线。当SVM算法处理新的数据点时,根据它出现在超平面的哪一侧,它将被分类为一个类别。

在交易中,可以建立SVM算法,将股票数据分类为有利的买入、卖出或中性类别,然后根据规则对测试数据进行分类。

决策树

决策树是一种类似于树的支持决策工具,可以用来表示因果关系。因为一个原因可能会导致多种结果,所以我们在决策树中列出所有可能的结果,类似于带有分支的树。

我们可以通过对输入数据和预测变量进行组织,并根据我们指定的一些标准来构建决策树。

构建决策树的主要步骤包括: 1. 获取金融工具的市场数据。 2. 引入预测变量(如技术指标、情绪指标、广度指标等)。 3. 设置目标变量或所需输入。 4. 将数据划分为训练数据和测试数据。 5. 生成训练模型的决策树。 6. 测试和分析模型。

决策树的一个缺点是由于其固有的设计结构,容易出现过拟合问题。

随机森林

随机森林算法旨在解决决策树的一些局限性。

随机森林由多个决策树组成,每个决策树都是代表决策过程或统计概率的决策图。这些多个树映射到单个树,称为分类或回归(CART)模型。

为了基于对象的属性对目标对象进行分类,每棵树都给出了一个分类,称为对该类别的“投票”。然后,随机森林选择投票数最多的类别。对于回归树,它考虑了不同树的输入值的平均值来进行回归。

随机森林算法的工作方式如下: 1. 假设案例数为N,以N个案例的样本作为训练集。 2. 假设M是输入变量的个数,选择一个小于M的整数m。 3. 随机抽取m个特征,并用它们构建一棵决策树。 4. 对每棵树重复步骤2和3,直到构建出多棵决策树。 5. 最终,随机森林通过投票或平均值来确定最终的分类或回归结果。

通过以上介绍,您可以了解到这些算法的基本原理和应用场景。希望这些信息能帮助您更好地理解和应用机器学习技术。

    本文来源:图灵汇
责任编辑: : 石娜娜
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器学习算法初学者入门面向十大
    下一篇