机器学习最难区分的4个概念,一文厘清
作者头像
  • 千与千雪
  • 2019-09-30 11:51:30 0

前几天,我和中科院的戴玮老师讨论了机器学习。在复习《统计学习基础》的过程中,不禁思考起机器学习与统计学之间的区别。从最基本的回归分析到神经网络,大部分内容都属于统计学习的范畴。然而,直到Tom Mitchell的经典论文发表后,机器学习才真正独立起来,不再依附于统计学。

尽管机器学习和传统统计学在某些方面有所不同,但在许多方面两者依然密切相关。主要的区别在于它们的关注点和验证方法。Brian Caffo指出,机器学习更关注模型的泛化能力和准确性,而传统统计学更注重模型本身的复杂度和验证性。

具体来说,机器学习通过交叉验证来评估模型的泛化性能,而统计学则倾向于寻找可验证的假设,例如使用t检验等方法。统计学重视过程的严谨性和可证明性,而机器学习则更注重结果的有效性,更加实用。

这种差异在金融领域尤为明显。尽管机器学习在金融市场上的应用取得了显著成果,但也存在一些问题。有些人利用机器学习进行量化分析,却夸大其效果,误导投资者。事实上,许多模型在实际操作中表现不佳,甚至完全失效。这种情况不仅与过拟合和技术错误无关,还反映出模型的复杂性问题。

强化学习在量化交易中非常流行,因为它能够在复杂环境中找到最优策略。顾险峰教授试图通过几何方法打开Wasserstein GAN的黑箱,但这一过程需要深厚的优化理论知识。目前,机器学习仍然依赖于诸如LightGBM这样的工具,这些工具在Kaggle竞赛中表现出色。

传统统计学强调模型的简洁性,遵循奥卡姆剃刀原则。这意味着即使更复杂的模型可能效果更好,但也会受到限制。相比之下,机器学习模型的复杂度越来越高,例如从LeNet到ResNet的发展。尽管模型越来越复杂,但研究者们仍在努力简化模型,例如通过改进卷积结构(如Inception和Xception)或通过ResNet和DenseNet等架构来实现。

此外,机器学习对数据质量要求很高。如果数据噪声大或与目标变量相关性低,模型的效果将大打折扣。因此,机器学习在数据预处理和特征工程上投入大量精力。

相比机器学习和统计学,概率论具有独特的地位。概率论不需要依赖具体数据,而是侧重于概率背后的数学关系。统计学通常基于大数定律,而概率论则涉及更多的理论基础,如测度论。

总之,机器学习、统计学和概率论各有特点。机器学习注重模型的实际效果和泛化能力,统计学强调模型的简洁性和验证性,而概率论则更关注概率背后的数学原理。这些学科在实际应用中各有优势,相互补充。

    本文来源:图灵汇
责任编辑: : 千与千雪
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
一文厘清区分概念机器学习
    下一篇