手写 30 个主流机器学习算法，代码全都开源了

马莫回聊科技
2019-11-24 11:03:01 8

本文介绍了一个由普林斯顿大学博士后David Bourgin开发的开源项目，该项目使用NumPy实现了多个主流的机器学习模型。David在项目中不仅展示了如何用NumPy编写这些模型，还详细说明了梯度计算和反向传播的过程。该项目包含超过3万个代码行，涵盖了30多个模型和15个用于预处理和计算的小工具。

NumPy作为Python生态系统中广受欢迎的科学计算库，提供了高效的多维数组操作以及一系列高级数学函数。尽管目前大多数机器学习框架已经不再使用NumPy作为底层实现，但这种方式仍然有助于理解机器学习的基本原理和底层架构。

David Bourgin的项目主要分为两个部分：传统机器学习模型和现代深度学习模型。具体来说，项目中包含了各种类型的模型和模块，例如隐马尔可夫模型、神经网络层级、正则化项、优化器、损失函数、激活函数等。此外，项目还包括一些辅助模块和工具，如预处理工具、相似度核、距离度量等。

David在项目中提供了丰富的参考资料，包括模型的效果图、参考论文和链接。项目结构清晰，易于理解和使用。尽管项目规模庞大，但仍有一些潜在的Bug需要解决。David鼓励社区成员共同参与改进和完善这些模型。

项目示例展示了如何使用NumPy实现点积注意力机制。通过定义前向和后向传播函数，可以有效地计算和更新各个模型参数。此外，项目还展示了隐狄利克雷分配模型（LDA）应用于文本聚类的效果，展示了词语和文档在特定主题中的分布情况。

总之，David Bourgin的项目是一个深入了解机器学习原理和实践的强大工具。通过阅读和研究该项目，开发者可以更好地掌握机器学习的核心概念和技术细节。

图灵汇

责任编辑：：马莫回聊科技

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

手写开源算法全都主流机器代码学习 30

邱茜茜

2019-11-24

Flink架构及其工作原理(很详细)