机器学习工具吐槽大会:回归模型连p值都不输入 | 你也来吐一波
作者头像
  • 2019-12-28 15:12:28 5

同窗们,想必大家都用过一些机器学习工具或库,有没有遇到过让你感到困扰的问题呢?

一位名为@Train_Smart的网友在Reddit论坛上发帖提问,分享了自己的经历。他在使用Pandas中的稀疏矩阵时遇到了问题,将数据传入scikit-learn时,矩阵被意外膨胀,导致内存消耗剧增,却没有收到任何提示。这一问题引起了广泛的关注,短短16小时内,帖子就收获了超过130条评论,热度达到了200点。

吐槽大会

统计学功能不足

不少用户反映,Python库在统计学功能方面存在缺陷。例如,@timmaeus提到,自己从统计学转向机器学习时,经常对库提供的结果感到失望,因为很多重要的统计指标如系数、p值和置信区间都没有提供。@AuspiciousApple补充说,这种情况可能与设计理念有关,statsmodels等库也没有提供数据集划分的功能。这使得用户不得不在sklearn和statsmodels之间频繁切换,以获取所需的统计信息。

文档质量低劣

许多用户抱怨机器学习库的文档质量不高。@colonel_farts指出,TensorFlow的文档非常令人沮丧。@jalagl则表示,所有文档都存在问题,PyTorch的文档同样不理想。具体来说,文档存在以下几个问题:

  1. 描述不清:有些函数的描述模糊不清,甚至有些函数的名字本身就很难理解,描述更是简单到无法提供有用信息。

  2. 缺乏示例:文档中缺乏实际示例,使得用户难以理解如何使用这些函数。

  3. 加载缓慢:文档加载速度慢,特别是在移动设备上,影响了用户的体验。

术语混乱

机器学习领域存在术语混乱的问题。同一数学或统计概念在不同学科中有不同的名称,这导致了交流上的障碍。@luhem007提到,统计和机器学习社区中,同一个概念可能有不同的定义,这使得沟通变得困难。@seman_ticks也表达了类似的观点,认为不同学科可能会对同一概念使用不同的命名,因此建立一个术语库是非常必要的。

你有何看法?

在机器学习库或工具中,你是否也有类似的困扰?或者你有什么解决方案或建议?欢迎在评论区留言,或者前往Reddit参与讨论。让我们一起推动机器学习工具的改进和发展。

Reddit讨论区链接: https://www.reddit.com/r/MachineLearning/comments/eftv1o/dwhatfrustratesyouaboutmltools_libraries/

— 完 —

希望通过以上改写,信息更加紧凑且易于理解,同时避免了直接引用原文。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
一波模型回归输入机器大会工具学习
    下一篇