如何迅速获取机器学习最新信息?机器学习成果主站了解一下
作者头像
  • 2020-06-14 13:14:21 1

无论是在学术界还是工业界,机器学习领域的发展都极为迅速,相关论文数量呈指数级增长,平均大约每15分钟就有一篇新论文问世。

这种快速发展也带来了新的挑战:面对海量的论文和知识库,如何有效地筛选信息,确保获取最新知识?

为此,有一个机器学习成果主站致力于集中展示机器学习的所有成果,帮助用户及时了解该领域的最新进展。无论是研究人员、工程师还是爱好者,都能从中受益,从而改善信息的可得性,推动自身发展。

去年,该平台推出了排行榜功能,以机器可读的格式和免费许可证的形式,将所有机器学习成果汇总在一起,这是一个由整个社区共同参与的努力。成千上万的贡献者为自己的论文和他人的论文添加了结果,共同努力创造了世界上最大的机器学习成果数据库。

本文将介绍几个令人兴奋的更新,特别是那些包含代码的论文:

  • 新成果界面:直接链接到arXiv论文中的表格,成为机器学习成果的主要来源。
  • 大规模数据库更新:新增800多个排行榜,5500多个新结果,使得不同方法之间的任务对比更加丰富。
  • 自动提取结果:采用半自动方法提取论文结果,相比以往,精度更高。

新成果界面

研究人员对排行榜功能的一大需求是更清晰地说明论文中的结果来源。为此,我们推出了新的成果界面,直接将结果与arXiv论文中的原始表格链接起来。例如,在ImageNet排行榜中,点击任意一行的结果图标,它会跳转到论文中的表格来源处。这种新界面不仅提高了透明度,还作为新的论文成果编辑器,允许社区成员添加自己论文中的结果,并直接与外部表格链接。目前,该接口主要适用于使用LaTeX源代码的arXiv论文。

大规模数据库更新

新界面和自动提取模型扩大了资源的覆盖面。截至目前,这里已新增800多个排行榜和5500多个新结果。这有助于实现资源的全面覆盖,但仍有改进空间。我们鼓励所有机器学习论文的作者、工程师和爱好者提交他们的论文和研究成果。

我们的数据库是公开且免费的,每个人都可以贡献数据。所有数据均在免费的开放数据许可协议下授权,可以在此下载所有JSON格式的数据。社区的持续贡献将保持资源的运行,提高可访问性,促进知识的传播。

自动提取结果

在过去一年中,我们一直在研究如何从机器学习论文中自动提取结果。现在,我们有了新的循环系统,大大简化了结果提取的过程。该模型为每一篇arXiv机器学习论文生成建议,用户可以选择接受或拒绝。相比之前的技术,这一系统已经取得了显著的进步,可以实际应用。这将提高结果的质量和覆盖率,随时向社区通报机器学习的新进展,即使是在小众或特定领域。

整个方法已在arXiv上发布,并在GitHub上开源(https://github.com/paperswithcode/axcell)。此外,我们还提供了用于结果提取的训练数据集,具有结构化和注释的特点,另一个数据集用于评估模型在这项任务中的表现。

技术的发展确实带来了便利。几年前,追踪机器学习的进展仍然相当困难,但现在只需在Google上输入任意基准,几秒钟内就能找到最佳方法。

然而,排行榜也有其局限性。排行榜上的目标通常是点估计,而许多因素会影响最终的价值,如额外的训练数据、训练时间以及数据选择等。此外,数据偏差可能导致排行榜的进展并不能完全反映研究的实际进展。未来,我们将进一步研究,以便更好地比较机器学习方法,而不仅仅是比较给定基准的最新水平。

总体而言,这些变化确实朝着将所有机器学习成果集中在一起的方向迈进了一步。我们期待新功能为用户提供更全面的体验,即使是机器学习的小众领域也能拥有工具,更好地总结进展和比较不同方法。请访问paperswithcode.com/sota目录,使用搜索功能找到论文、添加结果。

机器学习的研究需要我们共同构建,期待在不久的将来能有更多这样的功能。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器学习获取迅速成果了解一下如何最新信息
    下一篇