除了广为人知的 Kaggle,数据科学家还可以参加许多其他类型的数据竞赛平台。这些平台不仅提供比赛,有的甚至允许你自己发起比赛。这些比赛有的由公司赞助,有的则由政府机构支持。参加这些竞赛不仅可以提升你的专业技能,还有机会赢得丰厚的奖金。
经过数百门慕课(MOOC)、数千本参考书籍和笔记的学习,以及听取数百万专业人士的观点后,你可能会感到跃跃欲试,想要将所学的知识运用到实践中。实践是掌握机器学习的关键。你可以选择感兴趣的领域,尝试解决实际问题,或者参加编程马拉松(Hackathon)和机器学习竞赛。
数据科学比赛不仅仅是算法的应用。算法只是工具,任何人都可以通过编写几行代码来使用它们。但这些比赛的主要价值在于它们提供了宝贵的学习机会。虽然比赛中的问题可能与现实问题有所不同,但这些平台可以让你将理论知识转化为实践,同时帮助你了解自己与他人的差距。
参加这些比赛有着诸多益处:
Driven Data 致力于利用先进的预测模型解决全球性的难题,如国际发展、医疗健康、教育、研究和公共服务等。这个平台不仅提供比赛,还鼓励用户自己发起比赛。网站上有专门的示例项目部分,展示了成功案例。这些数据集大多与非营利组织相关,涵盖从野生动物保护到公共卫生的各个领域。
CrowdANALYTIX 是一个众包分析平台,将商业挑战转换成竞赛题目。社区成员通过合作与竞争来开发和优化人工智能、机器学习、自然语言处理和深度学习算法。该平台还设有社区博客,提供丰富的资源,包括访谈和参考资料。
InnoCentive 专注于生命科学领域,但也涵盖了其他有趣的主题。参赛者可以参与到一些世界上最紧迫的问题中,例如改善家庭用水供应或研发被动式太阳能装置来消灭传播疟疾的蚊子。挑战通常需要持续的专注、批判性思维、研究、创造力以及综合知识。解决这些问题本身就是一种奖励,同时也是一次极好的脑力锻炼。
TunedIT 起源于华沙大学的一个理科博士项目,旨在帮助数据科学家进行可重复的实验和评估数据驱动的算法。后来,为了教育、科研和商业目的,又增加了举办数据竞赛的功能。
Codalab 是一个基于 Web 的开源平台,研究人员、开发人员和数据科学家在这里合作,推动机器学习和高级计算的发展。该平台通过在线社区解决了数据导向研究领域的许多常见问题,用户可以共享工作表并参与竞赛。
Analytics Vidhya 不仅为分析和数据科学专业人士提供了一个知识共享社区,还提供了大量的学习资源。该平台经常举办编程马拉松,通过竞赛形式解决实际的行业问题。表现优异的参赛者往往能得到工作机会。
CrowdAI 是一个每年举办多次开放性数据科学挑战的平台,涵盖图像分类、文本识别、强化学习、对抗攻击、图像分割、资源配置优化等多个领域。其中,2017 年由亚马逊和英伟达赞助的“Learning to Run”竞赛,奖金高达十万美元。
Numerai 是一个由数据科学家和 AI 运营的众包对冲基金平台。每周,该平台都会举办数据科学竞赛,支持真正的对冲基金。参赛者提交预测结果,Numerai 根据所有结果构建元模型并进行投资。参赛者通过提交预测结果获得一种名为 Numeraire 的加密货币。
天池是阿里云创建的数据竞赛平台,类似于 Kaggle。平台上聚集了成千上万的合作数据科学家,他们可以联系全球的企业和政府,解决各行业的复杂问题。
Data Science Challenge 由英国政府和多个政府部门联合赞助,旨在鼓励数据科学领域的优秀人才解决现实问题。虽然目前的挑战已经结束,但很快会有新的挑战出现,鼓励你寻找非常规的解决方案。
KDD Cup 是 ACM 数据挖掘及知识发现专委会(SIGKDD)组织的年度竞赛,是数据挖掘人才的重要盛会。KDD-2019 将于 2019 年 8 月 4 日至 8 月 8 日在美国阿拉斯加州的安克雷奇举行。
VizDoom 是基于 Doom 游戏的 AI 研究平台,通过原始视觉信息进行强化学习。参赛者需要提交可以玩 Doom 的控制器(可用 C++、Python 或 Java 编写)。
尽管这份名单可能会随时间变化,但最终你会找到自己最感兴趣的竞赛。祝你好运,开始你的数据科学竞赛之旅吧!