机器学习的50个最佳收费数据集
作者头像
  • 权亚杰
  • 2019-09-29 06:43:17 0

数据集是机器学习和自然语言处理的重要组成部分。没有训练数据集,机器学习算法就无法学会如何进行文本挖掘、文本分类或产品分类。

本文将介绍多种广泛且详尽的训练数据集,例如财经新闻或亚马逊产品数据集。

在寻找数据集时,应牢记一些原则: - 寻找干净的数据集,避免浪费时间清理数据。 - 选择行数和列数较少的数据集,因为这些数据集更容易使用。 - 用该数据集可以回答一些有趣的问题。

数据集查找器

通过实践项目来学习机器学习是最有效的方式。你可以利用以下主要数据集查找器在线搜索和下载免费数据集:

Kaggle

Kaggle 是一个充满各种外部贡献的有趣数据集的数据科学网站。你可以在其主列表中找到各种类型的数据集,从饮食评级到篮球数据,甚至是西雅图宠物许可证。

UCI 机器学习库

UCI 机器学习库是互联网上最古老的数据集来源之一,是寻找有趣数据集的首选之地。尽管数据集由用户贡献,质量参差不齐,但大多数都较为干净。你可以直接从 UCI 机器学习库下载数据,无需注册。

机器学习的公共政府数据集

在哪里可以下载用于机器学习的公共政府数据集?

人口数据对于改善政府和社会政策非常重要,是重大经济决策的基础。利用公共政府数据训练的机器学习模型可以帮助政策制定者识别趋势,并应对人口下降或增长、老龄化和移民等问题。

  • http://Data.gov:该网站可以从多个美国政府机构下载数据。数据范围从政府预算到学校表现分数。但请注意,大部分数据需要进一步研究。
  • 食物环境图集:包含当地食物选择如何影响美国饮食的数据。
  • 学校系统财务:对美国学校系统财务状况的调查。
  • 慢性疾病数据:美国各地区的慢性疾病目标数据。
  • 美国国家教育统计中心:来自美国及世界各地的教育机构和教育人口统计数据。
  • 英国数据服务:英国最大的社会、经济和人口数据集。
  • Data USA:美国公共数据的全面可视化。

机器学习的财经数据集

在哪里可以下载用于机器学习的财务和经济数据集?

机器学习已被证明是金融行业的强大工具。财务定量记录保存数十年,因此该行业非常适合机器学习。实际上,机器学习已经在改变金融和投资银行业务,用于算法交易、股票市场预测和欺诈检测。在经济学中,机器学习可用于测试经济模型和预测公民行为。

  • Quandl:经济和金融数据的良好来源,有助于建立预测经济目标或股票价格的模型。
  • 世界银行开放数据:涵盖全球人口统计数据和大量经济与发展目标的数据集。
  • 国际货币基金组织数据:国际货币基金组织发布的关于国际金融、债务率、外汇储备、商品价格和投资的数据。
  • 金融时报市场数据:来自世界各地金融市场的最新信息,包括股票价格指数、商品和外汇。
  • 谷歌趋势:检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。
  • 美国经济协会(AEA):寻找美国宏观经济数据的良好来源。

计算机视觉的图像数据集

在哪里可以下载计算机视觉的图像数据集?

图像数据集可用于训练各种计算机视觉应用,例如医学成像技术、自动驾驶车辆和人脸识别。

  • Labelme:大型带注释图像的数据集。
  • ImageNet:理想的新算法图像数据集,根据 WordNet 层次结构组织。
  • LSUN:场景理解与许多辅助任务(房间规划估计、显著性预测等)。
  • MS COCO:通用图像理解和字幕。
  • COIL100:在 360 度旋转的每个角度拍摄 100 种不同的物体。
  • 视觉基因组:非常详细的视觉知识库,包含约 100K 张带注释的图像。
  • 谷歌开放图像:在知识共享下,包含超过 6000 类别的 900 万张图像。
  • 野外标记面:13000 张带标记的人脸图像,用于开发涉及面部识别的应用。
  • 斯坦福犬数据集:包含 20580 张图像和 120 种不同的犬种。
  • 室内场景识别:一种特殊的数据集,用于大多数场景识别模型,特别适合“户外”场景。包含 67 个室内类别,总计 15620 张图像。

机器学习的情感分析数据集

在哪里可以下载用于机器学习的情绪分析数据集?

情绪分析模型需要大型的专业数据集才能有效学习。以下列表提供了几种可以改进情绪分析算法的方法。

  • 多域情绪分析数据集:一个较旧的数据集,包含来自亚马逊的产品评论。
  • IMDB 回复:一个较旧的、相对较小的二元情绪分类数据集,包含 25000 条电影评论。
  • 斯坦福情感树库:标准的情绪数据集,具有情感注释。
  • Sentiment140:一个流行的数据集,使用 160000 条预先删除表情符号的推文。
  • Twitter 美国航空公司情绪:2015 年 2 月美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。

自然语言处理数据集

在哪里可以下载用于自然语言处理的开放数据集?

自然语言处理是一个庞大的研究领域,但以下列表包括用于不同自然语言处理任务的广泛数据集,例如语音识别和聊天机器人。

  • 安然数据集:来自安然高级管理层的电子邮件数据,组织成文件夹。
  • 亚马逊回复:包含来自亚马逊的大约 3500 万条评论,覆盖 18 年的数据,包括产品和用户信息、评分和明文评论。
  • Google Books Ngrams:来自 Google 图书的一系列文字。
  • Blogger Corpus:收集了来自 Blogger.com 的 681288 篇博文,每篇博客至少包含 200 个常用英语单词。
  • 维基百科链接数据:维基百科的全文,数据集包含来自 400 多万篇文章的近 19 亿个单词,可以按段落、短语或段落本身的一部分进行搜索。
  • Project Gutenberg 电子书列表:Project Gutenberg 的电子书注释列表。
  • Hansards:加拿大议会的大量文章,来自第 36 届加拿大议会记录的 130 万对文本。
  • Jeopardy:来自测验节目 Jeopardy 的超过 200000 个问题的存档。
  • 英文短信垃圾邮件收集:包含 5574 条英文短信垃圾邮件的数据集。
  • Yelp 回复:Yelp 发布的一个开放数据集,包含超过 500 万条评论。
  • UCI Spambase:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。

自动驾驶汽车的数据集

在哪里可以下载开放数据集来训练自动驾驶汽车?

自动驾驶汽车需要大量高质量的数据集来训练,以便它们能够准确地感知其环境和周围的物体。

  • Berkeley DeepDrive BDD100k:目前是自动驾驶 AI 最大的数据集,包含超过 100000 个视频,涵盖了不同时间段和天气条件下的超过 1100 小时的驾驶体验。注释的图像来自纽约和旧金山地区。
  • 百度 Apolloscape:大型图像数据集,定义了 26 种不同的语义项目,如汽车、自行车、行人、建筑物、路灯等。
  • Comma.ai:超过 7 小时的高速公路驾驶数据,包括汽车的速度、加速度、转向角和 GPS 坐标。
  • 牛津机器人汽车:在英国牛津的相同道路上重复驾驶超过 100 次,持续一年。该数据集捕捉了不同天气、交通和行人组合的变化,以及长期的建筑和道路施工变化。
  • Cityscapes 数据集:一个大型数据集,记录了 50 个不同城市的街道场景。
  • CSSAD 数据集:此数据集适用于自动驾驶汽车的感知和导航。数据集严重倾向于发达国家的道路。
  • KUL 比利时交通标志数据集:包含数千个在比利时弗拉芒地区发现的不同类型的物理交通标志,有超过 10000 个交通标志注释。
  • 麻省理工学院实验室:来自 AgeLab 的 1000 多小时多传感器驾驶数据集的样本。
  • LISA:智能和安全汽车实验室,加州大学圣地亚哥分校的数据集,包括交通标志、车辆检测、交通信号灯和轨迹模式。

如果以上资源仍无法满足需求,Lionbridge AI 拥有超过 20 年的专业知识,为机器学习项目构建广泛而准确的数据集。公司拥有 500000 名合格的语言专家,精通 300 多种语言,可以为你构建所需的定制数据集。

关于宁波格密链网络科技有限公司

宁波格密链网络科技有限公司正在研究如何在密文上进行有效的机器学习,从而保护数据集的隐私安全。该公司专注于区块链上的密码技术研发。

    本文来源:图灵汇
责任编辑: : 权亚杰
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器收费最佳数据学习
    下一篇