机器学习数据集汇总(附下载地址)
作者头像
  • 张娜
  • 2020-02-26 11:11:48 10

常用机器学习数据集汇总

本文将为你介绍一些常用的机器学习数据集,涵盖了多个领域,如计算机视觉、文本处理和其它应用。这些数据集不仅有助于学术研究,也适用于实际项目开发。

大学公开数据集

  • 斯坦福大学无人机图像数据集
    这个数据集包含69G的大规模无人机拍摄的校园图像,非常适合无人机视觉应用的研究。
    斯坦福大学

  • CUHK人脸素描数据集
    包含大量人脸素描图像,可用于人脸识别研究。
    香港中文大学

  • NYU自然言语推理数据集
    数据集中包含了丰富的文本对,可以用于自然言语推理的研究。
    纽约大学

  • 伯克利图像分割数据集BSDS500
    包含了大量的图像分割标注,适合图像分割领域的研究。
    伯克利大学

  • 牛津宠物图像数据集
    数据集包含宠物图像及其分割标注,适合宠物图像识别和分割的研究。
    牛津大学

  • MIT场景感知数据集ADE20K
    包含了大量的场景分割标注,适合场景理解和分割的研究。
    麻省理工学院

  • GaTech多模态二元行为数据集
    包含多模态的行为数据,适合多模态行为识别的研究。
    佐治亚理工学院

计算机视觉/图像/视频数据集

  • Fashion-MNIST风格服饰图像数据集
    该数据集包含大量时尚服饰图像,适合服装识别和风格分类的研究。
    肖涵

  • 大型LOGO标志数据集
    数据集包含50万张LOGO图像,适合商标识别和品牌识别的研究。
    苏黎世联邦理工学院

  • D-FAUST 4D扫描数据集
    数据集包含大量动态人体扫描图像,适合动态人体建模和动画的研究。
    杜伊斯堡-埃森大学

  • Counting MNIST数据集
    数据集包含大量带有计数标注的图像,适合视觉计数的研究。
    FOMORO

  • YouTube MV视频数据集
    数据集包含大量的音乐视频,适合视频分析和音乐视频推荐的研究。
    Keunwoo Choi

  • UnrealCV合成数据集
    数据集包含大量虚拟环境下的图像和视频,适合虚拟现实和增强现实的研究。
    UnrealCV

  • AwA2动物属性标记数据集
    数据集包含大量动物图像及其属性标注,适合动物识别和属性分类的研究。
    Christoph H. Lampert

  • Manga109日本漫画数据集
    数据集包含大量的日本漫画图像,适合漫画图像识别的研究。
    ACM

  • Pixiv着色图片数据集
    数据集包含大量的手绘图像及其着色标注,适合图像着色和艺术创作的研究。
    Jerry Li

  • e-VDS视频数据集
    数据集包含大量的视频片段,适合视频处理和分析的研究。
    普渡大学

  • Quick, Draw!简笔画涂鸦数据集
    数据集包含大量的简笔画图像,适合简笔画识别和生成的研究。
    Google Creative Lab

  • 服饰人像生成模型数据集
    数据集包含大量的服饰图像及其解析标注,适合服饰识别和生成的研究。
    Christoph Lassner

  • COCO像素级标注数据集
    数据集包含大量的图像及其像素级标注,适合图像分割和目标检测的研究。
    COCO

  • 大规模街道级图片数据集
    数据集包含大量的城市街道图像及其分割标注,适合城市规划和道路识别的研究。
    Mapillary

  • Clothing Co-Parsing数据集
    数据集包含大量的时装图像及其标注,适合时装识别和搭配的研究。
    熊攀峰

文本/评价/问答/自然言语数据集

  • 英文笑话数据集
    数据集包含大量的英文笑话文本,适合文本生成和幽默分析的研究。
    Taivo Pungas

  • 机器学习保险行业问答数据集
    数据集包含大量的保险行业问答文本,适合自然言语处理和问答系统的研究。
    Hain Wang

  • 实体/名词语义关系标记数据集
    数据集包含大量的文本及其命名实体标注,适合命名实体识别和语义关系分析的研究。
    David S. Batista

  • NLVR自然言语基础数据集
    数据集包含大量的图像及其标注,适合视觉推理和逻辑分析的研究。
    康奈尔大学

  • RACE阅读理解数据集
    数据集包含大量的阅读理解文本,适合阅读理解和自然言语处理的研究。
    Qizhen Xu

  • 文本简化数据集
    数据集包含大量的原始文本及其简化版本,适合文本简化和语言生成的研究。
    Clare College

  • FrameNet语义框架标注数据集
    数据集包含大量的文本及其语义框架标注,适合语义分析和框架识别的研究。
    伯克利大学

  • Quora数据集
    数据集包含大量的问题及其相似问题对,适合文本匹配和重复问题识别的研究。
    Quora

  • 跨语种文本相似性检测数据集
    数据集包含大量的跨语种文本对,适合跨语种文本相似性检测的研究。
    Jeremy

其它数据集

  • 数据迷信机器学习数据集汇总
    数据集包含大量的各种类型的数据集链接,适合各种领域的数据集查找。
    EliteDataScience

  • CORe50延续目的辨认数据集
    数据集包含大量的连续目标识别图像,适合连续目标识别的研究。
    Vincenzo Lomonaco

  • 自动发现数据集统计分布
    数据集包含大量的统计数据,适合数据集统计分析的研究。
    Isabel Valera

  • 建筑物损害评价数据集
    数据集包含大量的建筑物图像及其损害标注,适合建筑物损坏评估的研究。
    Tsunami

  • DeepMind开源数据集
    数据集包含大量的DeepMind开源数据集链接,适合多种领域的研究。
    DeepMind

  • 音乐分析数据集FMA
    数据集包含大量的音乐数据,适合音乐分析和音乐生成的研究。
    Jeremy Stanley

  • Instacart在线购物数据集
    数据集包含大量的在线购物数据,适合电商数据分析的研究。
    Instacart

  • 欺诈检测数据集
    数据集包含大量的模拟财务数据,适合欺诈检测的研究。
    TESTIMON

  • NSynth音符标记音频数据集
    数据集包含大量的高质量音符音频,适合音乐生成和音频处理的研究。
    Google Magenta

  • LIBSVM格式数据集
    数据集包含大量的LIBSVM格式数据,适合分类、回归和多标签任务的研究。
    台湾大学

  • 笔记本电脑用logistic回归数据集
    数据集包含大量的笔记本电脑数据,适合logistic回归模型的研究。
    Dmitriy Selivanov

  • StackExchange问答数据集
    数据集包含大量的StackExchange问答数据,适合问答系统的研究。
    StackExchange

  • KDD CUP赛题数据集
    数据集包含大量的KDD CUP赛题数据,适合竞赛和数据挖掘的研究。
    KDD CUP

  • 食谱数据集
    数据集包含大量的食谱数据,适合烹饪和食品研究。
    Hugo Darwood

  • 奥斯卡数据集
    数据集包含大量的奥斯卡奖项数据,适合电影奖项研究。
    美国电影艺术与科学学院

  • 计算医疗数据集
    数据集包含大量的医疗数据,适合医疗数据分析和机器学习建模的研究。
    Akshay Bhat

  • 聚类数据集
    数据集包含大量的聚类数据,适合聚类分析的研究。
    乔恩苏大学

  • 官方开放气候数据集
    数据集包含大量的气候数据,适合气候变化研究。
    清华大学

  • 全球恐怖袭击事件数据集
    数据集包含大量的恐怖袭击事件数据,适合恐怖袭击研究。
    START Consortium

  • 时间序列数据集
    数据集包含多个时间序列数据集,适合时间序列分析的研究。
    Machine Learning Mastery

  • 自然言语查询语义解析数据集
    数据集包含大量的自然言语查询及其语义解析结果,适合语义解析的研究。
    清华大学

  • 赛马赔率数据集
    数据集包含大量的赛马赔率数据,适合赛马分析的研究。
    清华大学

  • YELP数据集
    数据集包含大量的YELP商家评论和商家信息,适合商业分析的研究。
    YELP

  • JMIR数据集专刊
    数据集包含大量的JMIR数据集,适合医学研究。
    JMIR

  • 日文木版印刷文字辨认数据集
    数据集包含大量的日文木版印刷文字,适合文字辨认的研究。
    清华大学

  • 多模态二元行为数据集
    数据集包含大量的多模态行为数据,适合行为分析的研究。
    清华大学

  • 机器学习论文/数据集/工具集锦
    数据集包含大量的机器学习论文、数据集和工具,适合机器学习研究。
    日本

  • 机器学习公司数据搜集策略
    数据集包含大量的机器学习数据搜集策略,适合数据搜集研究。
    清华大学

  • NLP数据集加载工具集
    数据集包含大量的NLP数据集加载工具,适合自然言语处理研究。
    清华大学

  • 日语相似词数据集
    数据集包含大量的日语相似词数据,适合语言研究。
    清华大学

  • 大规模人本完形填空数据集
    数据集包含大量的完形填空文本,适合阅读理解研究。
    清华大学

  • 高质量收费数据集列表
    数据集包含大量的高质量收费数据集链接,适合多种领域的研究。
    清华大学

  • 《数据之美》自然言语数据集/代码
    数据集包含大量的《数据之美》中的自然言语数据集和代码,适合数据可视化研究。
    清华大学

  • MS MARCO数据集
    数据集包含大量的MS MARCO数据,适合阅读理解研究。
    微软

  • AI2科学问答数据集
    数据集包含大量的AI2科学问答数据,适合科学问答研究。
    AI2

希望这些数据集能帮助你在机器学习和数据科学的研究中取得成功!

    本文来源:图灵汇
责任编辑: : 张娜
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
汇总机器地址数据学习下载
    下一篇