本文将为你介绍一些常用的机器学习数据集,涵盖了多个领域,如计算机视觉、文本处理和其它应用。这些数据集不仅有助于学术研究,也适用于实际项目开发。
斯坦福大学无人机图像数据集
这个数据集包含69G的大规模无人机拍摄的校园图像,非常适合无人机视觉应用的研究。
斯坦福大学
CUHK人脸素描数据集
包含大量人脸素描图像,可用于人脸识别研究。
香港中文大学
NYU自然言语推理数据集
数据集中包含了丰富的文本对,可以用于自然言语推理的研究。
纽约大学
伯克利图像分割数据集BSDS500
包含了大量的图像分割标注,适合图像分割领域的研究。
伯克利大学
牛津宠物图像数据集
数据集包含宠物图像及其分割标注,适合宠物图像识别和分割的研究。
牛津大学
MIT场景感知数据集ADE20K
包含了大量的场景分割标注,适合场景理解和分割的研究。
麻省理工学院
GaTech多模态二元行为数据集
包含多模态的行为数据,适合多模态行为识别的研究。
佐治亚理工学院
Fashion-MNIST风格服饰图像数据集
该数据集包含大量时尚服饰图像,适合服装识别和风格分类的研究。
肖涵
大型LOGO标志数据集
数据集包含50万张LOGO图像,适合商标识别和品牌识别的研究。
苏黎世联邦理工学院
D-FAUST 4D扫描数据集
数据集包含大量动态人体扫描图像,适合动态人体建模和动画的研究。
杜伊斯堡-埃森大学
Counting MNIST数据集
数据集包含大量带有计数标注的图像,适合视觉计数的研究。
FOMORO
YouTube MV视频数据集
数据集包含大量的音乐视频,适合视频分析和音乐视频推荐的研究。
Keunwoo Choi
UnrealCV合成数据集
数据集包含大量虚拟环境下的图像和视频,适合虚拟现实和增强现实的研究。
UnrealCV
AwA2动物属性标记数据集
数据集包含大量动物图像及其属性标注,适合动物识别和属性分类的研究。
Christoph H. Lampert
Manga109日本漫画数据集
数据集包含大量的日本漫画图像,适合漫画图像识别的研究。
ACM
Pixiv着色图片数据集
数据集包含大量的手绘图像及其着色标注,适合图像着色和艺术创作的研究。
Jerry Li
e-VDS视频数据集
数据集包含大量的视频片段,适合视频处理和分析的研究。
普渡大学
Quick, Draw!简笔画涂鸦数据集
数据集包含大量的简笔画图像,适合简笔画识别和生成的研究。
Google Creative Lab
服饰人像生成模型数据集
数据集包含大量的服饰图像及其解析标注,适合服饰识别和生成的研究。
Christoph Lassner
COCO像素级标注数据集
数据集包含大量的图像及其像素级标注,适合图像分割和目标检测的研究。
COCO
大规模街道级图片数据集
数据集包含大量的城市街道图像及其分割标注,适合城市规划和道路识别的研究。
Mapillary
Clothing Co-Parsing数据集
数据集包含大量的时装图像及其标注,适合时装识别和搭配的研究。
熊攀峰
英文笑话数据集
数据集包含大量的英文笑话文本,适合文本生成和幽默分析的研究。
Taivo Pungas
机器学习保险行业问答数据集
数据集包含大量的保险行业问答文本,适合自然言语处理和问答系统的研究。
Hain Wang
实体/名词语义关系标记数据集
数据集包含大量的文本及其命名实体标注,适合命名实体识别和语义关系分析的研究。
David S. Batista
NLVR自然言语基础数据集
数据集包含大量的图像及其标注,适合视觉推理和逻辑分析的研究。
康奈尔大学
RACE阅读理解数据集
数据集包含大量的阅读理解文本,适合阅读理解和自然言语处理的研究。
Qizhen Xu
文本简化数据集
数据集包含大量的原始文本及其简化版本,适合文本简化和语言生成的研究。
Clare College
FrameNet语义框架标注数据集
数据集包含大量的文本及其语义框架标注,适合语义分析和框架识别的研究。
伯克利大学
Quora数据集
数据集包含大量的问题及其相似问题对,适合文本匹配和重复问题识别的研究。
Quora
跨语种文本相似性检测数据集
数据集包含大量的跨语种文本对,适合跨语种文本相似性检测的研究。
Jeremy
数据迷信机器学习数据集汇总
数据集包含大量的各种类型的数据集链接,适合各种领域的数据集查找。
EliteDataScience
CORe50延续目的辨认数据集
数据集包含大量的连续目标识别图像,适合连续目标识别的研究。
Vincenzo Lomonaco
自动发现数据集统计分布
数据集包含大量的统计数据,适合数据集统计分析的研究。
Isabel Valera
建筑物损害评价数据集
数据集包含大量的建筑物图像及其损害标注,适合建筑物损坏评估的研究。
Tsunami
DeepMind开源数据集
数据集包含大量的DeepMind开源数据集链接,适合多种领域的研究。
DeepMind
音乐分析数据集FMA
数据集包含大量的音乐数据,适合音乐分析和音乐生成的研究。
Jeremy Stanley
Instacart在线购物数据集
数据集包含大量的在线购物数据,适合电商数据分析的研究。
Instacart
欺诈检测数据集
数据集包含大量的模拟财务数据,适合欺诈检测的研究。
TESTIMON
NSynth音符标记音频数据集
数据集包含大量的高质量音符音频,适合音乐生成和音频处理的研究。
Google Magenta
LIBSVM格式数据集
数据集包含大量的LIBSVM格式数据,适合分类、回归和多标签任务的研究。
台湾大学
笔记本电脑用logistic回归数据集
数据集包含大量的笔记本电脑数据,适合logistic回归模型的研究。
Dmitriy Selivanov
StackExchange问答数据集
数据集包含大量的StackExchange问答数据,适合问答系统的研究。
StackExchange
KDD CUP赛题数据集
数据集包含大量的KDD CUP赛题数据,适合竞赛和数据挖掘的研究。
KDD CUP
食谱数据集
数据集包含大量的食谱数据,适合烹饪和食品研究。
Hugo Darwood
奥斯卡数据集
数据集包含大量的奥斯卡奖项数据,适合电影奖项研究。
美国电影艺术与科学学院
计算医疗数据集
数据集包含大量的医疗数据,适合医疗数据分析和机器学习建模的研究。
Akshay Bhat
聚类数据集
数据集包含大量的聚类数据,适合聚类分析的研究。
乔恩苏大学
官方开放气候数据集
数据集包含大量的气候数据,适合气候变化研究。
清华大学
全球恐怖袭击事件数据集
数据集包含大量的恐怖袭击事件数据,适合恐怖袭击研究。
START Consortium
时间序列数据集
数据集包含多个时间序列数据集,适合时间序列分析的研究。
Machine Learning Mastery
自然言语查询语义解析数据集
数据集包含大量的自然言语查询及其语义解析结果,适合语义解析的研究。
清华大学
赛马赔率数据集
数据集包含大量的赛马赔率数据,适合赛马分析的研究。
清华大学
YELP数据集
数据集包含大量的YELP商家评论和商家信息,适合商业分析的研究。
YELP
JMIR数据集专刊
数据集包含大量的JMIR数据集,适合医学研究。
JMIR
日文木版印刷文字辨认数据集
数据集包含大量的日文木版印刷文字,适合文字辨认的研究。
清华大学
多模态二元行为数据集
数据集包含大量的多模态行为数据,适合行为分析的研究。
清华大学
机器学习论文/数据集/工具集锦
数据集包含大量的机器学习论文、数据集和工具,适合机器学习研究。
日本
机器学习公司数据搜集策略
数据集包含大量的机器学习数据搜集策略,适合数据搜集研究。
清华大学
NLP数据集加载工具集
数据集包含大量的NLP数据集加载工具,适合自然言语处理研究。
清华大学
日语相似词数据集
数据集包含大量的日语相似词数据,适合语言研究。
清华大学
大规模人本完形填空数据集
数据集包含大量的完形填空文本,适合阅读理解研究。
清华大学
高质量收费数据集列表
数据集包含大量的高质量收费数据集链接,适合多种领域的研究。
清华大学
《数据之美》自然言语数据集/代码
数据集包含大量的《数据之美》中的自然言语数据集和代码,适合数据可视化研究。
清华大学
MS MARCO数据集
数据集包含大量的MS MARCO数据,适合阅读理解研究。
微软
AI2科学问答数据集
数据集包含大量的AI2科学问答数据,适合科学问答研究。
AI2
希望这些数据集能帮助你在机器学习和数据科学的研究中取得成功!