数据迷信项目为那些希望进入该领域的初学者提供了宝贵的学习机会。通过参与这些项目,不仅可以掌握数据科学的基础知识,还能在简历上展示实际操作经验。
目前,越来越多的工作岗位要求应聘者具备相关项目经验。如果你没有相关经验,可能会错失一些机会。以下是多个领域中不同类型的数据集和项目解决方案。
我们将这些项目分为三个难度等级:
初级水平: 这一等级包含简单易用的数据集,不需要复杂的数据科学技能。可以通过基本的回归或分类算法来处理这些数据集。此外,这些数据集都有丰富的公开教程可供参考。其中包括一些入门级的教程资源,如AV提供的“数据科学入门”课程。
中级水平: 这一等级涵盖了更具有挑战性的数据集,包括中型到大型数据集。这些数据集需要一定的模式识别技巧。
高级水平: 这一等级适合那些已经掌握了先进主题(如神经网络、深度学习、推荐系统等)的人群。高维数据集也在此列。此外,这一阶段鼓励创新思维,你可以参考顶级数据科学家是如何将创新融入他们的工作的。
初级水平项目
鸢尾花数据集
- 目标: 根据特定属性预测花的种类。
- 获取数据: https://archive.ics.uci.edu/ml/datasets/Iris
- 教程: http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r
贷款预测数据集
- 目标: 预测贷款是否会被批准。
- 获取数据: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
- 教程: https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
BigMart 销售数据集
- 目标: 预测商店的销售额。
- 获取数据: https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/
- 教程: https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/
波士顿住房数据集
- 目标: 预测房屋价格。
- 获取数据: https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
- 教程: https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/
时间序列分析数据集
- 目标: 预测交通流量。
- 获取数据: https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/
- 教程: https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS101+TSterm1/about
葡萄酒质量数据集
- 目标: 预测葡萄酒的质量。
- 获取数据: https://archive.ics.uci.edu/ml/datasets/Wine+Quality
- 教程: https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf
土耳其学生评价数据集
- 目标: 使用分类和聚类技术处理数据。
- 获取数据: https://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation
- 教程: https://sanghosuh.github.io/research/LAEdMiningSanghoSuh.pdf
身高和体重数据集
- 目标: 预测一个人的身高或体重。
- 获取数据: http://wiki.stat.ucla.edu/socr/index.php/SOCRDataDinov020108HeightsWeights
- 教程: https://www3.nd.edu/~steve/computingwithdata/2Motivation/motivateht_wt.html
中级水平项目
黑色星期五数据集
- 目标: 预测营业额。
- 获取数据: https://datahack.analyticsvidhya.com/contest/black-friday/
- 教程: https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986
活动识别数据集
- 目标: 预测活动类别。
- 获取数据: http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
- 教程: https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html
文本挖掘数据集
- 目标: 对文档进行分类。
- 获取数据: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007
- 教程: https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf
访问历史数据集
- 目标: 预测用户类别。
- 获取数据: http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/
- 教程: https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/
歌曲数据集
- 目标: 预测歌曲的发行年份。
- 获取数据: http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD
- 教程: http://www-personal.umich.edu/~yjli/content/projectreport.pdf
人口普查和支出数据集
- 目标: 预测人口和支出。
- 获取数据: http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/
- 教程: https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf
电影镜头数据集
- 目标: 推荐新电影。
- 获取数据: http://grouplens.org/datasets/movielens/1m/
- 教程: https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/
Twitter 分类数据集
- 目标: 辨识推文是否含有仇恨言论。
- 获取数据: https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
- 教程: https://github.com/abdulfatir/twitter-sentiment-analysis
高级水平项目
图像识别数据集
- 目标: 识别图像中的数字。
- 获取数据: https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
- 教程: https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/
城市合理分类数据集
- 目标: 对城市声音进行分类。
- 获取数据: https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
- 教程: https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
Vox 名人数据集
- 目标: 从音频中分类声音类型。
- 获取数据: http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
- 教程: https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
ImageNet 数据集
- 目标: 根据下载的图像类型处理不同的问题。
- 获取数据: http://image-net.org/download-imageurls
- 教程: http://image-net.org/download-imageurls
芝加哥犯罪数据集
- 目标: 预测犯罪类型。
- 获取数据: https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
- 教程: http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
印度演员年龄数据集
- 目标: 预测演员的年龄。
- 获取数据: http://image-net.org/download-imageurls
- 教程: http://image-net.org/download-imageurls
推荐引擎数据集
- 目标: 根据用户当前状态预测解决问题所需的时间。
- 获取数据: https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
- 教程: http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
VisualQA 数据集
- 目标: 使用深度学习技术回答关于图像的开放性问题。
- 获取数据: http://www.visualqa.org/
- 教程: https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/
无论你是初学者还是有一定经验的数据科学家,都应该选择适合自己技能水平的数据集进行实践和学习。这样可以帮助你在数据科学领域稳步提升自己的技能和知识。