23个数据分析实战项目,解救没有数据分析经历的你
对于跨专业找工作或者想要转行的小伙伴来说,没有实习或者相关的工作经历是一件非常常见的事情。但是,找实习或者工作的时候却被要求拥有相关的经验,可是还没有做过实习或工作哪来的相关经验啊?对,就是这样魔幻,陷入“找实习或工作-需要相关经历-没有实习或工作就没有经历”的循环中。下面的图,大家肯定感同身受吧,这一定是存在于你的求职面试当中。
的确,跨专业或者是转行找第一份实习或工作很难,但每年校招也有很多没有实习经历的同学进了BAT等大厂啊!所以,如果你还有大把时间的话,建议先找一份相关实习,校招的同学可以在找工作前两年开始实习,以保证自己有两到三段实习经历;如果你马上找工作了却没有实习经历和拿得出手的项目,那么花上一两个月的时间深度钻研一两个数据分析项目,搞懂项目中的每一个细节写在简历上也是加分项哦!
面对没有相关实习经历或工作经历的小伙伴来说,找到一些合适数据分析类的项目练手会在短时间内提升数据分析的能力,小编也给大家整理了一些资源网站,希望能够帮助到大家!
1.Kaggle
Kaggle是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,其网址为https://www.kaggle.com。Kaggle发布了大量的数据分析、挖掘、机器学习预测项目,没有实习和项目经历的小伙伴可以在Kaggle上找到项目练手。Kaggle上的项目有不同的项目分类,包括探索性分析,数据可视化,趋势预测,分类等多种类型,可以根据自己的需要选择不同过类型的项目练手。小编也为大家整理了一些项目,从数据挖掘到数据可视化再到预测模型,其难度是一次上升的,可以先易后难各个击破。
1.1 数据挖掘项目
数据挖掘项目也成为了数据探索性项目,这类型的项目是希望通过对具体业务的分析给出一定数据性结论,如果能够发现业务问题给出一定建议那是再好不过了。下面给出五个Kaggle数据挖掘类型的项目,没有项目经历的小伙伴可以试着练练手。
1.纽约爱彼迎Airbnb数据挖掘
爱彼迎为房东和房客提供了极大地方便,该数据集包括了商家id、民宿id、民宿位置经纬度、价格等信息。可以分析什么样的民宿更受消费者欢迎、各种因素对于消费者选择民宿的影响等等。
项目链接:https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
2.酒店预订数据挖掘
酒店预订数据集包含城市酒店和度假酒店的预订信息,例如预订的时间,停留时间,成人,儿童和/或婴儿的数量以及可用停车位的数量等信息。通过该数据集可以分析一年中最佳的时间预定酒店房间;消费者获得最佳每日房价而停留的最佳时间;酒店是否可能收到过多的特殊要求,如果有该怎么办?
项目链接:https://www.kaggle.com/jessemostipak/hotel-booking-demand
3.IBM员工离职因素分析
IBM员工离职原因数据及包括员工编号、年龄、受教育程度、离家距离、生活和工作的平衡、工作参与情况等信息。通过分析该数据集可以找出员工流失的因素,例如,工作角色和流失率的相关性;离家距离与流失率的相关性;平均月收入和受教育程度对流失率的影响”。
项目链接:https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
4.统计世界大学排名
世界大学排名数据集提供了五个类型的数据集,分别是泰晤士高等教育世界大学排名,世界大学的学术排名、世界大学排名研究中心排名、世界各地教育程度的数据、国家间公共和私人直接教育支出的信息。对大学进行排名是一个困难,世界上有数百种不同的国家和国际大学排名系统,比较这些排名,这些排名是否合理,提出你认为合理的大学排名计算方式。
项目链接:https://www.kaggle.com/mylesoneill/world-university-rankings
5.探索影响寿命的因素
世界卫生组织(WHO)旗下的全球卫生观察站(GHO)数据存储库跟踪了所有国家的健康状况以及许多其他相关因素,该数据集包括了人口统计学变量,收入构成和死亡率等信息。运用该数据集可以解决以下问题:
最初选择的各种预测因素是否会真正影响预期寿命?
哪些预测变量实际上会影响预期寿命?
预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?
婴儿和成人死亡率如何影响预期寿命?
预期寿命与饮食习惯,生活方式,运动,吸烟,饮酒等有正相关还是负相关?
学校教育对人类寿命有何影响?
预期寿命与饮酒有正面还是负面的关系?
人口稠密的国家是否倾向于降低预期寿命?
免疫覆盖率对预期寿命有何影响?
项目链接:https://www.kaggle.com/kumarajarshi/life-expectancy-who
1.2 数据可视化项目
数据可视化也是数据分析师最日常的工作之一,数据可视化用Python的Matplotlib模块完成,也可以将这些可视化的数据做成可视化大屏,相信做完这些项目你的数据可视化功底会突飞猛进。
1.2019新冠病毒数据可视化
新冠病毒数据集提供了自2020年1月22日起每天新型冠状病毒感染病例数,死亡和恢复情况的水平信息,这是一个时间序列数据,因此任何给定日期的案件数均为累计数。运用该数据集可以完成病例增长趋势、死亡趋势、治愈趋势等数据的可视化。
项目链接:https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
2.澳洲大火数据可视化
该数据集提供了澳大利亚火灾的初始数据信息,通过该数据集可以完成野火规模的可视化,以此来判断本次大火是否是至今前所未有的;也可以结合本地空气质量和本地警报等数据进行分析以提高准确性。
项目链接:https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland
3.地表温度数据可视化
该数据集包括历年全球陆地和海洋和陆地温度信息,通过该数据集可以实现海陆温度变化可视化以评估气候变化对于人类活动的影响。
项目链接:https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
4.美国数据科学家的职业市场
该数据集收集全美7,000个数据科学家职位的信息,包括公司名称,职位名称,位置,职位描述和公司评论数等数据。通过该数据集可以可视化以下问题:数据科学家需要有什么样的特质?哪个位置机会最多?数据科学家需要拥有哪些技能,工具,学位或专业?项目链接:https://www.kaggle.com/sl6149/data-scientist-job-market-in-the-us
5.火山爆发数据可视化
数据集来自于美国国家海洋和大气管理局(NOAA)重大火山喷发数据库的简短数据集,该数据集包含与全球喷发相关的指标。通过该数据集可以可视化火山爆发的位置、程度、造成的经济损失和死亡人数等等。
项目链接:https://www.kaggle.com/texasdave/volcano-eruptions
1.3 预测模型
预测模型不是数据分析师的日常工作,但是数据分析市场非常卷,随着算法岗的火爆,供过于求,很多算法工程师转向数据分析岗位。如果你能学会一些模型预测的话,在数据分析求职过程中也是比较占优势的哦!所以这部分项目,如果你的时间充裕可以做一两个项目练练手,否则的话可以直接跳过这部分了。
1.贷款预测
该数据集包括用户历史借贷数据和消费数据,通过用户历史数据预测用户借贷是否存在风险以确定是否批复贷款申请。
项目链接:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
2.信用卡欺诈检测
该数据集包括信用卡欺诈数据以及非欺诈数据,利用该数据集建立信用卡欺诈检测模型。
项目链接:https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets
3.糖尿病预测
数据集的作者公开了包括8个可公开获得的宏基因组数据,以及应用MetaPhlAn2生成物种丰度的特征。他们的目标是使用获得的丰度特征对疾病进行分类,并为此任务确定最佳的ML模型。通过他们的实验,他们选择RandomForest作为大多数疾病的最佳分类器,而SVM在某些疾病上的表现更好。可以考虑用其他的分类方法进行预测,以获得更优的表现。
项目链接:https://www.kaggle.com/antaresnyc/metagenomics/tasks?taskId=2955
4.新冠疫苗进展预测
该数据集包括了全球各个国家接种新冠疫苗的情况,通过该数据集可以分析哪个国家在使用什么新冠疫苗、哪个国家的新冠疫苗更先进、每天哪个地区的接种人数最多、哪个地区接种百分比最高。
项目链接:https://www.kaggle.com/gpreda/covid-world-vaccination-progress
5.电影推荐系统
Netflix电影数据集包括各类影视的信息,使用该数据集可以构建电影推荐系统,如果用户搜索特定电影,则建议的引擎最多返回10个电影名称。
项目链接:https://www.kaggle.com/shivamb/netflix-shows/tasks?taskId=2447
2.阿里天池
Kaggle的项目都是英文的,有的小伙伴可能觉得英文看起来太费劲而且还要VPN翻墙也不太方便,而阿里天池的项目就满足了你所有的需求!同样,阿里天池的数据集也是分类的,这里就不再一一列举,选出几个有代表性的供大家参考。
1.数智教育可视化
该数据集包含近五年各班各学科的教师信息、当前在校学生详细信息、考勤信息、考勤类型、考试信息、考试类型、学生成绩、学生本年度消费信息。
利用这些数据完成学生画像分析;对课程域相关数据进行描述性性统计分析,汇总各个科目班级历史最高分趋势和历史最低分趋势;对班级域相关数据进行描述性统计分析,分析各个班级平均分排名,指标包括原始分、绝对分;支持总分和单科目等信息进行分析。
该数据集是非常接近数据分析师的日常工作,强烈推荐该数据集,完成这个项目后可以掌握用户画像以及数据分析中常用的统计学分析。
项目链接:
ttps://tianchi.aliyun.com/competition/entrance/231704/information
2.疫情数据可视化
数据集来源于各大网站公开数据,可以通过可视化的形式展现疫情态势、社区防控情况、疫情物资物流供给情况、各地各业人员返工返程情况甚至疫情走势预测等。
项目链接:
https://tianchi.aliyun.com/competition/entrance/231779/information
3.城市物流末端配送
该数据集提供了城市物流末端配送数据,可以通过建立模型以最优的方式展示末端配送2类包裹的配送方案。
项目链接:
https://tianchi.aliyun.com/competition/entrance/231580/information
4.AI精准助力气象和海洋预测
该数据集包括历史模拟数据和美国SODA模式重建的近100多年历史观测同化数据。每个样本包含以下气象及时空变量:海表温度异常(SST),热含量异常(T300),纬向风异常(Ua),经向风异常(Va),数据维度为(year,month,lat,lon)。基于该数据集提供的历史气候观测和模式模拟数据,可以利用T时刻过去12个月(包含T时刻)的时空序列(气象因子),构建预测ENSO的深度学习模型,预测未来1-24个月的尔尼诺指数。
项目链接:
https://tianchi.aliyun.com/competition/entrance/531871/information
5.学术前沿趋势分析
该数据集使用了在arXiv公开的论文数据集,可以通过数据分析能够挖掘出最近学术的发展趋势和学术关键词。
项目链接:
https://tianchi.aliyun.com/competition/entrance/531866/information
6.贷款违约预测
该数据集以金融风控中的个人信贷为背景,包含贷款申请人的历史借贷和消费数据,可以根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款。
项目链接:https://tianchi.aliyun.com/competition/entrance/531830/introduction?spm=5176.12281949.1003.21.493e2448YYBkn7
7.新闻推荐
该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。通过该数据集预测未来用户是否会点击某个新闻。
项目链接:
https://tianchi.aliyun.com/competition/entrance/531842/information
3.中国大学生/研究生数学建模大赛
除了Kaggle和阿里天池之外,在校的同学们还可以参加大学生或研究生数学建模大赛,这是国内比较高逼格的比赛,参加数学建模比赛不仅能够收获一个项目经历,要是比赛打得好还能获得证书哦,这又是简历上的一个亮点了。
数学建模大赛一般情况下每年6月开始组织报名,每年九月中旬正式开始比赛,三人一组比赛时间三天,参赛选手可以在组委会发布的六道题中任选一道进行作答,最终提交一份完整的报告。
小编在校期间一共参加了两次数学建模大赛,第一次纯属练手,第二次有了一定的经验之后拿
了国家级二等奖,我将题目分享出来,大家可以体会下数学建模的题型和难度。由于部分题目专业性极强,作为外行的我们可能读不太懂,但是我们也可以选择那些稍微简单的题目!
1.无线智能传播模型
2.天文导航中的星图识别
3.视觉情报信息分析
4.车辆行驶工况构建
5.气候变化预测
6.多约束条件下飞行器航迹变化
由于专业背景的限制,小编当年选了第五题,具体的解答过程以及报告之前已经发布在公众号上了,可以参考下面解题思路。
https://mp.weixin.qq.com/s/oR8P3ijX8FTJxQVBPietqQ
https://mp.weixin.qq.com/s/L7ZQgB6KG69zZcTIX8Vjvw
https://mp.weixin.qq.com/s/MNiac8RhkvTIJqczk20qog
无论是Kaggle,亦或是阿里天池,还是数学建模大赛都提供了各类优秀数据集,借助这些数据集练手能够补充我们的项目经历。在完成每一个项目时,体验从数据清洗到数据探索再到数据可视化(建模)最后输出结论形成数据分析报告的整个过程,踏踏实实走好每一步,最终都将有收获。