kaggle、TDS、arXiv等,我最喜欢的数据科学资源
极市导读
本文分享了作者最喜欢的10个在线数据科学资源,快来一起学习吧! >>加入极市CV技术交流群,走在计算机视觉的最前沿
当我声明数据科学正在成为最受欢迎的工作领域之一时,我想你不会与我争辩,特别是考虑到《哈佛商业评论》将 "数据科学家 "评为21世纪最性感的工作。在这个领域,我们已经走过了很长的路,从数据科学和机器学习等术语还不为人所知,到一切都聚集在统计学的保护伞下的时代。然而,我们还远远没有走到终点。
这也可能是数据科学的一个分界点——这个领域发展得非常迅速,甚至很难跟上所有新的算法、技术和方法。因此,在数据科学领域工作,与软件工程类似,往往需要不断学习和发展。正如我提到的,在数据科学领域工作可能是一个旅程。
一、Towards Data Science 走向数据科学
网址:https://towardsdatascience.com/
兼具代码的初学者友好型教程(使用大多数流行的语言,例如Python,R,Julia,SQL等);
特定ML算法或技术的深入描述;
有影响力的论文摘要;
个人宠物项目的描述;
该领域的最新消息;
以及更多!
TDS创造了一个非常好的社区,鼓励大家分享和参与。此外,我可以强烈推荐你加入时事通讯并在Twitter上关注TDS,以了解最新和最受欢迎的文章。
最后,我会推荐TowardsData Science播客,这对于想知道如何进入数据科学并找到自己完美角色的人来说特别有帮助。
二、PyData(会议+视频)
网址:https://pydata.org/
TouTube地址:https://www.youtube.com/channel/UCOjD18EJYcsBog4IozkF_7w
PyData的讲座是一个很好的灵感来源,因为你可以看到其他公司是如何处理某个特定的主题的,也许你可以在你的公司中应用类似的方法。
三、Machine Learning Mastery 精通机器学习
网址:https://machinelearningmastery.com/blog/
四、Distill
网址:https://distill.pub/
Distill旨在为机器学习概念提供清晰直观的解释。他们认为,论文往往局限于PDF文件,不一定能展示全貌。而在ML获得越来越多影响的时代,很好地理解我们所使用的工具是如何实际工作的至关重要。
Distill使用令人印象深刻的交互式可视化来清晰地解释机器学习算法幕后实际发生的事情。我最喜欢的一篇文章(https://distill.pub/2016/misread-tsne/)描述了t-SNE(t-分布式随机邻域嵌入),并展示了生成的图形如何在视觉上令人愉悦,但可能会产生误导。它还指出了超参数的重要性,提供了一个交互式的工具来直接看到影响。
如果你需要任何关于内容质量的额外保证,Distill背后的指导委员会包括Yoshua Bengio、Ian Goodfellow、Michael Nielsen、Andrej Karpathy等翘楚。
五、Paper With Code 有代码的论文
网址:https://paperswithcode.com/
当你想实验一些方法或将其应用到你的数据集上时,这个网站也很方便,并不需要自己编写所有的代码。虽然这样的练习肯定是有帮助的,你会学到很多东西,但有时你只需要共同编写一个MVP,以表明一些东西确实适用于你的用例并产生增值。在获得所需的批准后,你可以全身心地投入到代码中,了解特定模型或架构的所有细微差别。
六、Kaggle
网址:https://www.kaggle.com/
Kaggle成为人们想要参加机器/深度学习竞赛的首选平台。成千上万的人参加比赛,训练最好的模型(通常是大型复杂的模型合集),以达到最好的成绩,并获得认可(和奖金)。
网址:https://www.kaggle.com/notebooks
更重要的是,Kaggle还包含了许多用户上传的自定义数据集(在写这篇文章的时候,超过4万个),你可以用于自己的分析。你可以找到几乎所有能激发你兴趣的东西,从有关COVID-19的最新数据到所有神奇宝贝的统计。很多TDS的文章都是利用Kaggle的数据集进行编写的。因此,如果你想在泰坦尼克号或波士顿房屋以外的东西上练习你的技能,Kaggle是一个很好的开始。
七、R-博客
网址:https://www.r-bloggers.com/
我是从R开始我的数据科学之旅的,即使在把我的主要编程语言换成Python之后,我仍然关注R-bloggers。它是一个博客聚合器,涵盖了广泛的主题。虽然其中大部分是与R相关的,但通过阅读数据科学任务的一般方法,你仍然可以学到不少东西。
虽然Python是目前数据科学领域的第一语言,但仍有许多包和工具没有从R移植到Python,这就是为什么我相信R-bloggers是一个非常有价值的资源,可能是将一些R功能移植到Python的灵感来源。
八、arXiv
网址:http://www.arxiv-sanity.com/
九、GitHub Awesome Machine Learning
十、Twitter 推特
这个可能是非常主观的,因为在很多情况下,Twitter就像Facebook一样,被当作一个社交网络。然而,我尽量只用它来关注数据科学领域的人,并避免点击垃圾内容。许多研究人员、作者和其他著名的数据科学家都有活跃的Twitter账户,他们经常分享有趣/相关的内容。这是一个很好的方式来了解数据科学的最新发展和 "热门话题"。
其他有用的资源
KDnuggets-掘金队
https://www.kdnuggets.com/
AWS-机器学习博客
https://aws.amazon.com/blogs/machine-learning/
PyImageSearch
https://www.pyimagesearch.com/
Explained.ai
https://explained.ai/
Visual-Capitalist
https://www.visualcapitalist.com/
Datais Beautiful
https://www.reddit.com/r/dataisbeautiful/
AnalyticsVidhya
https://www.analyticsvidhya.com/blog/
在本文中,作者向大家展示了10个国外最喜欢的数据科学学习资源,可以用来提升学习。欢迎在留言区写下你最喜欢的国内的数据科学学习资源,它给你提供了哪些帮助呢?
如果觉得有用,就请分享到朋友圈吧!
公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载~
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~