机 器 学 习 算 法 没 那 么 重 要
↑↑↑点击上方蓝字,回复资料,10个G的惊喜
作者:Terence S 编译:ronghuaiyang
这是作者在她自己的数据科学学习经历中的总结的一些见解,还是有很有道理的,确实是经验之谈,初学者可以参考。
两年来,我一直在自学数据科学,通过这个过程,我获得了许多见解,我想与刚起步的新数据科学家们分享。
你可以自由地从这篇文章中获取你想要的内容,但我只是想为那些有点迷失方向、希望得到更多指导的人分享我的观点。以下这5件事情是我希望我在开始学习数据科学时就知道的。
1) 在成为一个好的数据科学家之前先成为一个好码农和好统计人员
如果你读过我以前的文章,你可能已经听过我这样说 —— 数据科学家实际上是一个利用编程来实现统计方法的现代统计学家。
从长远来看,理解这些基本原理会让你的生活变得更容易,实际上也会节省你的时间。几乎所有的机器学习概念和算法都是基于统计和概率,而在此之上,许多其他数据科学概念,比如A/B测试,也是纯统计的。
最终,作为一名数据科学家,你有多优秀取决于你在编程和统计方面的知识有多丰富。
TLDR:在学习其他知识之前,先具备良好的编程和统计基础。从长远来看,这会为你节省更多的时间。
2) 少花点时间在网络课程上,多花点时间在自己的项目上。
我知道这可能会引起你们一些人的争议,所以让我先说几句话:
这完全是基于我的个人实践以及我从同事那里观察到的。 显然,有一些很棒的在线课程不在我所说的里面,比如deeplearning.ai的课程。 我还想说的是,如果没有别的选择,最好还是去上网课。
话虽如此,以下是网课的几个问题
就材料的深度而言,它们往往非常肤浅,不仅如此,它们还往往给人一种对所学材料理解错误的感觉。 它们在记忆信息方面也不是很好。我认为你会同意你花在学习一门学科上的时间越多,你就越有可能记住这些信息。这些网课的问题在于,尤其是那些标榜“在5周内成为专家”的网课,并没有给你足够的时间去真正理解你正在学习的东西。 最后,它们通常没有足够的挑战性。许多网课只是要求你跟随和复制他们的代码,这并不要求你批判性地和深入地思考。
为什么你应该做一些数据科学项目
个人数据科学项目是一种很好的学习方式,因为你将被迫批判性地思考问题和自己的解决方案。
通过这个,你会学到比任何网课都要多的东西。你将学习如何问正确的问题,如何回答正确的问题,如何处理适合你的数据科学项目,如何有条不紊,等等……
通过对自己的项目投入更多,你也会更有动力去学习更多,投入更多时间,创造一个积极的反馈循环。
TLDR:少花点时间在数据科学网课上,多花点时间在自己的数据科学项目上。
3) 专注于一些精选的工具,并真正擅长它们
有这么多的数据科学软件包和工具,这很酷,因为你可以自己选择你的数据科学工具包。
然而,我们很容易被想要学习尽可能多的包和工具的想法冲昏头脑。不要犯这样的错误。
如果你能熟练地使用其中一些工具,而不是使用一些你几乎不会去用的工具,那么 你将会获得更好的效果。(在简历上列出一长串的技能和工具不应该是你的最终目标!)
举个例子,现在有几个很棒的数据可视化包:Matplotlib、Seaborn、Plotly、Bokeh等等……没有必要花时间去掌握其中的每一个 —— 这是在浪费你宝贵而有限的时间。
另一个例子是,如果你想要使用pandas操作数据,那么就把pandas用的非常熟练。如果你更喜欢用NumPy,那就去好好使用它。当然,理想情况下,你想要同时擅长pandas和NumPy,但我的观点是,坚持使用其中一个并掌握它可能更好一点,而不是不断地跳来跳去。
同样的事情还有:
Python vs R Tensorflow vs Pytorch Postgresql vs MySQL
TLDR:构建你自己的数据科学工具箱并坚持使用它!熟练掌握5种工具比20种工具都会一点要好
4) 对各种机器学习算法的理解只占数据科学的一小部分。
就我个人而言,让我进入数据科学的是所有不同的机器学习模型,它们是如何工作的,以及它们在哪些应用中有用。我可能花了至少6个月的时间学习和尝试了几种机器学习模型,才意识到这只是数据科学家需要知道的一小部分。
数据建模只是整个机器学习生命周期的一部分。你还需要了解数据收集、数据准备、模型评估、模型部署和模型调优。事实上,我认为大部分时间都花在了数据准备上,而不是数据建模(机器学习建模)。
除此之外,你还需要学习其他一些东西,比如版本控制(Git)、从api提取数据、云的理解,等等。
TLDR:不要把所有的时间都花在试图掌握每一个机器学习算法上,它只占数据科学家需要知道的一小部分。
5) 作为一个数据科学家,感觉到名不副实很常见的。
从我开始学习数据科学的第一天到今天,我经常感觉到名不副实。但我知道这是完全正常的。
为什么数据科学家会经常感觉到名不副实?
“数据科学”是一个模糊的术语,因为它是一个跨学科的领域,包括统计学、编程、数学、商业理解、数据工程等。除此之外,还有很多数据科学家的同义词(数据分析师、数据工程师、研究科学家、应用科学家)。我的观点是,你永远不会成为数据科学包含的所有方面的专家,而且你也不应该觉得必须成为专家。 就像编程和技术中的其他事物一样,数据科学也在不断发展。20年前,pandas还没有被创造出来Tensorflow是5年前才发布的。总是会有新的技术出现,因此你必须学习新的东西。 这和我的第一个观点有关,但因为你不太可能是所有事情的专家,这意味着总有人在你花费较少时间的事情上做得更好。这也没关系。
TLDR:作为一名数据科学家,你总是会感到名不副实,这没什么
英文原文:https://towardsdatascience.com/5-things-i-wish-i-knew-when-i-started-learning-data-science-24d6f9a2d1e0
推荐阅读
(点击标题可跳转阅读)
老铁,三连支持一下,好吗?↓↓↓