自学成为数据科学家的 10 个步骤

小数志

共 4093字,需浏览 9分钟

 ·

2021-09-23 19:09

成为数据科学家不需要学位,这是一个跨学科的领域。只要你乐于学习新事物并愿意投入精力和时间,你就可以成为一名数据科学家。现在的问题是,从哪里开始?对于初学者来说,庞大的信息量可能会让人不知所措,甚至在开始之前就放弃。在本文中,我将制定包含 10 个步骤的结构化学习路线图,列出需要学习的内容以及成为数据科学家应该学习的顺序。

步骤一:编程

如果你是技术领域的新手,那么编程将是最好的起点。目前,数据科学中使用最多的两种编程语言是 Python 和 R。

  • R:一种用于统计计算的编程语言。R 广泛用于开发统计软件和数据分析。
  • Python:一种高级、通用的编程语言。Python 广泛应用于许多应用程序和领域,从简单的编程到量子计算。

因为 Python 是一种对初学者友好的编程语言,所以我发现它是开始数据科学和未来可能更多领域的好地方。由于 Python 的流行,有许多资源可以独立于你的目标应用领域来学习它。我最喜欢的一些 Python 学习资源是 CodeAcademy、Google Classes 和 Learn Python the Hard Way。如果决定使用 R,Coursera 和 edX 都有很棒的课程,可以免费旁听。如果已经知道如何编程,并且可能从另一个技术领域转移到数据科学领域。在这种情况下,可以跳过此步骤并前进到旅程的下一步。

CodeAcademy: https://www.codecademy.com/catalog/language/python
Google Classes: https://developers.google.com/edu/python
Learn Python the Hard Way: https://learnpythonthehardway.org/book
coursera: https://www.coursera.org/learn/r-programming
edX: https://www.edx.org/professional-certificate/harvardx-data-analysis-for-life-sciences

步骤 2:数据库

数据科学的核心是数据。每当开始数据科学项目时,都需要有数据来分析、可视化和构建项目。这些数据通常存储在某个数据库中。作为数据科学家脱颖而出的一个重要步骤是有效地与数据库进行交互。如果你可以设计一个简单的数据库,那么这将带你进入下一个层次。要与数据库通信,你需要使用它的语言。那就是SQL。SQL 代表结构化查询语言,用于与数据库进行通信。我最喜欢的学习 SQL 的资源是 CodeAcademy、Khan Academy 和交互式学习 SQLCourse。

codecademy: https://www.codecademy.com/learn/learn-sql
Khan Academy: https://www.khanacademy.org/computing/computer-programming/sql
SQLCourse: https://www.sqlcourse.com/

第 3 步:数学

数据科学的核心是数学。要了解数据科学的不同概念如何起作用,需要对它们背后的数学有基本的了解。了解概率论、统计学和线性代数的基础知识才能理解数据科学。但是,你在职业生涯中使用的大多数工具都会消除在您的项目中实施数学本身。不要让数学吓倒你探索数据科学世界。我会说这是非常值得的。Coursera 上有一些有用的材料可以帮助解决所需的数学问题。

coursera: https://www.coursera.org/learn/datasciencemathskills
coursera: https://www.coursera.org/specializations/mathematics-for-data-science

第 4 步:版本控制

在一般的软件开发和数据科学中,需要掌握或尝试掌握的最重要的概念之一是版本控制。每当你从事数据科学项目时,都需要编写不同的代码文件、探索数据集并与其他数据科学家合作。管理,代码中的所有更改,都是通过版本控制完成的,即使用 Git。Git 是一个版本控制系统,用于在软件开发过程中跟踪源代码的变化。Git 旨在协调一组程序员之间的工作,或者用于跟踪单个程序员对任何一组文件的更改。尽管 Git 是一个系统,但有些网站允许你轻松使用 Git,而无需与命令行进行太多交互——例如GitHub或GitLab。有很多资源可以帮助了解 Git 的内部功能;我的首选是 BitBucket Learn Git Tutorials和来自哈佛 CS50 课程的这个讲座。

BitBucket: https://www.atlassian.com/git/tutorials/what-is-version-control
CS50: https://www.youtube.com/watch?v=2A7nVdAoqqk&list=PLhQjrBD2T382hIW-IsOVuXP1uMzEvmcE5&t=0s

第 5 步:数据科学基础

数据科学是一个广义术语。它包含不同的概念和技术。但在深入研究数据科学的海洋之前,需要先熟悉一些基础知识。要成为一名成功的数据科学家,你需要开发和努力掌握一些重要技能,例如:

  • 查找数据集:有两种方法可以启动任何数据科学项目;你要么有一个要用于构建项目的数据集。或者你有一个想法,需要找到一个数据集。探索数据集并为你的项目选择合适的数据集是一项重要的技能。
  • 科学交流:作为一名数据科学家,你需要与普通观众交流以交付你的过程和发现。因此,你将需要发展科学交流技能并使用简单的术语解释复杂的概念。
  • 有效的可视化:验证你的发现的唯一方法是将它们可视化。可视化在数据科学中发挥着重要作用,从探索数据到交付结果。熟悉有效的数据可视化可以在项目期间节省大量时间和精力。
第 6 步:机器学习基础

所以,你提高了你的编程技能,复习了你的数学,并潜入了数据库。现在就可以开始有趣的部分了,运用到目前为止所学的知识来构建自己的第一个项目。机器学习基础知识是起点。这是开始学习和探索基本机器学习算法和技术的时间,例如线性和逻辑回归、决策树、朴素贝叶斯和支持向量机 (SVM)。在这里,还可以开始发现不同的 Python 或 R 包来处理和实现您的数据。您将开始使用 Sciket-learn、Scipy 和 Numpy。你将学习如何清理数据以获得更准确的结果。在此部分,你将体验数据科学可以做什么,并能够看到该领域对我们日常生活的影响。

第 7 步:时间序列和模型验证

是时候深入研究机器学习了。数据不会是静止的;它通常以某种方式与时间有关。时间序列是基于时间排序的数据点。最常见的是,时间序列是在连续等间隔时间点采集的数据序列。使它们成为离散时间数据。时间序列展示时间如何改变。这可以深入了解数据中的趋势、周期性,并预测数据的未来行为。在处理时间序列时,你需要处理两个主要部分:

  • 分析时间序列数据
  • 预测时间序列数据

建立模型来预测未来的行为是不够的;你需要验证此模型的正确性。在这里,你将学习如何有效地构建和测试模型。此外,你将学习如何估计每个项目的错误阈值以及如何将模型保持在可接受的范围内。

第 8 步:神经网络

神经网络(人工神经网络或ANN)是一种受生物启发的编程范例,使计算机能够从观测数据中学习。人工神经网络最初是一种模仿人脑架构以执行不同学习任务的方法。为了使 ANN 类似于人脑,它被设计为包含与人类细胞相同的组件。因此,ANN 包含一组神经元;每个神经元代表一个节点,通过链接连接到另一个节点。这些链接对应于生物轴突-突触-树突连接。此外,这些链接中的每一个都有一个权重,它决定了一个节点对另一个节点的强度。学习人工神经网络能够处理更广泛的任务,包括识别手写,模式识别和面部识别。ANN 代表了需要了解的基本逻辑,以继续数据科学之旅的下一步,即深度学习。

第 9 步:深度学习

神经网络是支持深度学习的范例。深度学习代表了一套强大的技术,可以利用神经网络的学习能力。你可以使用神经网络和深度学习来解决各个领域的许多问题的最佳解决方案,包括图像识别、语音识别和自然语言处理。到现在为止,你将熟悉许多处理数据科学不同方面的 Python 包。在这一步中,你将有机会尝试流行的软件包,例如 Keras 和 TensorFlow。此外,通过这一步,你将能够阅读数据科学的最新研究进展,并可能开发自己的研究进展。

第 10 步:自然语言处理

到目前为止,你已经了解了许多理论和实践概念,从简单的数学到复杂的深度学习概念。那么,接下来是什么?我个人最喜欢的数据科学子领域,即自然语言处理 (NLP)。自然语言处理是一个令人兴奋的分支,它使你能够利用机器学习的力量“教”计算机理解和处理人类语言。这将包括语音识别、文本到语音应用程序——反之亦然——虚拟协助(如 Siri 和 BERT),以及各种不同的对话机器人。

结论

成为数据科学家意味着你将处于持续学习阶段。你将在学习过程中发展自己的知识和风格。你可能更受某个特定子领域的吸引,并且会深入挖掘,并且可能专注于该子领域。你需要开放思路,并投入足够的时间和精力来实现你的最终目标。

数据科学家学习路线



相关阅读:


浏览 62
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报