数据行业非完全入门指南!

共 1957字,需浏览 4分钟

 ·

2021-04-16 12:24

桔了个仔,南洋理工大学,Datawhale成员

之前给从传统制造业转行的数据行业的朋友列的一个笔记,这里把原文贴出来。现在看来概括性不够,不过适合对大数据没有太多了解但想入行的人阅读。(语言环境问题,笔记里中英文交错,也没太整理,望见谅)

  1. Data相关行业介绍与入门要求。
  2. Entry level 的相关职位。
  3. Junior level员工职业发展路径。

一、Data相关行业介绍与入门要求

Data算不上行业,每个行业都会产生数据,公司越大产生的数据越多,需要的人才也越多。

也有的公司自己不存数据,只提供技术给其他大公司做数据建模的。

做Data的有几种情况:

  • Data Scientist as analyst
  • Data Scientist as model builder
  • Data Scientist as engineering
  • Data Scientist as full-stack

对Data职位来说,一般数学有一定要求,概率论数据统计会经常面试考到,常见的考题会发给你看看,但如果你没有这个基础,还是要从头学习一下的。

  1. 数学要求:概率论和数据统计,线性代数等,面试常见考题包括:
  • 均值与方差及其公式
  • 什么是高斯分布
  • 什么是正态分布
  • 贝叶斯公式
  • 三门问题

2.技能树(从入门到必须):

  • python或者R。python资源较多,建议先学python
  • 数据可视化。其实excel也可以做到,但还是
  • 数据建模。会用到机器学习的知识

3. 学习资源:(coursera旁听audit不花钱,其实花钱拿证书含金量也不高,企业不怎么认可)

  • 统计基础 https://www.coursera.org/learn/basic-statistics
  • Python 入门 https://www.coursera.org/specializations/python
  • DS 方向的python https://www.coursera.org/specializations/data-science-python
  • Python 数据可视化 https://www.coursera.org/learn/python-for-data-visualization
  • 机器学习 https://www.coursera.org/learn/machine-learning

如果是偏深度学习方向,例如计算机视觉,自然语言处理,会考到线性代数,要知道怎么进行矩阵运算。但为了先入门,这里就不介绍太多,怕消化不来。

引申:几种常用的机器学习

  1. 监督式学习(supervised learning)需要标记数据
  2. 非监督式学习(unsupervised learning)不需要标记数据。代表算法:k-means
  3. 强化学习(为了不压垮你的大脑,先跳过介绍)

业界常见模型:

  • CNN: 主要用于识别图像
  • LSTM:处理时间序列 ,自然语言处理等

二、Entry level 相关职位

两个方向:

  • Data Engineer 编程语言:Scala, Java。软件框架包括hadoop, spark, hive, postgreSQL 等等。

  • Data Scientist 编程语言: Python(最常用), R(少数公司用)。软件有的公司会自建Data Science Studio.也有很多服务提供商提供了DSS,例如DataRobot, Dataiku等。但建议不要依赖语言。Jupyter notebook是比较适合调试python 的工具,某些课程上会讲到。

  • 两个方向都需要的:SQL语句(https://link.zhihu.com/?target=https%3A//www.coursera.org/learn/analytics-mysql)

  • 如何入行与关注职位要求变化

    • 学习上述的基本课程。
    • 上linkedin看职位需求(注:国内linkedin用得少,可以看其他招聘网站)

三、Junior level员工职业发展路径

  • Data Scientist 路线:senior → lead, 足够经验后可以做独立consultant或者加入咨询公司
  • Data Engineer,senior → lead → 架构师
  • 全栈方向,DS和DE都懂,现在有的公司招的是两方面都懂的,但建议先在某个方向做好了再去做另一个方向。两个方向都懂的consultant更吃香

原文:https://zhuanlan.zhihu.com/p/101111340

“整理不易,三连
浏览 31
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报