【数据科学家】如何成为一名数据科学家?
日期 : 2021年04月07日
正文共 :4626字
一、数据科学家的起源
“数据科学”(DataScience)起初叫”datalogy “。最初在1966年由Peter Naur提出,用来代替”计算机科学”(丹麦人,2005年图灵奖得主,丹麦的计算机学会的正式名称就叫Danish Society of Datalogy,他是这个学会的第一任主席。Algol 60是许多后来的程序设计语言,包括今天那些必不可少的软件工程工具的原型。图灵奖被认为是“计算科学界的诺贝尔奖”。)
1996年,International Federation of Classification Societies (IFCS)国际会议召开。数据科学一词首次出现在会议(Data Science, classification, and related methods)标题里。
1998年,C.F. Jeff Wu做出题为“统计学=数据科学吗?的演讲,建议统计改名数据的科学统计数据的科学家。(吴教授于1987年获得COPSS奖,2000年在台湾被选为中研院院士,2004年作为第一位统计学者当选美国国家工程院院士,也是第一位华人统计学者获此殊荣。)
2002年,国际科学理事会:数据委员会科学和技术(CODATA)开始出版数据科学杂志。
2003年,美国哥伦比亚大学开始发布数据科学杂志,主要内容涵盖统计方法和定量研究中的应用。
2005年,美国国家科学委员会发表了”Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century”,其中给出数据科学家的定义:
“the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection”
信息科学与计算机科学家,数据库和软件工程师,领域专家,策展人和标注专家,图书管理员,档案员等数字数据管理收集者都以可成为数据科学家。它们主要任务是:”进行富有创造性的查询和分析。”
2012年,O’Reilly媒体的创始人 Tim O’Reilly 列出了世界上排名前7位的数据科学家。
Larry Page,谷歌CEO。 Jeff Hammerbacher,Cloudera的首席科学家和DJ Patil,Greylock风险投资公司企业家。 Sebastian Thrun,斯坦福大学教授和Peter Norvig,谷歌数据科学家。 Elizabeth Warren,Massachusetts州美国参议院候选人。 Todd Park,人类健康服务部门首席技术官。 Sandy Pentland,麻省理工学院教授。 Hod Lipson and Michael Schmidt,康奈尔大学计算机科学家。
你能列出十个著名的女性数据科学家吗?Can you name 10 famous data scientist women?
谁是最富有的数据科学家?Who are the wealthiest data scientists?
请列出对大数据最具有影响力的20个人?Who Are The Top 20 Influencers in Big Data?
for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.
Anjul Bhambhri,IBM的大数据产品副总裁。
Jonathan Goldman,LinkedIn数据科学家。
John Rauser, 亚马逊大数据科学家:
Steven Hillion, EMC Greenplum数据分析副总裁:
Monica Rogati, LinkedIn资深数据科学家:
Daniel Tunkelang,LinkedIn首席数据科学家:
Michael Rappa,北卡罗莱纳州立大学教授:
林仕鼎,百度大数据首席架构师
数据科学家倾向于用探索数据的方式来看待周围的世界。(好奇心) 把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。(问题分体整理能力) 新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。(快速学习能力) 数据科学家会遇到技术瓶颈,但他们能够找到新颖的解决方案。(问题转化能力) 当他们有所发现,便交流他们的发现,建议新的业务方向。(业务精通) 他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。(表现沟通能力) 他们会把蕴含在数据中的规律建议给Boss,从而影响产品,流程和决策。(决策力)
零基础学习 Hadoop 该如何下手? 想从事大数据、海量数据处理相关的工作,如何自学打基础?
如何系统地学习数据挖掘? 做数据分析不得不看的书有哪些? 怎么学习用R语言进行数据挖掘?
有哪些值得推荐的数据可视化工具?
The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.
* 数据挖掘相关的统计方法(多元Logistic回归分析、非线性回归分析、判别分析等)
* 定量方法(时间轴分析、概率模型、优化)
* 决策分析(多目的决策分析、决策树、影响图、敏感性分析)
* 树立竞争优势的分析(通过项目和成功案例学习基本的分析理念)
* 数据库入门(数据模型、数据库设计)
* 预测分析(时间轴分析、主成分分析、非参数回归、统计流程控制)
* 数据管理(ETL(Extract、Transform、Load)、数据治理、管理责任、元数据)
* 优化与启发(整数计划法、非线性计划法、局部探索法、超启发(模拟退火、遗传算法))
* 大数据分析(非结构化数据概念的学习、MapReduce技术、大数据分析方法)
* 数据挖掘(聚类(k-means法、分割法)、关联性规则、因子分析、存活时间分析)
* 其他,以下任选两门(社交网络、文本分析、Web分析、财务分析、服务业中的分析、能源、健康医疗、供应链管理、综合营销沟通中的概率模型)
* 风险分析与运营分析的计算机模拟
* 软件层面的分析学(组织层面的分析课题、IT与业务用户、变革管理、数据课题、结果的展现与传达方法)
(5)分享一些免费的课程
以下课程免费,讲师都是领域的专家,需要提前报名,请注意开班的时间。
Coursera.org:统计学。 Coursera.org:机器学习。 Coursera.org:数据分析的计算方法。 Coursera.org:大数据。 Coursera.org:数据科学导论。 Coursera.org:数据分析。
Statistical Thinking and Data Analysis:麻省理工学院的统计思维与数据分析课。概率抽样,回归,常见分布等。 Data Mining | Sloan School of Management:麻省理工学院的数据挖掘课程,数据挖掘的知识以及机器学习算法。 Rice University Data Visualization:莱斯大学的数据可视化,从统计学的角度分析信息可视化。 Harvard University Introduction to Computing, Modeling, and Visualization: 哈佛大学,如何在数学计算与数据交互可视化之间架起桥梁。 UC Berkeley Visualization:加州大学伯克利分校数据可视化。 Data Literacy Course — IAP:两个MIT的数据研究生,如何分析处理可视化数据。 Columbia University Applied Data Science:哥伦比亚大学,数据分析方法。需要一定的数据基础。 SML: Systems:加州大学伯克利分校,可扩展的机器学习方法。从硬件系统,并行化范式到MapReduce+Hadoop+BigTable,非常全面系统。
In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections. Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020. In 2013, less than 20% of the data in the digital universe is “touched” by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%. Most of the digital universe is transient – unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. – and it is getting more so. This is a good thing, because the world’s amount of available storage capacity (i.e., unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%. In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.
— THE END —