温故知新:数据科学札记
【引子】春节聊天的时候,家中少年的一个发小刚刚转了个专业——数据科学,自己似乎对所谓的”数据科学“了解很多,但又似乎难以区分其中的一些概念差异,例如,统计学与数据科学的区别,,数据分析与数据科学的差异?为什么数据科学成为了一个学科? 等等。温故而知新,本文试图给数据科学一个老码农自认为清晰的描述。
互联网给我们迎来了大数据和数据经济的时代,“大数据增长”或者“数据泛滥”,不仅引发了巨大的轰动,更带来了巨大挑战,反过来又带来了超乎想象的创新和经济机遇。这些挑战、机遇和价值的认识正在重塑面向数据的科学和工程领域,也正在重塑那些非传统的数据工程领域,如社会科学、商业和管理。这种重塑不仅仅是由数据本身驱动的,而且是通过理解、探索和利用数据的所有方面。
这些趋势及其潜力引发了关于数据密集型科学发现作为一种新范式的辩论,即所谓的“第四科学范式”,它将实验、理论和计算结合起来。数据被认为是新的石油和战略设置,甚至决定未来的科学、技术、经济,乃至我们世界今天和明天的一切。
现有的知识和能力可能无法有效地应对这些挑战和机会, 于是产生了数据科学这一学科。它还处于非常早期的阶段,正在面临巨大的炒作甚至是困惑,所独有的问题和可能性还不清楚、具体或确定。然而,毫无疑问,数据科学在数据驱动理论、经济和专业发展方面的潜力正日益得到认可。这不仅涉及核心学科,如计算、信息学和统计学,还涉及广泛的商业、社会科学和健康/医疗领域。
关注数据科学而不是大数据,有一些关键的术语,如数据分析、数据分析学、高级分析学、大数据、数据科学、深度分析、描述性分析、预测分析和规定性分析,这些术语高度相关,很容易混淆,数据科学术语列表可以在 www.datasciences.org 网站上找到。
那么,什么是数据科学?数据科学的主要特征和活动现状如何?数据科学的基石是数据分析,它的进化和范式转换是什么?数据驱动创新的方向,新数据驱动的工业化和服务机会?数据科学的学科作用和可能的课程框架呢?
1. 数据科学的起源
“数据科学”作为一个术语的第一次出现很可能是在1974年出版的《计算机方法简明概览》一书的序言中。在这篇序言中,数据科学被定义为“建立数据和处理数据的科学,而数据与它们所代表的东西之间的关系则被委托给其他领域和科学。”
从数据分析到数据科学的进化历程始于1962年的统计学界。有人说,“数据分析本质上是一门经验科学”,推动数据处理的原创工作包括信息处理和探索性数据分析。有人建议,需要更加重视利用数据提出合适的假设来检验,这促成了1989年后期的“数据驱动发现”。2001年,开始有人把统计学的技术领域扩展到数据科学。
在统计学中扮演主要角色的是描述性分析,即定量总结或描述数据样本集的特征和测量。如今,描述性分析构成了数据分析和商业智能系统中默认分析和报告的基础。对早年数据分析作用的理解不仅限于数据的探索和处理,还有1977年期望的”将数据转化为信息和知识”。20多年后,促成了ACM SIGKDD 会议,从那时起,”数据挖掘”、”知识发现”和数据分析等关键术语不仅在计算机科学中,而且在其他领域和学科中得到越来越多的承认。数据挖掘和知识发现是从数据中发现隐藏知识的过程。最新的发展是创建了全球和区域性的数据科学会议,尤其是 IEEE 国际会议的数据科学和高级分析(DSAA 2014),DSAA 还得到了 IEEE、 ACM 和美国统计协会的联合支持。
数据挖掘、知识发现和机器学习的发展,与原始数据分析和从统计学角度的描述性分析相结合,形成了“数据分析”的一般概念,起初的数据分析着重于数据处理。数据分析是一门跨学科的科学,对数据进行定量和定性的检验,以便得出新的结论或见解,或者提取和证明关于信息的假设,用于决策和行动。数据分析变得更加面向商业,扩展到各种数据和特定领域的分析任务,如商业分析、风险分析、行为分析、社会分析和网络分析。特定领域的分析从根本上推动了数据科学的创新和应用,数据的特定分析和理论分析共同构成了数据科学的基石。
2. 什么是数据科学
数据科学吸引了越来越多的领域和学科的兴趣。因此,来自不同背景、不同社区的提议者提出了非常不同的观点或焦点。举个例子,认为数据科学是新一代的统计学,是几个交叉学科的综合,是一个新的知识体系。数据科学对于为数据行业提供能力和实践,或者生成业务策略。统计学家们实际上创造了“数据科学”这个术语,并促进将统计学升级为一个更广泛的学科,具体包括:
1997年建议统计学应更名为“数据科学”,统计学家应被称为“数据科学家”,其目的是将统计的重点从“数据收集、建模、分析、问题理解/解决、决策”转移到“大型/复杂数据、实证-物理方法、知识的表示和利用”。
在2001年建议,将统计学领域改为数据科学,并通过寻求计算机技术和与计算机科学家合作,有必要“摆脱对数据模型(在统计学方面)的完全依赖,采用一套更加多样化的工具”,如数据机制视为未知的算法建模。
2015年,美国发表了一份关于统计学在数据科学中的作用,声明统计学和机器学习在数据科学中发挥着核心作用。
数据科学主要解释为开放数据的再利用,包括我们生活中的所有数据,并能够创造数据产品。其中,数据规模是最重要的,大数据的核心挑战是设计新的计算机体系结构和算法,分析是大数据的核心问题,数据重用是很容易得到的成果,等等。
但是,总的来说,“数据科学是数据的科学”或“数据科学是数据的研究”。从学科的角度来看,数据科学是一个新的跨学科领域,它综合并建立在统计学、信息学、计算机、通信、管理和社会学的基础上,研究数据及其环境,以便通过遵循从数据到知识再到智慧的思维和方法,将数据转化为见解和决策。那么,以学科为基础的数据科学公式可能是:
数据科学 = 统计学 + 信息学 + 计算机科学 + 通信 + 社会学 + 管理科学 | 数据 + 环境 + 思考(其中”|”意思是”有条件的”)
数据科学使我们能够探索新的数据驱动或数据支持的个性化、组织化、教育化、伦理化、社会化、文化、经济、政治、网络物理形式、模式、范式、创新、方向和生态系统,甚至是思维、战略和政策。例如,在社会科学中,大规模数据很有可能使主观性转化为客观自主性、效益和正义,一些指标可能是领域驱动的假设和专业人士无法预测的。
数据科学的产出是数据产品,数据产品是可以从数据中交付的,或者是由数据启用或驱动的,可以是发现、预测、服务、推荐、决策、思维、模型、模式、范式、工具或系统。有价值的最终数据产品是知识、智慧、智慧和决策。随着数据科学和工程技术的发展,新的数据产品可能会不断涌现。正如基于互联网的产品和人工智能系统的演变那样,这种创造可能以远远超出想象和思考的速度。
3. 当前的数据科学时代
数据传播,量化,政府和研究机构的倡议与治理,以及开放数据被认为是当前数据科学时代的关键驱动力。
3.1 数据处理与数据量化
数据应用和数据量化是无处不在的,除了从商业和业务信息系统获得的常见数据外,日益流行和广泛的数据传输和数据量化系统和服务加强了大数据应用乃至数据泛滥。这些系统和服务包括但不限于可穿戴设备、物联网、移动和社交应用。
数据处理和数据量化发生在任何时间和任何地点,由任何人以任何方式产生,相关因素包括:
量化时间: 随时量化,从工作到学习,日常生活,放松,娱乐,社交;
量化场所: 任何地方的量化,从生物系统到物理、行为、情感、认知、网络、环境、文化、经济、社会、政治系统和环境;
量化个体: 任何人都可以量化,从自我到他人,连接的自我,外在的自我和世界,从个人到团体,从组织到社会;
量化形式: 任何形式的量化,从观察到驱动,从客观到主观,从明确到隐含,从定性到定量;
量化方式: 任何来源的量化,包括信息系统、数字化、传感器、监视和跟踪系统、物联网、移动设备和应用程序、社会服务和网络平台,以及可穿戴设备和量化自我设备和服务;
量化速度: 任意速度的量化,从静态到动态,从有限到无限,从递增到指数级生成数据对象、集合、数据仓库、数据湖等。
3.2 数据开放
数据科学时代与以前时代的一个关键区别是采用了开放模式,开放模式是在经济、社会、研究和生活的各个方面都可以实现自由、分布和协作模式。一般来说,许多国家和领域都公布了开放数据和数据共享项目,如:
美国政府开放数据网站:https://www.data.gov/.
英国的开放数据项目:http://data.gov.uk/.
欧盟也开放了数据门户和数据共享项目。
此外,越来越多的学术期刊所采纳了开放存取方案。在不同的社区中,人们也在努力创建可共享的数据库,特别是用于科学和研究。开放存储的例子有:
全球气候数据:http://en.tutiempo.net/climate.
全球恐怖主义数据库:https://www.start.umd.edu/gtd/
基因表达综合数据:http://www.ncbi.nlm.nih.gov/geo/.
移动数据:https://console.developers.google.com/storage/browser/openmobiledata_public/
UCI 机器学习存储库:http://archive.ics.uci.edu/ml/.
自然语言处理语言数据联盟数据:https://www.ldc.upenn.edu/about.
文本检索数据: http://trec.nist.gov/data.html.
Kaggle 竞赛数据 :https://www.kaggle.com/competitions.
......
3.3 新数据经济与产业转型
数据科学的价值和潜力的认识是由于新的数据经济和行业转型的发展,反过,数据科学来对新数据经济的发展、产业转型和生产力的提高又产生了重要影响和推动作用。这一波数据经济升级和转型的特征是人工智能技术和业务的革命,以及人工智能和人工智能驱动的数据经济的互补性进展,在很大程度上是由数据科学和分析推动的。它们包括商业化、应用基础设施、工具、系统、服务、应用和咨询,用于管理、发现和利用深层数据智能。
数据科学使所谓的“新经济”成为可能,谷歌,百度和阿里等大型企业就是证明。越来越多的组织认识到数据作为战略资产的价值,并投资于基础设施、资源、人才和团队建设,以支持企业创新,并且创造出与众不同的东西来提升竞争力和生产力。
传统的以制造业为中心的核心企业,也都推出了针对大数据、物联网和/或云计算的相应举措,并正在实施基于数据产品的转型。数据科学已成为企业生产力和竞争力提升的新引擎,包括银行、资本市场公司、电信服务提供商和保险公司在内的核心业务在数据处理、量化、分析和使用数据方面处于领先地位。
3.4 数据科学的社区形成
一个新兴领域的发展可以有效地用其专业团体的形成宽度、深度和速度来衡量。
第一个指标是在这一领域出现了专门的出版物。已经建立了几种数据科学杂志,第二个指标是建立一个数据科学社区,通过专门促进数据科学和分析的会议、研讨会和论坛大大加强了这一社区。第三个指标是建立的专业社区和组织的增长和发展。数据科学和分析社区正在以令人难以置信的速度增长。
3.5 数据科学的学科发展
研究人员和科学家在数据科学中发挥着推动作用,从统计学界最初的推动,各学科都参与到数据科学的学科发展中来。这涉及到学科结构、内在的挑战和方向、课程结构和课程设计,以及成为下一代数据科学家的能力。
除了促进统计学、数学、计算机和人工智能等核心学科的活动之外,对特定领域数据科学的广泛认识似乎重复了计算机和计算机应用的发展历史。越来越多的学科和领域开始拥护数据科学,这些领域在传统上与数据科学毫不相干,比如法律、历史,甚至护理学。它的核心驱动力来自数据密集和数据丰富的领域,如天文学,气候变化,研究评估,媒体和娱乐 ,供应链管理,以及网络基础设施等。数据科学的时代提供了重要的跨学科机会 ,推动了人工智能(AI)的发展,从起源于逻辑学、推理和计划驱动的机器智能向综合集成化、无处不在的、支持多模式智能的复杂智能系统和服务的转变。
一个非常典型的跨学科、多学科和跨学科的进化趋势是,从信息学的角度对经典学科中数据驱动的发现和科学进行调整和适应。典型的示例包括信息学、行为信息学、生物信息学、生物统计学、脑信息学、医学信息学信息学、医学信息学和社会信息学等等。因此,在诸如生物医学信息学、医疗保健信息学、甚至城市信息学等特定领域开设数据科学课程也就不足为奇了。大多数数据科学的课程侧重于经典科目,特别是统计学、数据挖掘、机器学习、预测、商业智能、信息管理和数据库管理。编程语言包括 R 和 Python,以及MapReduce 和 Hadoop 都是这些课程的重点。越来越多的课程是为了满足特定领域的需求而创建的,例如将统计学、商业分析、社交网络分析整合到 SCM 的预测分析中。
4 数据科学的基石——数据分析
数据科学的基石是数据分析,数据和分析形成了一个全面的地图——
数据从过去到现在和未来的整个生命周期;
从显性分析和理解到隐性分析和前瞻性预测再到干预分析;
从数据探索到通过规范性分析和适当的知识传递提供可操作的洞察力和决策。
4.1 从数据洞察到数据决策的生命周期分析
在不同的时间段和分析阶段,从数据到洞察再到决策的转换沿着整个生命周期的分析体现出来:
过去的数据: 历史分析是探索数据和业务中的“发生过什么”,并深入了解“为什么发生了什么”,采用建模和实验设计等方式。这个阶段的重点是”我们知道什么”,以便对所发生的事情进行理解。
目前的数据: 这一阶段的检测主要集中在探索“发生了什么”,以便对“如何发生以及为什么会发生”产生深刻的见解。这一阶段涉及”我们不知道的事情”,就数据和业务中提出的不同类别或模式发出警示,解决“什么是关键驱动因素?”
未来数据: 预测分析的任务是未来“将会发生什么”,并通过估计未来事件的发生、分组和模式,深入了解“将会如何发生以及为什么发生”。这一阶段的目标是通过积极主动地理解、预测以及早期预防,解决我们不知道的问题。
可采取的行动决策: 进行规范性分析和可采取行动的知识传递,以调查应采取的最佳行动,解释来自过去、现在或未来数据的发现。这样就可以深入了解下一个最佳行动是什么,并采取相应的行动和建议。这一阶段的目的是通过提出最佳建议和可采取行动的干预措施,解决如何最佳管理已查明的问题。
4.2 从显式分析到隐式分析
对小型和简单数据的数据分析以及假设检验已经转移到对大型和复杂数据的分析,以便获得无假设的知识和洞察力的发现。分析的重要性和创新性比以往任何时候得到了更好的认可吧呢,什么是概念地图和数据分析的演变呢?
随着分析技术的升级,数据和分析的可见度越来越低,自动化数据分析的水平也越来越低。随着数据复杂性的增加,可用的功能就会减弱。分析的目标是提高数据理解、生产和应用的可见性、自动化和能力水平。数据分析所涉及的数据复杂度和智能程度的提高,是从低级分析到高级分析的转变。
在执行分析任务时可能涉及到许多典型的分析方法和组件,包括报告、统计分析、预警、预测、建模、优化、规范分析和可操作的知识交付等等。分析方法之间可能有不同的焦点和联系。例如,当预测侧重于对未来可能性的概率估计时,它可能被用作一种预测方法,而预测又可能涉及估计结果的目标。
显式分析专注于描述性分析,典型方法包括报告、统计分析、告警和预测。隐式分析的时代则侧重于深度分析,分析方法是预测建模、优化、规范性分析和可操作的知识交付。
通常,在分析团队中采用来回迭代的方法,多个分析组件可能并行地参与,以探索多方面的观察和理解。
典型的要素和任务侧重于明确的描述性分析,具有以下特点:
目标是确定和描述数据和业务问题的分布、产生和趋势;
问题的本质知道应该用基于假设的方法分析什么,以及分析的目的是什么;
方法是领域驱动的分析,从领域专门知识和专家那里获得假设; 数据分析检验这些假设,验证并解释这些假设;
结果可以从数学和统计学以及计算中获得。这些方法描述和呈现已经发生的、正在发生的或者将要发生的事情。
深度分析获得了对事情发生、正在发生或将要发生的原因和方式的深入理解。这些原因和方法不能通过描述性分析来解决,可以决定下一个最好或最坏的情况,并设计出最佳的干预策略。
目标是从可见和不可见的来源获得对数据和业务的潜在问题;
问题的本质是不知道要分析什么,甚至不知道为什么要分析,也不知道能得到什么;
方法从数据中学习有趣但隐藏的见解; 数据创造了看不见的视角,并解释看不见的原因或指标,以补充领域驱动的假设和观察;
结果是从数据、行为和环境中获得对数据和业务中已经发生、正在发生或将要发生的事情的深入、内在和全面的洞察力、知识和智慧。
4.3 向规范性分析的转变
从数据分析到数据科学的范式转变构成了数据驱动的发现。分析实践经历了三个主要阶段的重大范式转变: 描述性分析和报告,预测和商业分析,以及规范性分析和决策制定。
描述性分析和业务报告的主要工作是进行明确的分析,主要通过使用现成的工具和内置的算法来实现。由仪表板和自动化流程生成的业务报告是将分析结果传递给管理层的手段。
预测和商业分析主要致力于隐式分析,侧重于预测建模和商业分析,更多是应用预测,数据挖掘和机器学习工具的商业理解。模式、评分和调查结果通过仪表盘和分析报告呈现给管理层。
规范性分析和决策制定是通过从复杂的数据、行为和环境中发现隐形的知识和可操作的见解,从而为商业决策提供最佳行动建议。这是通过开发创新和有效的定制算法和工具来实现的,以深入和真正理解特定领域的数据和业务。因此,规范性的决策策略和业务规则被传播给决策者,以便采取相应的行动。
5 数据创新的挑战
特定领域的数据应用所面临的挑战和问题分为五个主要领域:
数据和业务理解方面的挑战是识别、规范化、表示和量化综合的复杂性。问题是要了解它们以何种形式、在何种层次、在何种程度上存在,并了解各自的复杂性和智力如何相互作用和整合。
数学和统计基础方面的挑战是发现和探索现有的理论基础为什么不够充分或者缺失,以及在揭示、描述、表达和捕捉复杂性以及获得可见解方面存在的问题。
数据分析和知识工程方面的挑战在于发展特定领域的分析理论、工具和系统,它们将代表、实现和管理相关的数据、知识和智能,并支持大数据存储和管理、行为和事件处理。
社会问题的挑战是确定、明确和尊重与特定领域的数据和业务理解以及数据科学有关的社会问题,包括处理和保护隐私、安全和信任,以及使基于社会问题的数据科学任务成为可能。
数据价值、影响和可用性方面的挑战是从技术、业务、主观和客观的角度,识别、量化和评估特定领域数据的价值、影响、效用和可用性。
数据决策方面的挑战是需要发展决策支持理论和系统,以便能够产生数据驱动的决策,实现从洞察到决策的转变以及数据驱动的决策管理和治理。
数据分析和知识工程方面的挑战涉及许多尚未得到适当解决的具体研究问题,例如:
行为和事件的处理: 如何捕获、存储、建模、匹配、查询、可视化和管理行为和事件及其属性、行为序列以及个人和团体在物理世界中的行为和事件的影响和演变。
数据存储和管理系统: 如何设计有效和高效的存储和管理系统,以处理大容量、高速度和高速度的大数据多样性,并支持实时、在线的动态分析处理以及如何在基于互联网(包括云)的环境中存储这些数据。
提高数据质量: 如何处理现有的数据质量问题,例如噪音、不确定性、缺失数值,以及由于数据的规模、范围和复杂程度显著增加而可能出现的数据倾斜。同时,如何处理在大数据和基于互联网的数据/业务环境中出现的新问题,如跨组织、跨媒体、跨文化和跨经济机制的数据科学问题。
数据建模、学习和挖掘: 如何建模、学习、分析和挖掘具有综合复杂性和智能的嵌入式数据。
深度分析、学习和发现: 如何发现隐藏的未知知识和智能,此外,如何将通用学习模型与特定领域的数据复杂性和智能驱动的知识学习相结合,提出一种基于数据驱动和模型的问题解决方法。
模拟和实验设计: 如何模拟数据和业务的复杂性和工作机制、过程、动态性以及进化,以及如何设计实验并探索某些数据驱动的决策和行动在企业中的后续影响。
高性能处理和分析: 如何支持大规模、实时、在线、高频率、基于互联网(包括基于云计算)的跨组织数据处理和分析,同时平衡地方和全球资源的参与目标。这需要新的批处理、阵列、内存、磁盘存储、处理技术和系统,以及大规模并行处理、分布式/并行和高性能处理基础设施,以及基于云的处理和存储。它还需要大量复杂的矩阵运算,混合的数据结构和管理系统,以及从数据到知识的管理。
分析和计算结构及基础设施: 如何通过有效的分析和计算结构以及基于内存、磁盘、云和基于互联网的资源和设施的基础设施来促进任务和进程的预处理。
网络化、通信化和互操作化: 如何支持分布式数据科学团队中不同角色之间的网络化和通信化,以及在解决问题的整个过程中的互操作化。这需要对项目、数据、目标、任务、模型、结果、工作流、任务调度、版本控制、报告和治理进行分布式协同管理。
需要采用系统的跨学科方法来处理上述问题,可能涉及发展多个研究学科和领域的协同作用,它还可能涉及业务和社会方面,包括行业转型、企业信息系统、商业智能、业务流程管理、项目管理、信息安全、信任和声誉、隐私处理、业务影响模型、业务价值和效用评估。需要采取跨学科举措,以弥合各学科之间的差距,以解决单一学科无法解决的问题中的关键复杂性。
6. 数据经济的产业化和服务
数据科学新一代经济的创新、竞争和生产力 ,通过创造数据产品、数据经济和数据服务,新商业机会已经成为可能。
6.1 数据行业
数据产业正在成型,主要动力来自六个核心领域: 数据/分析设计、数据/分析内容、数据/分析软件、数据/分析基础设施、数据/分析服务和数据/分析教育。
数据/分析设计包括发明设计和生产数字和数据产品、服务、业务模式、业务模式、通信模式、定价模式、经济形式、增值数据产品/服务、决策支持系统、自动化系统和工具的新方法和新途径;
数据/分析内容包括通过在线、移动、社交媒体平台等渠道获取、制作、维护、发布、发布、推荐和展示以数据为中心的内容;
数据/分析软件是指创建软件、平台、架构、服务、工具、系统和应用程序,以获取、组织、管理、分析、可视化、使用和展示数据,用于特定的业务和科学目的,并提供质量保证以支持这些方面;
数据/分析基础设施涉及为数据存储、备份、服务器收入、数据中心、数据管理和存储、云、分布式和并行计算基础设施、框架内高性能计算、网络、通信和安全创建基础设施和设备;
数据/分析服务的重点是提供战略和战术思维领导、技术和实际咨询服务、以问题为导向的解决方案和应用、外包,以及数据审计和质量提高、数据收集、提取、转换和装载、推荐、数据接收/基础设施托管、数据分析等方面的具体服务;
数据/分析教育有助于建立机构能力和培训,并提供在线/离线/以学位为基础的课程,以填补合格数据专业人员供应方面的空白,从而有助于建立和加强这一学科的社区。
新的数据业务可能这些方面增长: 数据储存及管理、理解、处理、优化、增值机会、运输及通讯、服务及决策支援。特别是数据密集型领域和部门,如电信、政府、金融、银行、资本市场、生活方式和教育。对于制造业和生活业务,将更好地收集,管理和使用数据。
数据行业可能会创造新的商业模式、产品、服务、运营模式和劳动力模式,数据经济将进一步改变我们的生活、工作、学习和娱乐方式。
6.2 数据服务
数据服务是整个数据和分析领域的一部分,正在改变我们生活的方方面面——
数据服务是经济的核心业务,而不是辅助业务。
数据驱动的决策成为复杂决策和战略规划的大型组织的核心功能,而不是附属设施。
数据服务包括网上、移动和社交服务,并已嵌入我们的活动。
数据业务是全球性的,全天候不间断,可在任何时间任何地点按需求或以供应驱动模式提供服务。
提供数据的服务不需要传统的生产元素,例如工厂。
数据驱动的服务提供实时公共服务、高性能处理、分析和决策。
数据驱动的服务支持全生命周期分析,从预测、检测到预防风险的描述性、预测性和规范性分析,再到创新和优化。
数据服务能够实现跨媒体、跨来源和跨组织的创新和实践。
数据服务通过提供可采取行动的知识/见解,可大幅节省费用和提高效率。
下面列举了一些通过分析为核心业务和新经济提供的典型数据服务——
信用评分: 确定申请贷款的客户的信用可靠性。
欺诈侦查: 识别欺诈交易和可疑行为。
医疗保健: 检测服务过度、服务不足、欺诈和流行病等事件;
保险: 发现欺诈性索赔并评估风险。
制造过程分析: 找出制造中问题的原因并优化过程。
营销和销售: 确定潜在客户并确定活动的有效性。
投资组合交易: 通过最大化收益和最小化风险来优化金融工具组合。
监控: 通过多传感器和遥感来探测入侵、对象和人员联系。
了解客户行为: 为客户流失、亲和力、倾向和干预行为的次佳行动建立模型。
网络分析: 根据用户的喜好建立数据模型,设计并提供个性化和有针对性的服务。
数据行业的一个主要挑战是为跨国公司和整个政府等组织提供全球或基于互联网的数据服务,数据驱动的行业和服务正在形成商业数据科学的新趋势。
7 数据科学中的角色职责和相关能力
越来越多的行业和政府组织认识到数据对决策的价值,并设立了具体的数据科学家角色,以支持数据科学和工程,例如,首席数据官(CDO)、首席分析师、数据建模师以及数据工程师和业务分析师等。
数据科学家的作用在多年前就已经得到承认,在就业市场上,数据科学家受到大多数企业的欢迎。数据科学家的薪水比其他与数据相关的工作要高得多,那么,数据科学家的角色和职责是什么呢?数据科学家有时被定义为“来自信息或计算机科学背景,但理解一个领域,并可能为该领域做数据决策,关注数据生命周期的所有部分,并推进数据科学的科学家”。
在商业领域,跨国公司、社交媒体和在线社区以及信息提供商,都对数据科学家的角色和责任,以及如何成为一名优秀的数据科学家表现出了极大的兴趣。越来越多的学术和研究机构正在努力确定下一代数据科学家的认证和资格认可。这反映在一般和特定领域的数据科学硕士和博士资格课程中,如数据分析学博士和SCM预测分析硕士学位等。
典型的职责可能包括:
了解商业问题范畴、与商业专家和决策者交谈,以了解商业目标、要求和偏好、组织面临的问题和制约因素; 了解组织的成熟度; 确定、说明和界定问题、边界和环境,以及挑战; 编制商业报告。
确定和具体说明诸如隐私和安全等社会和道德问题。
了解数据的特点和复杂性; 查明数据的问题和缺陷; 编制数据理解报告; 通过制定各自的项目计划,确定分析目标和里程碑,制定议程和管理计划。
建立与分析目标相对应的工程和分析流程,将业务和数据转化为信息,将信息转化为洞察力,并通过制定发现、升级和部署相关数据情报的技术计划,将洞察力转化为业务决策。
将业务问题转化为分析任务,并通过开发相应的技术、模型、方法、算法、工具和系统、数据科学的实验设计和评价、产生更好的实践经验、进行描述性、预测性和规范性分析、进行调查研究以及支持可视化和演示,进行高级分析。
基于对数据特征和复杂性的理解,提取、分析、构造、挖掘和选择鉴别特征,不断优化和创新新变量,以实现最佳问题表示和建模,必要时进行数据质量提高。
结合分析、统计、算法、工程和技术技能,通过涉及上下文信息挖掘相关数据; 发明新颖有效的模型,不断改进建模技术,以优化和提高模型性能,并寻求实现最佳实践。
维护、管理和完善项目过程、可交付性、评估、风险和报告,以建立积极的生命周期管理。
开发相应的服务、解决方案和产品或模块,以便在用户指定的编程语言、框架和基础设施或开放源码工具和框架之上提供系统服务。
维护数据和成果的隐私、安全和准确性。
在整个生命周期中,并从复杂的数据或算法中得出简单的结论; 向客户提供情景分析和对需要改进的领域的深入洞察; 在最终部署中转化为业务改进行动。
提出执行摘要,其中包括准确和基于证据的建议和风险管理战略,特别是针对决策者和企业所有者的建议和战略。
为了满足前面的要求,数据科学家除了分析技能之外,还需要具备一定的能力,包括:
分析、创造、批判和好奇的思考、心态和思考能力。
自上而下和自下而上解决问题的复杂方法和知识。
计算机科学、统计学、数学、分析学、数据科学、信息学、工程学、物理学、运筹学、模式识别、人工智能、可视化、信息检索或相关领域的硕士或博士。
深入了解常用的统计学、数据挖掘和机器学习的方法和模型。
能够实现、维护和检验大数据基础设施,如云计算、高性能计算基础设施、分布式处理、流处理和数据库。
具有人机交互、可视化和知识表示与管理的知识;
软件工程背景(包括系统设计和分析) 和质量保证。
有在网络和分布式环境中处理大型数据集、混合数据类型和数据源的经验。
有数据提取和处理、特征理解和关系分析的经验。
有科学、技术、社会和生命科学等多学科和跨学科的研究方法。
在 Linux、云或分布式环境中具有使用分析脚本、数据结构、编程语言和开发平台的丰富经验。
评价分析结果的技术和商业价值的理论背景及领域知识。
书面和口头沟通能力,为不同的客户编写和编辑分析材料和报告的能力,将分析概念和结果转化为有利于业务的解释能力; 向非技术客户传达见解的能力,以及在数据驱动的决策方面的经验。
8. 数据科学的未来
数据科学在未来是什么样子的争论仍在继续,一般的共识是,数据科学作为一门独立的科学,将建立其系统的科学基础、学科结构、理论体系、技术家族和工程工具集。
基于对数据科学的内在挑战和理解 ,数据科学的发展可能:
设计和开发能够自主模仿人脑工作机制的数据大脑,以识别、理解、分析和学习数据和环境,推断和推理知识和洞察力,并相应地决定行动。
深化对数据不可见性的理解,特别是了解复杂性和多模态智能。
通过综合跨学科研究,拓宽数据科学的概念、理论和技术体系。这将解决现有的问题,如统计假设的差异,并将发现和提出目前广泛的科学或具体领域看不到的问题。
发明新的数据表示能力,包括设计、结构、模式和算法,使复杂数据中不可见的数据复杂性和未知特征更加显而易见,更容易理解或探索。
设计新的存储、访问和管理机制,包括内存、磁盘和基于云的机制,以便能够获取、存储、访问、采样和管理现有系统的物理世界中更丰富的特性和属性,并支持可扩展、灵活、可解释和个性化的实时数据操作和分析。
建立新的分析和学习能力,包括数学、统计和分析理论、算法和模型,以揭示未知空间中的未知知识。
建立新的智能系统和服务,包括企业和基于互联网的协作平台和服务,以支持在未知空间对无形和未知领域的数据协作和集体探索。
培训下一代数据科学家和数据专业人员,包括数据读写能力、思维能力、能力、意识、好奇心、沟通能力和认知能力。
在解决复杂数据科学问题时,确保跨领域和跨学科的合作、协作和联盟。
发现和发明当前认识和创新未知的数据能力,例如新的数据经济、移动应用、社会应用和数据驱动的业务。
9.小结
数据科学已经越来越多地被认为是下一代创新经济的主要驱动力,该领域对社会的健康发展非常重要。一个高度发展的数据世界无缝地连接到我们的生活、工作、学习、经济和娱乐中。政府、工业界和学术界正在越来越多地作出新的努力,探讨如何将数据转换为决策数据,并促进数据科学的研究和发展。下一代数据科学在很大程度上依赖于将在优先数据的战略规划,“为什么需要数据科学”将是取而代之的是一系列科学理论和工具,以解决我们面临的大数据、科学、商业、社会和经济的重大问题。
【参考资料与关联阅读】
http://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf
https://cacm.acm.org/magazines/2017/8/219605-data-science/fulltext
https://zhuanlan.zhihu.com/p/97523127
https://www.datasciencecentral.com/
https://www.reddit.com/r/datascience/