Py4DS|1数据科学基础

数据科学与人工智能

共 2014字,需浏览 5分钟

 ·

2021-10-08 20:46

PyDS|1数据科学基础


内容结构:

1 数据是什么

2 数据的类型

3 数据科学是什么

4 数据科学家是谁

5 数据科学家技能栈

6 数据科学应用场景

7 数据科学常用术语

8 为什么学习Py4DS

9 总结


目标管理:

阅读本文后,你可以收获

1 理解数据的类型

2 感受世界里每天产生大量的数据

3 发现数据科学应用广泛,数据科学工作者有巨大需求

4 认识到为什么用Python做数据科学


01

数据是什么


我以2021年9月1日实施的《数据安全法》来回答这个问题。

数据是指任何以电子或者其他方式对信息的记录。


数据无处不在,无处不有。

如今这世界,数据与人共存。我们一方面是数据的生产者,在诸多场景中,产生了各种数据,比方说个人信息、交易信息、行为信息 等;另一方面也是数据的消费者,使用各种数据来做分析、思考、行动、决策、复盘、迭代 和优化等。


为了更具体认识数据,我们可以看下数据的类型。


02

数据的类型


我从数据的结构入手,可以把数据分为以下三类,也是我们习以为常的类型。


1 结构化数据


类似数据库的表和电子表格数据。它们是以表格的形式组织好的数据集。包括行和列之分。行可以称为记录、观察、实例、样本;列可以称为字段、变量、属性、特征。结构化数据集占据世界数据集5%~10%的比例。如图1, iris数据集的一部分。

图1 iris数据集前6行


2 非结构化数据

现实中,非结构化数据集占据绝大多数,约为世界数据集的80%。它种类丰富,包括文本数据、声音数据、图像数据、视频数据、网络数据、社交数据等。非结构化数据的处理、分析和应用,需要更先进的技术和更强大的工具。如图2,非结构数据类型。

图2 非结构数据种类



3 半结构化数据

半结构化数据介于结构化数据和非结构数据之间,我们熟悉的JSON数据,各种标记语言,分隔符数据集等,可以当作半结构化数据。如图3,JSON数据的例子。

图3 JSON数据


面对这三大类结构的数据集,请想下这些问题。

1)你常用哪些类型的数据集?

2)你擅长用哪些类型的数据集?

3)每种类型的数据集,要从中提取信息和知识,需要什么工具和技能?

4)每种类型的数据集,如何做存储和计算?


03

数据科学是什么


基于数据驱动做决策,逐渐成为数字世界里行动的共识和指南。这为数据科学提供机会。


世界数据集每天疯狂地增长,类型丰富,门类繁多。数据集背后的知识、模式和规律,需要我们去探索、挖掘和提炼。这为数据科学搭建了大舞台。


数据科学是从原始数据集中提取知识和洞见的科学和领域。


数据科学会与多学科有交集,它会用到数学、统计学、计算机科学、编程语言、商业知识等。


04

数据科学家是谁


我把那些掌握数据科学技能,能够从数据中提取知识和洞见的人群,称为数据科学家。


这样的一群人,分布于各行各业,热衷于选择数据来回答和解决问题并创造价值。


05

数据科学家技能栈


一名数据科学家,需要具备哪些技能呢?

如图4,现代数据科学的技能栈。

图4 现代数据科学技能栈(点击图片,放大查看更清晰)


对于这个现代数据科学技能栈,可以想3个问题。

1)自己已经掌握了哪些技能?

2)自己正在掌握哪些技能?

3)自己未来计划掌握哪些技能?


06

数据科学应用场景


数据科学应用场景,非常多。

谷歌的搜索引擎,腾讯的朋友圈广告,Facebook的好友推荐,百度的无人驾驶车,亚马逊的商品个性化推荐,蚂蚁集团的芝麻信用分等。

凡是有数据出没的地方,就会有数据科学应用的场景。数据科学+,会在这数据时代、数字世界、数字化转型的背景下,遍地开花、大显神通。


07

数据科学常用术语


我罗列10个数据科学常用术语,欢迎大家补充和完善。

1)数据(大数据)

2)数据科学

3)数据科学家

4)机器学习

5)统计学

6)数据决策

7)数据可视化

8)数据质量

9)数据挖掘

10)数据平台


08

为什么学习Py4DS?


一方面,Py4DS具有一个活跃生态和组织,全世界千千万万的人们在学习和应用它,从世界上各种数据集提取知识和洞见。

另一方面,Python简单、易学、好用;开源、免费、灵活。Python解决数据科学问题时,既是有效的,也是高效的。



09

总结


大家都可以做数据科学家,掌握数据科学技能,选择用数据解决问题。

我们需要做的就是坚持“学习-应用-持续”这个模式,换而言之,就是坚持学习Py4DS,坚持应用Py4DS,并且把它持续化。


下一节,数据科学工作环境的搭建。


我创建了Py4DS群,欢迎扫描下方二维码,添加我的微信,备注:Py4DS我诚邀你加入Py4DS群。大家一起学习和讨论,共同进步和增进。

Py4DS专栏

1Py4DS|0前言


如果你觉的文章内容有用,请关注下方公众号~

觉得本文不错,请顺手转发到朋友圈和微信群哦,谢谢。

浏览 53
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报