大数据不就是写SQL吗?-技术圈

点击下方“JavaEdge”，选择“设为星标”

第一时间关注技术干货！

免责声明~

任何文章不要过度深思！

万事万物都经不起审视，因为世上没有同样的成长环境，也没有同样的认知水平，更「没有适用于所有人的解决方案」；

不要急着评判文章列出的观点，只需代入其中，适度审视一番自己即可，能「跳脱出来从外人的角度看看现在的自己处在什么样的阶段」才不为俗人。

怎么想、怎么做，全在乎自己「不断实践中寻找适合自己的大道」

1 炸一听

恰恰相反。根据大部技术人相对朴素的认知，大数据就是Hadoop，写的不是SQL，是MapReduce，是Java。或者Python，或其他。OLTP数据库，才是非SQL不可！

2 更深入的

什么是SQL？什么是数据库？

什么是JAVA？什么是Scala？什么是Hadoop？

什么叫ETL？什么叫数据仓库？

什么叫数据标签？什么叫算法？

什么叫数据中台？什么叫数据中心？

什么叫分析方法？什么叫决策支持？什么叫数据挖掘？

还是不要说那么多了，根本学不完！

3 大数据能找到啥工作？

各领域都能找到！包括金融、零售、医疗、科技、政府...

金融

银行和金融机构可以用大数据分析客户的信用评分、风险管理、欺诈检测和投资策略。通过对交易数据、市场数据和客户行为进行分析，金融机构能够更好地管理风险并为客户提供个性化分服务。

医疗

大数据在医疗领域的应用包括疾病预测、患者分层、药物研发、医疗保健服务优化。通过分析患者的基因数据、生活方式和病史，医生可以提前预测疾病风险并定制个性化的治疗计划。

零售

大数据分析消费者购买记录、网上搜索行为和社交媒体活动，以便更好地了解消费者需求，优化产品组合和定制有效的市场营销策略。

制造

制造商使用大数据分析设备的传感器数据、生产过程中的质量控制数据和供应链数据，以提高生产效率、降低成本和确保产品质量。

交通

通过分析交通流量数据、道路状况和公共交通数据，交通部门可以更好地规划城市基础设施、优化交通流量和减少拥堵。

政府

政府机构使用大数据分析来改善公共服务、预测和应对自然灾害、制定政策和打击犯罪。例如，通过分析犯罪数据、人口统计数据和社会经济数据，执法部门可以预测犯罪热点并部署资源以提高治安水平。

4 大数据相关职位

大数据工程师

负责构建、维护和优化大数据基础设施和数据处理管道。大数据工程师需要熟悉分布式系统、数据库技术和数据处理框架（如Hadoop、Spark等），并具备编程能力。

数据科学家

运用统计学、机器学习、数据可视化和其他高级技术，为组织提供洞察力并支持业务决策。数据科学家需要具备统计学、编程和领域知识，以及良好的沟通和解决问题的能力。

数据分析师

负责收集、整理和分析数据，以识别业务趋势、市场行为和消费者偏好等。数据分析师需要熟悉数据分析工具（如Excel、SQL等）、统计学和可视化技术，并具备批判性思维]和沟通能力。

机器学习工程师

负责开发、训练和部署机器学习模型，以解决实际问题。机器学习工程师需要熟悉机器学习算法、编程语言（如Python、R等）和深度学习框架（如TensorFlow、PyTorch等）。

数据可视化专家

将数据转化为易于理解的图表、图形和仪表板，以便向非技术人员传达数据洞察。数据可视化专家需要掌握可视化工具（如Tableau、D3.js等）和设计原则，并具备良好的沟通能力。

数据架构师

设计和实施数据管理系统，以满足组织的数据需求和业务目标。数据架构师需要熟悉数据库技术、数据仓库、数据集成和数据治理等领域。

数据产品经理

负责规划、开发和管理基于数据的产品和服务。数据产品经理需要具备数据分析、项目管理和市场营销等多方面的技能。

所以！大数据专业人士需要具备一定的编程、统计、领域知识和沟通能力，以便在这个领域取得成功。

5 大数据技术栈

大数据技术栈包括许多不同的工具和框架，用于处理、存储和分析大量数据。以下是一些常见的大数据技术栈组件：

数据存储和处理

Hadoop：一种分布式数据处理框架，用于存储和处理大量数据。Hadoop包括HDFS（Hadoop Distributed FileSystem）用于存储数据，以及MapReduce用于处理数据。

Apache Spark：一种快速的大数据处理引擎，比Hadoop MapReduce更高效。Spark支持批处理和流处理，并提供了用于机器学习和图计算的库。

Flink：一种分布式流处理框架，用于实时数据处理。

数据库和数据仓库

NoSQL数据库：如MongoDB、Cassandra和Couchbase等，用于存储非结构化和半结构化数据。

列式数据库：如Apache HBase和Google Bigtable等，用于存储和查询大量数据。

数据仓库：如Amazon Redshift、Snowflake和Google BigQuery等，用于存储和分析大量结构化数据。

数据集成和ETL（提取、转换、加载）

Apache NiFi：一种数据集成工具，用于从多种数据源提取、转换和加载数据。

Apache Kafka：一种分布式流处理平台，用于实时数据传输和处理。

Talend：一种数据集成和ETL工具，用于数据预处理和管道构建。

机器学习和数据挖掘

Scikit-learn：一个用于Python的机器学习库，提供了许多常用的机器学习算法。

TensorFlow：一个开源的机器学习框架，由Google开发，主要用于深度学习。

PyTorch：一个开源的机器学习框架，由Facebook开发，主要用于深度学习。

XGBoost：一种高效的梯度提升决策树算法，用于监督学习任务。

数据可视化

Tableau：一种商业智能和数据可视化工具，用于创建仪表板和报告。

Power BI：一种由Microsoft开发的数据可视化和商业智能工具。

D3.js：一个用于JavaScript的数据驱动文档库，用于创建复杂的数据可视化。

编程语言

Python：一种广泛用于数据科学和大数据领域的编程语言，拥有丰富的库和社区支持。

R：一种专注于统计计算和图形展示的编程语言，常用于数据分析和可视化。

Scala：一种兼容Java的编程语言，常用于Apache Spark

数据管道和工作流调度

Apache Airflow：一种用于创建、调度和监控数据管道的工具，可以通过Python脚本来定义任务。

Luigi：一个由Spotify开发的Python库，用于构建复杂的数据管道和工作流。

Apache Beam：一种用于构建批处理和流处理数据管道的统一编程模型。

分布式计算平台

Kubernetes：一种容器编排平台，用于部署、扩展和管理容器化应用程序，支持大数据应用的弹性部署。

Mesos：一种分布式计算资源管理和调度平台，用于部署大数据应用和容器化服务。

数据湖和数据治理：

Apache Hudi：一种用于构建和管理大数据湖的开源库，支持增量处理和实时查询。

Delta Lake：一个用于构建数据湖的开源存储层，提供了事务、版本控制和数据质量管理等功能。

Apache Atlas：一个数据治理和元数据管理工具，用于跟踪数据资产、数据血缘和数据生命周期。

实时分析和流处理：

Apache Storm：一种分布式实时计算系统，用于处理大量数据流。

Apache Samza：一种分布式流处理框架，用于实时数据分析和事件驱动应用。

写在最后

公众号：JavaEdge 专注分享软件开发全生态相关技术文章、视频教程资源、热点资讯等，如果喜欢我的分享，给 🐟🐟 点一个赞 👍 或者 ➕关注 都是对我最大的支持。

欢迎长按图片加好友，我会第一时间和你分享软件行业趋势，面试资源，学习途径等等。

添加好友备注【技术群交流】拉你进技术交流群

关注公众号后，在后台私信：

回复【架构师】，获取架构师学习资源教程

回复【面试】，获取最新最全的互联网大厂面试资料

回复【简历】，获取各种样式精美、内容丰富的简历模板

回复 【路线图】，获取直升Java P7技术管理的全网最全学习路线图

回复 【大数据】，获取Java转型大数据研发的全网最全思维导图

更多教程资源应有尽有，欢迎关注，慢慢获取