大数据不就是写SQL吗?
共 5190字,需浏览 11分钟
·
2023-08-01 08:40
点击下方“JavaEdge”,选择“设为星标”
免责声明~
任何文章不要过度深思!
万事万物都经不起审视,因为世上没有同样的成长环境,也没有同样的认知水平,更「没有适用于所有人的解决方案」;
不要急着评判文章列出的观点,只需代入其中,适度审视一番自己即可,能「跳脱出来从外人的角度看看现在的自己处在什么样的阶段」才不为俗人。
怎么想、怎么做,全在乎自己「不断实践中寻找适合自己的大道」
1 炸一听
恰恰相反。根据大部技术人相对朴素的认知,大数据就是Hadoop,写的不是SQL,是MapReduce,是Java。或者Python,或其他。OLTP数据库,才是非SQL不可!
2 更深入的
什么是SQL?什么是数据库?
什么是JAVA?什么是Scala?什么是Hadoop?
什么叫ETL?什么叫数据仓库?
什么叫数据标签?什么叫算法?
什么叫数据中台?什么叫数据中心?
什么叫分析方法?什么叫决策支持?什么叫数据挖掘?
还是不要说那么多了,根本学不完!
3 大数据能找到啥工作?
各领域都能找到!包括金融、零售、医疗、科技、政府...
金融
银行和金融机构可以用大数据分析客户的信用评分、风险管理、欺诈检测和投资策略。通过对交易数据、市场数据和客户行为进行分析,金融机构能够更好地管理风险并为客户提供个性化分服务。
医疗
大数据在医疗领域的应用包括疾病预测、患者分层、药物研发、医疗保健服务优化。通过分析患者的基因数据、生活方式和病史,医生可以提前预测疾病风险并定制个性化的治疗计划。
零售
大数据分析消费者购买记录、网上搜索行为和社交媒体活动,以便更好地了解消费者需求,优化产品组合和定制有效的市场营销策略。
制造
制造商使用大数据分析设备的传感器数据、生产过程中的质量控制数据和供应链数据,以提高生产效率、降低成本和确保产品质量。
交通
通过分析交通流量数据、道路状况和公共交通数据,交通部门可以更好地规划城市基础设施、优化交通流量和减少拥堵。
政府
政府机构使用大数据分析来改善公共服务、预测和应对自然灾害、制定政策和打击犯罪。例如,通过分析犯罪数据、人口统计数据和社会经济数据,执法部门可以预测犯罪热点并部署资源以提高治安水平。
4 大数据相关职位
大数据工程师
负责构建、维护和优化大数据基础设施和数据处理管道。大数据工程师需要熟悉分布式系统、数据库技术和数据处理框架(如Hadoop、Spark等),并具备编程能力。
数据科学家
运用统计学、机器学习、数据可视化和其他高级技术,为组织提供洞察力并支持业务决策。数据科学家需要具备统计学、编程和领域知识,以及良好的沟通和解决问题的能力。
数据分析师
负责收集、整理和分析数据,以识别业务趋势、市场行为和消费者偏好等。数据分析师需要熟悉数据分析工具(如Excel、SQL等)、统计学和可视化技术,并具备批判性思维]和沟通能力。
机器学习工程师
负责开发、训练和部署机器学习模型,以解决实际问题。机器学习工程师需要熟悉机器学习算法、编程语言(如Python、R等)和深度学习框架(如TensorFlow、PyTorch等)。
数据可视化专家
将数据转化为易于理解的图表、图形和仪表板,以便向非技术人员传达数据洞察。数据可视化专家需要掌握可视化工具(如Tableau、D3.js等)和设计原则,并具备良好的沟通能力。
数据架构师
设计和实施数据管理系统,以满足组织的数据需求和业务目标。数据架构师需要熟悉数据库技术、数据仓库、数据集成和数据治理等领域。
数据产品经理
负责规划、开发和管理基于数据的产品和服务。数据产品经理需要具备数据分析、项目管理和市场营销等多方面的技能。
所以!大数据专业人士需要具备一定的编程、统计、领域知识和沟通能力,以便在这个领域取得成功。
5 大数据技术栈
大数据技术栈包括许多不同的工具和框架,用于处理、存储和分析大量数据。以下是一些常见的大数据技术栈组件:
数据存储和处理
-
Hadoop:一种分布式数据处理框架,用于存储和处理大量数据。Hadoop包括HDFS(Hadoop Distributed FileSystem)用于存储数据,以及MapReduce用于处理数据。 -
Apache Spark:一种快速的大数据处理引擎,比Hadoop MapReduce更高效。Spark支持批处理和流处理,并提供了用于机器学习和图计算的库。 -
Flink:一种分布式流处理框架,用于实时数据处理。
数据库和数据仓库
-
NoSQL数据库:如MongoDB、Cassandra和Couchbase等,用于存储非结构化和半结构化数据。 -
列式数据库:如Apache HBase和Google Bigtable等,用于存储和查询大量数据。 -
数据仓库:如Amazon Redshift、Snowflake和Google BigQuery等,用于存储和分析大量结构化数据。
数据集成和ETL(提取、转换、加载)
-
Apache NiFi:一种数据集成工具,用于从多种数据源提取、转换和加载数据。 -
Apache Kafka:一种分布式流处理平台,用于实时数据传输和处理。 -
Talend:一种数据集成和ETL工具,用于数据预处理和管道构建。
机器学习和数据挖掘
-
Scikit-learn:一个用于Python的机器学习库,提供了许多常用的机器学习算法。 -
TensorFlow:一个开源的机器学习框架,由Google开发,主要用于深度学习。 -
PyTorch:一个开源的机器学习框架,由Facebook开发,主要用于深度学习。 -
XGBoost:一种高效的梯度提升决策树算法,用于监督学习任务。
数据可视化
-
Tableau:一种商业智能和数据可视化工具,用于创建仪表板和报告。 -
Power BI:一种由Microsoft开发的数据可视化和商业智能工具。 -
D3.js:一个用于JavaScript的数据驱动文档库,用于创建复杂的数据可视化。
编程语言
-
Python:一种广泛用于数据科学和大数据领域的编程语言,拥有丰富的库和社区支持。 -
R:一种专注于统计计算和图形展示的编程语言,常用于数据分析和可视化。 -
Scala:一种兼容Java的编程语言,常用于Apache Spark
数据管道和工作流调度
-
Apache Airflow:一种用于创建、调度和监控数据管道的工具,可以通过Python脚本来定义任务。 -
Luigi:一个由Spotify开发的Python库,用于构建复杂的数据管道和工作流。 -
Apache Beam:一种用于构建批处理和流处理数据管道的统一编程模型。
分布式计算平台
-
Kubernetes:一种容器编排平台,用于部署、扩展和管理容器化应用程序,支持大数据应用的弹性部署。 -
Mesos:一种分布式计算资源管理和调度平台,用于部署大数据应用和容器化服务。
数据湖和数据治理:
-
Apache Hudi:一种用于构建和管理大数据湖的开源库,支持增量处理和实时查询。 -
Delta Lake:一个用于构建数据湖的开源存储层,提供了事务、版本控制和数据质量管理等功能。 -
Apache Atlas:一个数据治理和元数据管理工具,用于跟踪数据资产、数据血缘和数据生命周期。
实时分析和流处理:
-
Apache Storm:一种分布式实时计算系统,用于处理大量数据流。 -
Apache Samza:一种分布式流处理框架,用于实时数据分析和事件驱动应用。
写在最后
公众号
:JavaEdge
专注分享软件开发全生态相关技术文章
、视频教程
资源、热点资讯等,如果喜欢我的分享,给 🐟🐟 点一个赞
👍 或者 ➕关注
都是对我最大的支持。
欢迎长按图片加好友
,我会第一时间和你分享软件行业趋势
,面试资源
,学习途径
等等。
添加好友备注【技术群交流】拉你进技术交流群
关注公众号后,在后台私信:
-
回复【架构师】,获取架构师学习资源教程 -
回复【面试】,获取最新最全的互联网大厂面试资料 -
回复【简历】,获取各种样式精美、内容丰富的简历模板 -
回复 【路线图】,获取直升Java P7技术管理的全网最全学习路线图 -
回复 【大数据】,获取Java转型大数据研发的全网最全思维导图 -
更多教程资源应有尽有,欢迎 关注,慢慢获取