大数据不就是写SQL吗?

JavaEdge

共 5190字,需浏览 11分钟

 · 2023-08-01


点击下方“JavaEdge”,选择“设为星标

第一时间关注技术干货!

免责声明~

任何文章不要过度深思!

万事万物都经不起审视,因为世上没有同样的成长环境,也没有同样的认知水平,更「没有适用于所有人的解决方案」

不要急着评判文章列出的观点,只需代入其中,适度审视一番自己即可,能「跳脱出来从外人的角度看看现在的自己处在什么样的阶段」才不为俗人

怎么想、怎么做,全在乎自己「不断实践中寻找适合自己的大道」

1 炸一听

恰恰相反。根据大部技术人相对朴素的认知,大数据就是Hadoop,写的不是SQL,是MapReduce,是Java。或者Python,或其他。OLTP数据库,才是非SQL不可!

2 更深入的

什么是SQL?什么是数据库?

什么是JAVA?什么是Scala?什么是Hadoop?

什么叫ETL?什么叫数据仓库?

什么叫数据标签?什么叫算法?

什么叫数据中台?什么叫数据中心?

什么叫分析方法?什么叫决策支持?什么叫数据挖掘?

还是不要说那么多了,根本学不完!

3 大数据能找到啥工作?

各领域都能找到!包括金融、零售、医疗、科技、政府...

金融

银行和金融机构可以用大数据分析客户的信用评分、风险管理、欺诈检测和投资策略。通过对交易数据、市场数据和客户行为进行分析,金融机构能够更好地管理风险并为客户提供个性化分服务。

医疗

大数据在医疗领域的应用包括疾病预测、患者分层、药物研发、医疗保健服务优化。通过分析患者的基因数据、生活方式和病史,医生可以提前预测疾病风险并定制个性化的治疗计划。

零售

大数据分析消费者购买记录、网上搜索行为和社交媒体活动,以便更好地了解消费者需求,优化产品组合和定制有效的市场营销策略。

制造

制造商使用大数据分析设备的传感器数据、生产过程中的质量控制数据和供应链数据,以提高生产效率、降低成本和确保产品质量。

交通

通过分析交通流量数据、道路状况和公共交通数据,交通部门可以更好地规划城市基础设施、优化交通流量和减少拥堵。

政府

政府机构使用大数据分析来改善公共服务、预测和应对自然灾害、制定政策和打击犯罪。例如,通过分析犯罪数据、人口统计数据和社会经济数据,执法部门可以预测犯罪热点并部署资源以提高治安水平。

4 大数据相关职位

大数据工程师

负责构建、维护和优化大数据基础设施和数据处理管道。大数据工程师需要熟悉分布式系统、数据库技术和数据处理框架(如Hadoop、Spark等),并具备编程能力。

数据科学家

运用统计学、机器学习、数据可视化和其他高级技术,为组织提供洞察力并支持业务决策。数据科学家需要具备统计学、编程和领域知识,以及良好的沟通和解决问题的能力。

数据分析师

负责收集、整理和分析数据,以识别业务趋势、市场行为和消费者偏好等。数据分析师需要熟悉数据分析工具(如Excel、SQL等)、统计学和可视化技术,并具备批判性思维]和沟通能力。

机器学习工程师

负责开发、训练和部署机器学习模型,以解决实际问题。机器学习工程师需要熟悉机器学习算法、编程语言(如Python、R等)和深度学习框架(如TensorFlow、PyTorch等)。

数据可视化专家

将数据转化为易于理解的图表、图形和仪表板,以便向非技术人员传达数据洞察。数据可视化专家需要掌握可视化工具(如Tableau、D3.js等)和设计原则,并具备良好的沟通能力。

数据架构师

设计和实施数据管理系统,以满足组织的数据需求和业务目标。数据架构师需要熟悉数据库技术、数据仓库、数据集成和数据治理等领域。

数据产品经理

负责规划、开发和管理基于数据的产品和服务。数据产品经理需要具备数据分析、项目管理和市场营销等多方面的技能。

所以!大数据专业人士需要具备一定的编程、统计、领域知识和沟通能力,以便在这个领域取得成功。


5 大数据技术栈

大数据技术栈包括许多不同的工具和框架,用于处理、存储和分析大量数据。以下是一些常见的大数据技术栈组件:

数据存储和处理

    • Hadoop:一种分布式数据处理框架,用于存储和处理大量数据。Hadoop包括HDFS(Hadoop Distributed FileSystem)用于存储数据,以及MapReduce用于处理数据。
    • Apache Spark:一种快速的大数据处理引擎,比Hadoop MapReduce更高效。Spark支持批处理和流处理,并提供了用于机器学习和图计算的库。
    • Flink:一种分布式流处理框架,用于实时数据处理。

数据库和数据仓库

    • NoSQL数据库:如MongoDB、Cassandra和Couchbase等,用于存储非结构化和半结构化数据。
    • 列式数据库:如Apache HBase和Google Bigtable等,用于存储和查询大量数据。
    • 数据仓库:如Amazon Redshift、Snowflake和Google BigQuery等,用于存储和分析大量结构化数据。

数据集成和ETL(提取、转换、加载)

    • Apache NiFi:一种数据集成工具,用于从多种数据源提取、转换和加载数据。
    • Apache Kafka:一种分布式流处理平台,用于实时数据传输和处理。
    • Talend:一种数据集成和ETL工具,用于数据预处理和管道构建。

机器学习和数据挖掘

    • Scikit-learn:一个用于Python的机器学习库,提供了许多常用的机器学习算法。
    • TensorFlow:一个开源的机器学习框架,由Google开发,主要用于深度学习。
    • PyTorch:一个开源的机器学习框架,由Facebook开发,主要用于深度学习。
    • XGBoost:一种高效的梯度提升决策树算法,用于监督学习任务。

数据可视化

    • Tableau:一种商业智能和数据可视化工具,用于创建仪表板和报告。
    • Power BI:一种由Microsoft开发的数据可视化和商业智能工具。
    • D3.js:一个用于JavaScript的数据驱动文档库,用于创建复杂的数据可视化。

编程语言

    • Python:一种广泛用于数据科学和大数据领域的编程语言,拥有丰富的库和社区支持。
    • R:一种专注于统计计算和图形展示的编程语言,常用于数据分析和可视化。
    • Scala:一种兼容Java的编程语言,常用于Apache Spark

数据管道和工作流调度

    • Apache Airflow:一种用于创建、调度和监控数据管道的工具,可以通过Python脚本来定义任务。
    • Luigi:一个由Spotify开发的Python库,用于构建复杂的数据管道和工作流。
    • Apache Beam:一种用于构建批处理和流处理数据管道的统一编程模型。

分布式计算平台


    • Kubernetes:一种容器编排平台,用于部署、扩展和管理容器化应用程序,支持大数据应用的弹性部署。
    • Mesos:一种分布式计算资源管理和调度平台,用于部署大数据应用和容器化服务。

数据湖和数据治理:


    • Apache Hudi:一种用于构建和管理大数据湖的开源库,支持增量处理和实时查询。
    • Delta Lake:一个用于构建数据湖的开源存储层,提供了事务、版本控制和数据质量管理等功能。
    • Apache Atlas:一个数据治理和元数据管理工具,用于跟踪数据资产、数据血缘和数据生命周期。

实时分析和流处理:

  • Apache Storm:一种分布式实时计算系统,用于处理大量数据流。


  • Apache Samza:一种分布式流处理框架,用于实时数据分析和事件驱动应用。



写在最后

公众号JavaEdge 专注分享软件开发全生态相关技术文章视频教程资源、热点资讯等,如果喜欢我的分享,给 🐟🐟 点一个 👍 或者 ➕关注 都是对我最大的支持。

欢迎长按图片加好友,我会第一时间和你分享软件行业趋势面试资源学习途径等等。

添加好友备注【技术群交流】拉你进技术交流群

关注公众号后,在后台私信:

  • 回复架构师,获取架构师学习资源教程
  • 回复【面试,获取最新最全的互联网大厂面试资料
  • 回复【,获取各种样式精美、内容丰富的简历模板
  • 回复 路线图,获取直升Java P7技术管理的全网最全学习路线图
  • 回复 大数据,获取Java转型大数据研发的全网最全思维导图
  • 更多教程资源应有尽有,欢迎关注,慢慢获取

浏览 1073
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报