Spark 实践 | Spark 大数据处理最佳实践
主题:Spark 大数据处理最佳实践
大数据概览
如何摆脱技术小白
Spark SQL 学习框架
EMR Studio 上的大数据最佳实践
直播回放:扫描文章底部二维码加入钉群观看回放
大数据处理 ETL (Data → Data)
大数据分析 BI (Data → Dashboard)
机器学习 AI (Data → Model)
什么是技术小白?
只懂表面,不懂本质
只懂得参考别人的 Spark 代码,不懂得 Spark 的内在机制,不懂得如何调优 Spark Job
摆脱技术小白的药方
懂得运行机制
学会配置
学会看 Log
懂得运行机制:Spark SQL Architecture
学会配置:如何配置 Spark App
配置 Driver
• spark.driver.memory
• spark.driver.cores
配置 Executor
• spark.executor.memory
• spark.executor.cores
配置 Runtime
• spark.files
• spark.jars
配置 DAE
…..........
参考网址:
https://spark.apache.org/docs/latest/configuration.html
学会看 Log:Spark Log
Spark SQL 学习框架( 结合图形/几何)
1. Select Rows
2. Select Columns
3. Transform Column
4. Group By / Aggregation
5. Join
Spark SQL 执行计划
1. Spark SQL - Where
2. Spark SQL - Group By
3. Spark SQL - Order by
EMR Studio 特性:
兼容开源组件
支持连接多个集群
适配多个计算引擎
交互式开发 + 作业调度无缝衔接
适用多种大数据应用场景
计算存储分离
1. 兼容开源组件
EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。
2. 支持连接多个集群
一个 EMR Studio 可以连接多个 EMR 计算集群,您可以很方便地切换计算集群,提交作业到不同的计算集群上运行。
3. 适配多个计算引擎
自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎,无需复杂配置,多个计算引擎间协同工作
4. 交互式开发 + 作业调度无缝衔接
Notebook + Airflow : 无缝衔接开发环节和生产调度环节
利用交互式开发模式可以快速验证作业的正确性.
在 Airflow 里调度 Notebook 作业,最大程度地保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。
5. 适用多种大数据应用场景
大数据处理 ETL
交互式数据分析
机器学习
实时计算
6. 计算存储分离
所有数据都保存在 OSS 上,包括:
• 用户 Notebook 代码
• 调度作业 Log
即使集群销毁,也可以重建集群轻松恢复数据
EMR Studio Demo 演示:
参考文档:
https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI
具体产品介绍及演示,,可以直接点击文章下方阅读原文观看视频,也可以扫描文章底部钉钉群二维码,进群观看直播回放哦!
END
阿里巴巴开源大数据技术团队成立交流社区,定期推送精彩案例,技术专家直播,问答区技术同学在线提问答疑,只为营造纯粹的技术交流氛围,欢迎钉钉扫码加入!