XUANWU云原生数据底座

联合创作 · 2023-09-27 12:20

玄武(XUANWU)是国产化云原生数据底座开源项目,包含低代码开发平台白泽(Byzer)、向量化执行引擎 Gluten、资源和服务管理控制台 XUANWU Manager 三大模块。


继 Hadoop 之后,云原生的 Kubernetes 技术上将形成新一代大数据底座,以 Spark 为统一的计算引擎,以湖仓为统一的存储核心,大幅简化数据栈复杂度,上建低代码、低门槛的数据应用,是未来的大势所趋。 经过以金融生产场景的初步测评,云原生数据底座可以让:



  • 整体 IT 资源利用率提升 20-50%,受益于底层的计算统一和存储统一,资源能在企业更大范围内灵活调配

  • 整体计算性能提升约 20%,受益于存算分离架构,计算任务能更有弹性的分布到更多计算节点高速完成

  • 系统运维成本大幅降低,受益于理论上无限的扩容能力,和整合多系统到统一底座的能力

  • 实现国产化、自主可控的技术换代


Kyligence 云原生数据底座能做什么?


Kyligence 云原生数据底座简称 KYLIGENCE XUANWU,它是一个开源套件,旨在提供一个快速体验和验证新技术的平台,推动国产化云原生技术的交流和发展。



  • 快速安装,一行命令完成 Kubernetes 上的安装,30 分钟开始体验云原生的数据能力

  • 一键运行 TPC-H 基准测试,云原生的 SparkSQL 相比 Hadoop 提速约 20%

  • 一键体验弹性伸缩,快速响应业务变化,精准应对潮汐峰谷

  • 在低代码平台上体验 AI 机器学习,从数据准备、模型训练、到模型发布的全链路


后续展望



  • 下一代 Native Spark Engine 核心升级,性能全面提升约 2.5 倍,预计能整体节省 IT 成本约 40%!

  • 自建 Serverless 计算集群,实现企业内的无限扩容 和 pay-as-you-go


alt text


Quick Start


1. 快速部署


1.1 部署 Xuanwu Manager 步骤


Xuanwu Manager 提供对资源、作业和服务的管理与观测能力,它是数据服务运行的基础。


1.1.1 获取安装脚本




wget --no-check-certificate https://s3.cn-north-1.amazonaws.com.cn/public.kyligence.io/xuanwu/release/alpha20221230/install_opensource.sh

1.1.2 执行安装脚本




bash install_opensource.sh

正确部署后,使用浏览器即可访问 Xuanwu Manager 各项功能,目前支持两种身份登录:



  • 租户管理员:xuanwu/ADMIN/Xuanwu@319(默认)

  • 平台管理员:ADMIN/KYLIN(默认)


1.2 部署数据服务步骤


1.2.1 获取安装脚本




# 获取安装包并解压
wget --no-check-certificate https://s3.cn-north-1.amazonaws.com.cn/public.kyligence.io/xuanwu-services/release/alpha20221230_opensource.tar.gz

1.2.2 配置对象存储


请修改 xuanwu-1.0-alpha-part-1/values.yaml




# 对象存储
storage:
type: obs # 华为填写 obs,阿里填写 oss
bucket: https://mybucket.obs.cn-east-3.myhuaweicloud.com # bucket 地址(obs 为例)
accessKey: yourAccessKey
secretKey: yourSecretKey

1.2.3 配置 RSS


为提高存算分离架构下计算引擎执行稳定性,推荐部署 RSS 服务,请将 RSS Master 地址填入文件 xuanwu-1.0-alpha-part-1/values.yaml ,示例如下:




kyuubi:
spark:
rss: # RSS 地址
- addresses:
- ip: 10.1.2.146
ports:
- port: 9097
protocol: TCP
- addresses:
- ip: 10.1.2.147
ports:
- port: 9097
protocol: TCP
- addresses:
- ip: 10.1.2.148
ports:
- port: 9097
protocol: TCP

1.2.4 执行安装脚本


在安装包目录下找到 install.sh 并执行


2. 快速使用


2.1 一行命令,生成 TPC-DS 数据集


进入安装包根目录,执行




kubectl apply -f ./tpcds-setup.yaml

查看数据集生成进度,执行 kubectl get job tpcds-setup -n xuanwu ,当 COMPLETIONS 显示 1/1 表示完成




NAME COMPLETIONS DURATION AGE
tpcds-setup 1/1 33m 48m

2.2 一行命令,运行 TPC-DS 基准测试


进入安装包根目录,执行




kubectl apply -f ./tpcds-run.yaml

查看数据集生成进度,执行 kubectl get job tpcds-run -n xuanwu ,当 COMPLETIONS 显示 1/1 表示完成




NAME COMPLETIONS DURATION AGE
tpcds-run 1/1 33m 48m

查看测试结果,执行 kubectl logs job.batch/tpcds-run -n xuanwu


3. 部署 Byzer


为在低代码平台上体验 AI 机器学习,从数据准备、模型训练、到模型发布的全链路,通过 Xuanwu Manager 的 Web GUI 可以快速部署 Byzer










浏览 35
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报