阿里云徐若晨：边缘云容器技术的探索与实践-技术圈

2022年6月14日，由中国信息通信研究院、中国通信标准化协会联合主办的“2022云边协同大会”以线上方式顺利召开。大会共开设了“技术无边、应用无垠、物联无尽、智能无限”四大分论坛，邀请到近百位业界知名专家齐聚一堂，聚焦分布式云、边缘计算、AIoT、云边端一体化、行业应用等前沿科技与应用，透视未来发展。

在“技术无边”分论坛中，阿里云智能边缘云技术专家徐若晨分享了《边缘云容器技术的探索与实践》主题演讲，展开探讨了边缘云的形态和价值、边缘容器云平台的技术挑战、技术架构、典型业务场景共四个方面，本文为整理内容。

边缘云的形态和价值

首先从客户侧来看，当前面临的挑战众多：

自建边缘机房交付周期长、资产重；
边缘节点常态化裁撤、割接，SLA难保障；
边缘环境下，单个机房规模较小，业务的弹性差；
边缘业务属地特性强，集群维护成本高、难度大；

但是通过在中心和客户现场之间，构建起边缘云这一层服务，就能够解决以上问题：

秒级算力交付，大大提升客户交付效率；
边缘资源实现按量付费，弹性扩容，有效降低客户的成本；
云原生交付方式，提升边缘应用的可运维性，降低客户的运维成本；
海量低延时的边缘集群资源覆盖，提供体验更好，时延更低的客户体验；

总体来说，边缘云对于客户的价值是显而易见的：一方面通过终端计算的上移，提升业务的灵活性和可用的算力范围；另一方面通过云端算力的下沉，能够降低成本、缩短时延。

边缘容器云平台的技术挑战

边缘容器云平台面对的技术挑战主要来自于三方面：

集群小而多

受限于边缘的物理环境限制，单个集群的规模通常有限。随着资源的进一步下沉，终端算力的进一步上移，各类资源被纳管进来，资源的规模会迅速的增长。整体边缘计算集群呈现为一种小而多的状态，将会给资源管控，资源调度都会带来较大的挑战。如何高效地做好资源的管理和调度将会成为一个关键点。

环境复杂

边缘设备的环境与数据中心的环境相比更为恶劣，存在着弱网、甚至断网等一系列问题。在这样的情况下，云边协同、边边协同、边缘自治、跨节点迁移能力的建设显得尤为重要。

异构

出于成本考量、业务特殊需求等原因，计算、网络、存储在边缘环境下都存在着较为严重的异构场景。例如定制化的硬件、定制化的操作系统、软件以及异构的网络环境结构，这给云化纳管带来了较大的挑战。如何通过统一的资源模型，纳管各类异构的资源，是边缘场景下需要重点考量的问题。

边缘容器云平台的架构

边缘容器云平台的架构如下图所示：

最底层是资源建设和运维的平台，主要作用是将各种物理资源通过统一的模型纳管到系统中来，无论是ARM阵列、还是MEC、还是其他自建的集群和多云融合的集群，都是通过这一层去向上提供统一的界面。与此同时，最底层还需负责基础资源的运维工作。

最顶层是边缘能力开放层，通过提供OpenAPI、开发者工具、能力开放平台等，使得用户、开发者可以通过开放层去使用阿里云边缘容器平台的各项能力来完善自己的业务。

中间层模块与功能较多，接下来逐一介绍。

异构资源纳管

首先是异构资源纳管，简单来说就是负责将资源接入k8s集群中。在这一模块中，阿里云适配了ARM阵列、MEC资源等场景并将其纳入k8s集群中便于管理。然后基于k8s集群的水位、边缘资源到中心网络质量等指标形成一个最优规划，以保证能为边缘资源选择最优、最合适的k8s集群，进一步提升资源管理的性能和效率。同时还具备配置的终态管理能力，以保证纳入管理的机器上的配置能达到最终一致的状态。目前阿里云已经有上百个k8s集群用于管理这些边缘资源。

多集群管理&融合调度

在大量的k8s集群的基础上，该平台同时具备了多集群管理和融合调度能力。

通过区分租户集群和资源池集群，并由同步器按需同步，从而提升集群的隔离度，降低管控风险。同时，k8s中的事件以统一的方式投递到一个内部的事件总线上供组件去按需订阅消费，通过这样的方式避免过多的客户端挂载在k8s集群上的情况，降低k8s集群的负载消耗，提升整体集群运行的稳定性。最后还需进行多层次、多维度的融合调度：通过与客户端请求的调度协同，完成区域级别的粗粒度调度；通过感知资源类型、网络状况、资源负载情况等多个维度的信息，完成区域内的精细化筛选调度。凭借这样的多集群管理和融合调度的能力，就能实现对如此大规模的集群进行高效地利用。

边缘特性增强

在上面提到的多集群的基础上，进一步可以实现边缘特性的增强。

首先需要在资源单元之上抽象出来一层逻辑管理单元，并通过这些逻辑管理单元去管理部署在各地的应用，完成多单元之间的并行操作以提升整体管控的效率。为了实现上述操作，边缘应用管理中的自研工作负载需要发布精确到node/pod级别，便于契合ARM阵列等异构场景。边缘镜像加速则是依托于内容分发网络的优势，构建出了一个具备全网加速能力的边缘镜像仓库，可以支撑超大规模的镜像拉取流量，为扩容、部署提速。在边缘服务网格这块，需要通过pilot sharding，配置信息按需下发等手段来支撑这样超大规模集群的部署，另外也支持跨集群服务发现以及公共服务导出多租户共享的能力。

稳定性体系&云边管控通道

最后，关于稳定性体系和云边管控通道，阿里云基于内容分发网络，结合选路优化，构建了一张命令传播的网络，大幅降低管控的延迟，同时也提升了弱网环境的管控操作触达率。通过在稳定性体系中构建的自动化处置策略中心，对边缘节点上报的一些异常进行自动化处置策略的下发。为了避免自动化策略在极端情况下引发的大规模问题，阿里云还建设了风控中心，对自动化策略进行熔断控制。同时，风控中心还能对集群中的高危操作如大规模pod增删、workload增删、权限增删等进行阻断。

边缘容器云平台上的业务场景实践

云游戏

云游戏概念近几年异军突起，阿里云边缘云游戏产品则将概念转换为产品进行了落地实践，基于边缘容器云技术底座，为客户交付高质量且稳定的云游戏实例。场景流程如下图所示：

从下层的ARM阵列服务器到上层的容器应用均通过容器云平台进行统一管控，全流程服务保障，确保云游戏实例的高效生产。基于边缘容器的应用管理能力，通过容器化的方式去打包所有云游戏运行时及配置依赖，提升交付效率。同时，借助容器应用实例编排能力，采用在单个板卡上运行多个安卓容器的方法，提升资源利用率，降低资源成本。

可编程计算分发

作为阿里云边缘容器云的另一个典型落地案例，可编程计算分发对内容分发产品加入了可编程的能力，从而允许客户在内容分发的基础上使用全网算力资源，在就近位置使用可编程计算服务。其场景流程如下图所示：

通过在内容分发产品里加入可编程能力，从而允许客户在内容分发的基础上使用全网的算力资源，能够在就近位置使用可编程计算服务。

终端用户首先通过请求调度，将请求发送到就近的计算资源上去。然后融合调度和请求调度进行协同，感知到请求的量级、区域等信息，决定算力的规模和分布，做到算力随着终端用户的请求变化而变化。而在应用管理这一侧，则是提供决定容器的配置、执行容器变更等基础能力。作为一个典型的算随网动的边缘计算场景，阿里云海量边缘计算力使得用户拥有了在任意位置获取计算的能力，同时在大流量、大数据的场景下还提供了可编程能力，为大数据及AI计算奠定基础。

往期内容推荐