日前，腾讯云专家工程师严俊明老师，在云+社区技术沙龙「云原生」专场，分享了基于腾讯云对象存储 COS 的云原生数据湖最新技术突破，包括云原生数据湖业务场景以及技术架构。

下面，让我们一起回顾下严老师的精彩演讲内容。

大数据存储云原生趋势解析

第一阶段：存储一体，孤岛。十几年前，网络速度远低于本地磁盘吞吐速度的时候，本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快，磁盘吞吐速度逐渐成为计算瓶颈，本地盘HDFS压力加大，运维成本升高，可网络带宽资源却闲置，导致业务效率低下。

第二阶段：存算分离，存储、计算解耦。解耦计算和存储负载，系统负载均衡调度更加灵活，系统的资源利用率提高，节约成本，可以满足业务快速增长的需求。

第三阶段：数据湖，存储统一。随着业务多样化发展，业务间数据共享变得困难，而数据湖是一个集中式存储池，支持多种数据源，无缝对接各种计算分析和机器学习平台，实现数据处理与分析，打破数据孤岛。

第四阶段：云原生，计算统一。随着数据湖计算节点调度效率降低，云原生技术能构建和运行可弹性扩展的应用，跨多云构建微服务，持续交付部署业务生产系统。

腾讯云对象存储架构及数据湖场景挑战

对象存储 COS 是腾讯云提供的一种存储海量文件的分布式存储服务，具有高扩展性、低成本、高可靠、高可用、EB级扩展能力。通过控制台、API、SDK 和工具等多样化方式，用户可简单、快速地接入 COS，进行多格式文件的上传、下载和管理，实现海量数据存储和管理。

相比传统分布式存储系统，COS 采用超大规模分布式存储引擎：YottaStore，可轻松操控百万级超大规模存储集群。YottaStore突破了单点Master的瓶颈，做到单集群可达百万节点的控制，且不需要拆分元数据。同时，元数据能存得更小，管理得更多，1Byte元数据可以管理2GB的物理空间。

此外，YottaStore是原生多AZ，在资源管理、调度考虑AZ，所有服务器共同承担吞吐，对数据一致性有天然的保障。加上分钟级RTO，RPO为0，可以彻底解放上层业务，数据冗余度低，存储成本大幅度减少。

为了支持以 COS 为中心的大数据存算分离架构以及云端数据湖，Apache Hadoop-3.3.0发布了COSN文件系统，兼容HCFS接口，全覆盖HDFS大数据计算应用。

而数据湖场景面临的主要有3点：

腾讯云对象存储数据湖三级加速

文件组织以文件树形式管理，文件拆成块管理，块又会进一步拆解存储到对象存储 COS 上，是一种扁平化结构。支持目录级别并发，分区可扩展，也可跨分区。

加速读操作，尽可能内存化，从内存直接读取数据。

元数据缓存到计算端（用户侧），提前预热数据，从本地直接读取，减少网络带宽限制，提高访问性能。

提高缓存命中率，提高资源利用率，极大降低网络带宽成本。

支持云原生部署，部署方式灵活

EMR On COS 存算分离实践分享

hive的例子原本是存算一体架构，数据含有大量的本地化策略、逻辑。可数据上传到 COS 后，不再含有本地逻辑，会重新计算、切分数据大小，map从274个减少到5个，从而提高系统并发，降低系统运行时间。

spark采用串行、单线程操作，网路延时过大。存算分离实践对spark进行并发加速，加快单线程操作时间，从而提高spark的运行速度。

以上是严老师分享内容的简要概括，更多精彩内容，可以点击下方视频观看。

关于我们

腾讯云对象存储COS 诚招存储，缓存，大数据，容器化等各方向的分布式系统研发工程师，请私信或联系 timmycheng@tencent.com

▼ 点「在看」，让更多人发现精彩 ▼

数据湖专场 | 三级加速，打造高性能云原生数据湖