贾扬清发布阿里云「湖仓一体」解决方案,下一代大数据计算平台来了!

共 5107字,需浏览 11分钟

 ·

2020-09-18 22:30



  新智元报道  

编辑:白峰、梦佳

【新智元导读】在今天的2020云栖大会上,达摩院数据库首席科学家李飞飞、阿里云计算平台高级研究员贾扬清等重磅发布多款云原生数据产品。「2020创新之源大会将于9月22日在中关村软件园召开,详细信息见文末海报,欢迎报名!」

    

达摩院数据库首席科学家李飞飞、阿里云计算平台高级研究员贾扬清,分别发布了云原生分布式数据库PolarDB-X、离线实时一体化数据仓库MaxCompute等多款云原生产品。

 

今天阿里巴巴也宣布成立云原生技术委员会,云原生升级为阿里技术新战略,委员会将大力推动阿里经济体全面云原生化,并沉淀阿里巴巴10多年的云原生实践,对外赋能数百万家企业进行云原生改造。

 

2009年,阿里巴巴首次上线核心中间件系统,到2011年淘宝天猫开始使用容器调度技术,再到推出自研云原生硬件神龙服务器、云原生数据库PolarDB。2019年双11,阿里电商核心系统100%上云,这也是全球规模最大的云原生实践。



贾扬清:建设数仓可以像买office 一样简单

2019年初,贾扬清加入阿里巴巴,带领大数据计算和机器学习平台,并出任阿里巴巴开源技术委员会负责人。

 

他是深度学习领域的风云人物,不到30岁就成为著名框架Caffe的核心作者。网友戏称,学物理绕不开牛顿,搞深度学习,绕不开贾扬清。

 

今天贾扬清为不仅带来了两款重磅大数据产品,还分享了大数据技术相关的方法论。

 


如何存储和分析数据,如何从数据当中提取出规律和价值,一直是计算机领域的一个核心问题,贾扬清认为,数据的存储和分析经历了四个历史阶段。

 

第一个阶段是数据库时代, Oracle、SQL Server、MySQL、PostgresSQL 等数据库成为主流的计算机系统当中不可或缺的组成部分。

 

第二个阶段,工业界开始考虑怎么样解决数据的体量,速度,和多样性问题,谷歌在2004年前后发表的3篇经典论文(GFS、MapReduce和BigTable),奠定了这个时期的基本方法论,实现了分布式的存储、计算和服务等等这一系列的能力。

 

第三个阶段,21世纪的第二个十年,随着移动互联网的普及,大数据计算开始进入了蓬勃发展的阶段,以Hadoop、HDFS为代表的开放的存储元数据的能力及Hive、Spark、Flink为代表的原子计算能力应用而生。

 

今天大数据已经进入了普及期,每一个行业都会需要建立自己的数据中台,从中挖掘出数据的价值,推动业务的决策,数据湖和数据仓库以及他们之间的有机结合,将越来越重要。

    贾扬清重磅发布数据湖系列新品

  

贾扬清展示了如何在阿里云上实现简单快捷高效的数据湖体系。

       


在最底层,通过阿里云对象存储OSS作为数据库存储, 大文件瞬时Rename、 加速缓存等都不是问题。OSS可以开放对接各类计算引擎,让上层的计算任务更加灵活,并且支持数据冷热全生命周期管理,打破数据孤岛。

 

在OSS的上面是数据库构建产品Data Lake Formation,它可以提供通用存储上的两个核心的功能。

 

第一是统一的数据加速服务,可以让OSS存储像本地一样高效。

 

第二是统一的元数据服务,所有上层的引擎都能够更加简单的理解、对接和了解数据的格式,方便多样化的上层分析计算和处理。

 

而数据存储的目的还是为了计算,第三层开源大数据计算引擎E-MapReduce可以给数据湖提供灵活、高效的大数据计算能力。

 

这样的体系结构,一方面为各种离线计算、流计算等提供了灵活底座,另一方面存储与计算架构实现了分离和容器化,让湖上的计算弹性和可扩展性更优秀。

 

传统的观念认为,数据仓库构建非常困难,但是今天贾扬清说,建设数仓可以像买一套office 一样简单。

 

7年前阿里巴巴自研的数据仓库 MaxCompute 在阿里云正式提供服务了。

 

通过MaxCompute可以一键式的建立起自己的数据仓库。MaxCompute简单、免运维、容易扩展,同时完全兼容像HIVE这样的大数据开放标准。

 

今天,MaxCompute自研数仓实现了全面升级,传统的离线引擎 SQL Engine 和实时引擎 Hologres 可以实现无缝结合,在一套数仓存储上,提供离线、实时的计算和分析服务。

 

作为技术深耕的自研数仓,MaxCompute已连续2年在TPC-BB榜单上面蝉联冠军。

 

以TPC-BB 30TB数据量的榜单为例,对比2019年的数据,性能提升了50%以上。成本下降了30%以上。

 

数据仓库这么好,为什么还要搞数据湖呢?「数据湖和数据仓库在企业发展的不同时期发挥着不同的价值」。

 

数据仓库的成长性很好,而数据湖更灵活。数据仓库支持的数据结构种类比较单一,数据湖的种类比较丰富,可以包罗万象。数据仓库更加适合成熟的数据当中的分析和处理,数据湖更加适合在异构数据上的价值的挖掘。

 

那能否将二者的优势融合在一起呢?

 

今天,阿里将数据湖和数仓这两个产品体系融合,发布了湖仓一体。

     


湖仓一体实现了数据湖和数仓之间的无缝流转,打通了数据存储和计算的不同的层面。

 

贾扬清介绍说,「湖仓一体的意义就是说我不需要看见湖和仓,数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态」。

 

湖仓一体,「它不是一个来自实验室的冥想的场景,而是一个来自于客户现场的真实需求」。

 

之前的微博基于大数据的需求发展了数据仓库平台,基于AI的需求,发展了数据湖平台这两套大数据平台在集群层面完全是割裂的,数据和计算无法在两个平台间自由流动。

 

MaxCompute产品团队和微博机器学习平台团队联合共建了湖仓一体的新技术,打通了MaxCompute云计算仓库和开源Hadoop数据湖,构建了一个跨湖和仓的AI计算中台,实现了湖和仓的统一智能化管理和调度,极大的提升了平台化服务能力。


李飞飞:云原生点亮数据上云之路

阿里巴巴集团副总裁高级研究员、ACM杰出科学家李飞飞,花名「飞刀」介绍了云原生分布式数据库。

 

面对指数级增长的海量存储挑战,云原生分布式数据库应运而生。

 

云原生分布式数据库带来了四大特性,很好的解决了我们企业用户的核心诉求。从资源池化到弹性扩展,再到智能运维,再到离在线一体化。利用这些核心的特性,我们将数据库全面的进入云原生加分布式的时代」。

 

那究竟什么是云原生分布式数据库呢?下面我们来一探究竟。

 

云原生数据库基于Shared Everything+shared storage 的存储计算分离架构实现资源池化高效管理,同时兼具弹性高可用水平拓展的特性。什么是分布式呢?就是用Shared Nothing的架构,实现数据水平分片、水平扩展。

 

「如果我们将两者完美的结合在一起,那就带来了我们的云原生分布式数据库,将Shared Nothing 和Shared Everything、shared storage 的特性完美的结合在一起」,阿里云自研的原生分布式数据库PolarDB-X正式发布

       


PolarDB-X是阿里自主研发的基于Shared Nothing + Shared Everything、share storage 架构的云原生分布式数据库,专注解决超高并发存储,海量数据存储下的在线事务型数据库的瓶颈问题。

 

今天发布的PolarDB-X两大全新企业级功能:混合负载 HTAP 和 全局二级索引透明分布式,将更高效地支持在线业务、高并发交易以及在线复杂查询的诉求。

 

利用PolarDB-X的HTAP混合负载特性,同时覆盖高并发实时交易和部分在线数据分析处理的场景。实现高并发交易在线复杂查询加速一体化。

 

智能混合负载技术、数据查询强一致技术、资源链路强隔离技术和在线分析加速技术,使在线交易和在线复杂查询的性能提升5到10倍。

 

以天猫双11为例,PolarDB-X连续多年稳定支撑天猫双11活动。

 

在去年2019年的双11,阿里巴巴集团电商核心业务全面采用PolarDB-X,支撑了高达每秒8700万次的TPS 峰值,每秒55万笔的交易订单,完美抵御了全球最猛最高的交易活动。

 

PolarDB-X的这些新增特性,很好的解决了分布式云原生条件下在线事务型业务的痛点,在分析领域我们其实也面临着类似的问题和挑战。

 

除了PolarDB-X,李飞飞今天还带来了另一款重磅云原生数据仓库AnalyticDB。

 

在2020年上半年,ADB刷新了TPC-H的30TB性能榜单世界纪录,相比第二名,微软的SQL server 2019性能提升290%以上,性价比低至1.46,成为首个登上榜单的榜首的国内厂商。

 

云原生Serverless的架构,有效的降低了企业数据分析和计算的成本,性能较自建的分析系统。例如spark 提升300%以上,可实现一分钟弹出300个节点参与计算中,通过Serverless方式大大降低使用成本。



云原生数据仓库AnalyticDB和数据湖分析DLA已经在国内多个用户落地,有效的实现了企业降本增效,数据分析离在线一体化的目标。


曾震宇:数据中台,构筑城市数字孪生

  

大会期间,阿里云还首次发布了城市大脑3.0的核心技术体系,包括感知、认知、决策和协同四个领域的技术。

       


阿里云智能数字产业产研总经理曾震宇表示,「没有行业智能的数据中台是没有灵魂的。数据中台的终极目标是数据价值反哺业务价值。」

 

城市是典型的数据密集型场景,巨大的物理空间,密布着每分每秒增长的海量数据。城市大脑建立在对数据的融合和洞察之上,为城市提供数字化的基础设施。

 

城市大脑,自从2016年在杭州落地至今,经历了1.0 对「交通」方面的探索,到2.0交通、卫健等多个领域的探索。

 

城市大脑3.0时期,从融合感知、实时认知智能、自动决策智能,再到跨域协同的闭环。

    


一方面,实现从单点智能到全局智能的视角提升;另一方面,沉淀出城市大脑核心技术体系,优化城市内不同领域的共性问题。

 

同时,曾震宇介绍了阿里云城市数据中台重磅升级。

     


最底层,多元空间数据,将城市的物理空间进行数字化还原,形成静态的物理空间世界。同时借助各类感知数据构成城市的动态运行世界。

       


动态和静态的融合组成了城市的数字孪生。

 

从全息数字构建、多分辨率实时推演、全局资源调度优化到全域多端系统共治形成从感知智能、认知智能、决策智能到组织智能的闭环。

 

数据中台能够融合城市的GIS自然资源数据、建筑BIM、CAD数据,以及高精路网等数据,打通不同的数据格式,从而构建二三维一体的数字化物理空间。


从宏观的全貌,到围观细节,都可以窥见。

 

同时通过实时推演技术,能为城市管理提供靠谱的建议。

 

实时推演已经在杭州湾跨海大桥开启探索应用。杭州湾大桥全长36千米,是连接上海和宁波两大城市的唯一路上通道,日交通量超过4.8万辆。

 

「比如,大桥上发生了交通故事,城市大脑第一时间能感知到,并基于实时交通数据进行推演,给出不同疏导方式的推演结果——短时间封锁大桥还是始终保持通行,大脑知道哪种处理方案更高效。」

       

 

精确还原

 

 

基于城市数据中台的静态物理空间世界以及数字化还原能力,还开发出了城市数字基因产品,将城市空间切分成无数个单位空间,汇聚多元数据和算法,对单位空间的人口、经济、生态、资源等情况,进行量化计算,用互联网数据思维管理城市每一寸空间。通过AI辅助决策,在规划层面识别修正城市发展的更深层次问题。 

       



中关村软件园20周年,品牌活动“创新之源”大会再升级!


9月22日,2020创新之源大会 —“科技力量创变未来”在中关村软件园国际会议中心召开。大会由中关村软件园主办,中关村软件园孵化器、新智元、北京银行共同承办,邀请到清华大学副校长、北京量子信息科学研究院院长薛其坤院士,清华大学电子工程系主任、信息科学技术学院副院长汪玉,科大讯飞联合创始人、讯飞创投董事长徐景明,搜狗公司CEO王小川,网易集团副总裁、网易有道CEO周枫,达闼科技创始人兼CEO黄晓庆,浪潮信息副总裁、浪潮AI&HPC总经理刘军 ,腾讯自动驾驶业务中心总经理苏奎峰,新智元创始人兼CEO杨静等重磅嘉宾出席。


最新议程曝光,扫描二维码即刻报名,资格经审核后可免费参会!



浏览 74
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报