新型数据中心,为新基建赋予新内涵
共 5151字,需浏览 11分钟
·
2021-07-28 18:27
行动计划从目标到任务,迎合应用,贴合市场,符合国家战略,意在为我国数字经济发展提供有效支撑。
早在2020年,数据中心就被列入国家“新型基础设施”的范畴。“新基建”提速,数据中心受到了前所未有的关注。
其实,在数据中心领域,高能耗、低算力等问题一直困扰着用户,各个国家在数据中心发展上都面临着淘汰旧技术、发展新技术等挑战。
毫无疑问,数据中心等正在成为技术创新的制高点。同样,在新型数据中心发展上,创新,涉及技术与运营两方面,将统领新型数据中心的发展。
1
绿色低碳化,数据中心发展的根基
在数据中心发展上,面临的首要挑战就是绿色节能低碳。
根据国际能源机构的数据,数据中心每年消耗大约200兆瓦时的电力,占全球电力需求的近1%,占全球二氧化碳排放量的0.3%。据估计,到2025年,数据中心和相关 IT基础设施将消耗全球4%以上的电力。
随着大数据爆炸式增长和计算需求的迅速增长,预计这些数据在没有采取积极措施降低能耗的情况下会大幅上升。
因此,我国“三年行动计划”在绿色低碳发展行动中鼓励应用先进的IT设备、制冷系统、供配电系统、高效辅助系统,并列举了液冷、高压直流供电等在行业内验证效果良好的解决方案。
数据中心能耗评价指标——电能利用效率PUE正在不断提高。
PUE是数据中心全年总耗电量与数据中心的IT设备全年耗电量比值,目前被国内外数据中心行业广泛使用。PUE是一个大于1的数值,PUE值越低,说明数据中心用于IT设备以外的能耗越低,越节能。
目前,最先进的数据中心的PUE约为1.1,即 DCIE(数据中心基础设施效率)为90.9%。
国家和地方政府对新型数据中心PUE的要求不断提高。2019年上海就提出新建数据中心PUE小于1.3。天津“新基建”建设方案明确优先支持PUE小于1.3的数据中心项目。而国家三年行动计划也提出PUE要低于1.3。
新技术的使用将使数据中心的能源使用效率越来越高,数据中心PUE越来越低。
在绿色低碳方面,目前全球不同企业在数据中心创新技术有几个方向:
一是采用新的冷却系统,降低数据中心能耗。
一项调查发现,在数据中心超过半数的公司CPU的使用率只有20%-40%。正是这些使用不足、部分闲置的服务器继续消耗大量能源,给企业带来不必要的成本,并导致数千万吨的二氧化碳排放。
解决此问题而实施的解决方案包括改进冷却系统。微软已经证明,通过将服务器架浸入专门设计的流体中,可以大幅降低冷却成本,提高CPU使用率。
据赛迪顾问统计,从市场需求和销售额来看,风冷型制冷仍是目前机房空调中的主流机型,但冷冻水型制冷呈现较快增长趋势。
目前,液冷数据中心对传统市场,包括风冷的机房空调市场、服务器市场以及数据中心基础设施(机柜、CDU、冷却塔等)开始进行替代。
目前,国内已有中科曙光、绿色云图、联想、浪潮和华为等涉足液冷领域。2019年,华为、阿里等厂商对液冷数据中心替代传统市场比例估计为15-20%左右,到2025年,专家估计这一比例有望达到25%。
由于适应场景、冷却液价格和改造成本等限制,液冷技术并未大面积普及。未来随着GPU运算占比的增加和服务器密度的不断增加,液冷将是代替风冷的必然选择。
二是采用新能源技术,降低数据中心能耗。
新加坡一家通信中心正寻求氢气涡轮机作为绿化其数据中心的一种方式。如果成功,用于为涡轮机提供燃料的氢气将利用蒸汽甲烷改造(SMR)工艺从化石燃料中提取,因此碳捕获和储存技术将用于防止二氧化碳进入大气层,确保该过程是碳中和的。
燃烧时,氢能产生零温室气体排放,并且足够灵活,可用于现有的天然气发电厂,可以转化为燃烧氢气。氢气将成为全球脱碳努力中的关键能源载体。
同样,世界科技和商业巨头,包括苹果、微软和eBay正在使用燃料电池,用于数据中心发电尝试,可以在需要时产生可靠的电力。
微软在西雅图数据中心率先推出天然气动力燃料电池,取代了传统的电动设备。该系统可以在降低成本和提高可靠性的同时,将能效提高一倍。
三是热与电相结合循环应用。
由于加热和冷却是数据中心能源利用的主要形式,因此不少数据中心在冷却水预热再利用方面做出了有益的创始。
腾讯天津滨海数据中心余热回收项目于2019年10月落地,历时一年半时间,经历2020与2021两个采暖季,项目实现园区9000平米的办公楼区域市政0采暖费目标。
四是扩大再生能源的利用。
可再生能源将在未来的能源部门发挥重要作用。但由于间歇性问题与数据中心对"始终打开"电源的需求不相容,因此再生能源目前很少是首选。
不过在利用可再生能源方面,许多供应商进行了有益的尝试。亚马逊最近成为全球最大的可再生能源企业采购商,每年都新增风能和太阳能项目,而谷歌和微软等其他科技巨头也紧随其后。
谷歌正在投资风力发电场和太阳能公园,并将之与数据中心的存储设施相结合。它还在开发算法,使其中心在产生更多可再生电力时,可以承担更多任务。
微软利用现有的潜艇技术,测试了一个以波浪和潮汐能为动力的可持续水下数据中心,该中心可以在未来几年内迅速部署,以提供基于云的数据服务。
2
算力多样化、效能化,提升数据中心核心能力
IDC的报告显示,全球信息数据总量中接近90%产生于近几年,到2020年已经达到44ZB。巨大的数据增量将会对算力提出了更多的要求,成为新型数据中心发展的根本动力。
据相关研究,截止到2019年年底,我国数据中心总算力(含通用算力和高性能算力)为79.74 EFLOPS(FP32)。综合通用计算能力和高性能计算能力的算效,全国数据中心的总体算效达到18.16 GFLOPS/W(FP32)。
专家认为,《行动计划》首次提出了算力指标,是数据中心产业发展从注重规模,向着注重质量迈进的一个标志。
随着数据中心整体规模的提升,我国的总算力必然会有更大的增长,但是如何实现大算力和高算效呢?
多样算力既是数据中心发展的核心,也是产业竞争的焦点。
与生物多样性是生态系统稳定性的基本保障,成为地球生物繁衍生生不息的关键一样,多样性算力构建起稳定的算力生态体系,成为支撑全球数字化的基石。
通过多样性算力的创新与部署,构建多样算力平台,实现算力特点和业务特点的更好匹配,达到更高的业务质量和风险防护标准,满足不同用户的数字化转型算力需求。
数据中心的新处理器是算力多样化的核心。在不增加能耗的情况下提高计算能力,芯片制造商之间正在进行的"竞赛",预示着能源计算比率的不断提高。
在服务器核心的CPU芯片方面,市场主要有x86、ARM、MIPS、Power、Alpha几种。目前英特尔、AMD主导的x86架构,正在遭遇Arm、RISC-V和IBM POWER指令集所形成的巨大生态力量的挑战。
CPU国外代表厂商有Intel、AMD、IBM、ARM等。国内活跃的有MIPS 架构的龙芯,Alpha架构的申威,ARM架构的飞腾、海思、华芯通等。
除普通的运算任务外,服务器有时也会处理图像相关的任务,一般依靠GPU芯 片。GPU生产企业主要有Nvidia和AMD,AMD已量产7nm制程的GPU,NVIDIA工艺仍然基于14nm。国内企业屈指可数,有景嘉微、长沙韶光等。
BMC芯片也是服务器常用一个部件。BMC系统通过监视系统的温度、电压、风扇、电源等,以保证系统处于健康的状态。
BMC芯片厂商主要有信骅科技(ASPEED),占据着BMC芯片的龙头位置。BMC固件方面,则有AMI、中电昆仑、卓易信息等公司。
数据中心技术架构不断迭代和升级。
为了适应海量服务器快速、低成本的部署和运营要求,数据中心架构也不断演进。
虽然不同的企业推出不同的方案,但其核心都包括模块化、一体化、定制化、智能化等。
早在2012年,腾讯就推出了第三代数据中心架构——微模块架构,经过不断应用实践和优化完善,已经发展成为数据中心行业的主流技术。
而腾讯第四代数据中心的T-block技术,以标准化、产品化形式,实现数据中心像乐高搭积木一起快速建设交付。T-block涵盖了中压、低压、柴发、IT、空调、办公等功能模块,支持边成长边投资,也可以根据用户需求来灵活按需配置,并通过腾讯智维平台实现自动化高效运营,实现平均PUE1.2X,最低可低至1.1X。
由于T-block技术降低了对机房土建条件的依赖和约束,通过更加绿色环保的装配式钢结构形式实现主体建筑的低成本快速建设,土建建设周期缩短50%。
更得益于T-block高度模块化、标准化的设计理念,通过工厂预制、现场拼装,机电交付周期缩短40%,土建机电整体交付周期只需12个月,可分期按需扩展,初期投资下降30%以上。
华为模块化数据中心和核心产品模块化UPS应用广泛。全新的华为智能微模块3.1@AI解决方案,在硬件方面让数据中心更简单、更灵活。
华为推出的智能母线,取代了传统的配电柜,不仅大大降低了空间占用,也降低了运维的难度。与此同时,智能母线的应用,还可以实现未来功率的灵活扩容,并且可以做到对电压、电流、电量,以及所有节点温度、湿度的监测,确保了供电的安全可靠。不仅如此,主干供电的施行,也降低了线路的损耗,降低了数据中心的PUE,从而使数据中心更加节能、绿色。
另外,数据中心算力水平、机架规模与使用效率密切相关。数据中心机架规模越大,表明数据中心能够提供的理论算力越高;数据中心的使用效率越高,说明当前提供的实际算力更多。目前,超大规模数据中心发展势头迅猛。
3
智能化,体现在计算和运维多个方面
数据中心融合人工智能(AI)技术大势所趋。在数据中心的不同领域、不同层级,都可能应用到AI技术,所以AI应用的潜力巨大,创新成效显著。
智能运维是数据中心AI应用主要战场。
智能运维是利用“数据智能”替换或强化“人工经验”,可以从无人值守到无人管理。运用“智能机器人+智能传感器”的人工智能组合,打造独立诊断、自动排障、防御升级的监控模式,解放运维人力。
通过基于AI的数据分析和挖掘,可以提前预测服务器、交换机以及SSD故障,减少数据中心的宕机风险。
引入深度学习,实现数据中心节能。采用人工智能建模分析、预测数据中心资源利用率,结合虚拟机迁移功能,根据业务需求合理地调度数据中心资源,以最大限度地挖掘节能潜力。
在数据中心基础设施层面,通过采集和分析监测点的温湿度和空气流动模型,自动调节制冷设备和配电设备的输出,使能源获得更高效的利用。
Google就将DeepMind的机器学习应用到数据中心中,成功地将用于冷却的能量减少了40%。
借助智能化技术对数据中心的供电系统、温控系统、营维和架构进行创新重构,从而降低能耗、提升资源利用率,加速绿色数据中心的实现。
数据中心的AI计算能力不断提高。
在通用计算CPU横行天下多年之后,GPU主导的并行计算因为AI应用开始变得流行,让通用计算与AI计算共同发展。
AI/ML数据通常存储在庞大的数据池中,而配备加速器的专用服务器,如GPU,非常适合处理AI/ML任务。数据中心网络正在增加带宽,为这些系统提供足够大的数据管道,从而实现经济且高效的AI工具的开发。
在AI计算方面,参与者越来越多。在AI服务器上,中国服务器和云计算公司浪潮在性能和市场份额上都有上佳的表现。
在IDC公布的中国AI加速计算报告中,浪潮AI服务器连续多年稳居AI服务器首位。
2018年华为正式发布两款AI芯片:采用7nm工艺制程的昇腾910,以及12nm工艺制程的昇腾310。
2019年,华为又推出了全场景AI计算框架MindSpore。这些AI基础软件平台实现了极简易用、极致性能。这让小的传统企业能够基于华为的全栈平台,能以少代码,甚至不开发代码也能充分利用AI能力。
2018年阿里巴巴达摩院发布了一种名为Ali-NPU的AI芯片,该芯片将通过其公共云供任何人使用。此举旨在增强阿里云的AI实力,促进行业AI应用的发展。
未来,老旧、落后、高耗能的数据中心将会逐渐被改造提升,或者被新型数据中心淘汰和替代。在新型数据中心的发展中,服务数字经济发展是动力,创新是方向。
合作联系:18513349761