大数据产业价值持续释放,有效推动数字化转型升级!
共 2859字,需浏览 6分钟
·
2021-12-30 02:09
···约2600字,阅6分钟···
英国牛津大学教授舍恩伯格在其所撰写的《大数据时代》中表述,大数据时代是“已经发生的未来”,而在这个已经发生的未来里,人人都是参与者。
作为时代发展的必然产物,大数据正加速渗透进我们的日常生活,完成对各传统领域的颠覆。自互联网大数据从上个世纪九十年代风靡全球后,一直伴随着人类的需求和使用而不断的演进和发展,未来,大数据产业将继续稳步快速增长,更加深刻的影响我们的生产和生活。
大数据技术以开源为主,迄今为止,尚未形成绝对的技术垄断,即便是IBM、甲骨文等行业巨擘,也同样是集成了开源技术和该公司已有产品而已。开源技术对任何一个国家都是开放的,中国公司同样可以分享开源的蛋糕,但是需要以更加开放的心态、更加开明的思想正确地对待开源社区。此外,中国的人口和经济规模决定了中国的数据资产规模冠于全球。
我国数据生产能力巨大,大数据资源极为丰富。今年,中国信息协会大数据分会与北京国润互联信息技术研究院共同发布了《2021—2022中国大数据产业发展报告》,《报告》预测,未来三年,中国大数据产业市场将保持12%以上的增速,到2023年整体规模将达到11522.5亿元。从行业角度分析,互联网、政府、金融和电信等几大行业处于引领位置。
大数据正超越信息技术,使人们重新思考公司的战略和组织结构,重新审视产业变迁的驱动因素,重新审视政府治理水平,甚至重新界定国家竞争的主战场。
大数据技术发展趋势
随着大数据技术的不断发展,其各个技术环节呈现出新的发展趋势和挑战。根据Gartner最新的分析可以看出,大数据主要有五大技术趋势。
1、存储计算分离
在传统集群系统中,计算和存储是紧密耦合的,以Hadoop为例,在传统Hadoop的使用中,存储与计算密不可分,而随着业务的发展,常常会为了扩存储而带来额外的计算扩容,这其实就是一种浪费。同理,只为了提升计算能力,也会带来一段时期的存储浪费,将计算和存储分离,可以更好地应对单方面的不足。
存储计算分离是一种分层架构思想,即将存储能力和计算能力分开,各自服务化,通过高速网络连接。以AWS的大护具架构为例,底层统一采用S3存储,存储层上架设各种计算引擎比如HIVE、Spark、Flink等。
2、实时计算及实时数仓
实时计算一般是针对海量数据进行的,要求通常为秒级。实时计算主要分为数据的实时入库、数据的实时计算两部分。以下为实时计算的主要应用场景:
第一个场景是数据源实时、不间断,要求用户的响应时间也是实时的。比如对于大型网站的流式数据:网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等,实时的数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况。
另一个场景是数据量大且无法或没必要预算,但要求对用户的响应时间是实时的。比如说:昨天来自每个省份不同性别的访问量分布,昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布。
3、人工智能推动数据智能应用
相比于传统机器学习算法,深度学习提出了一种让计算机自动学习产生特征的方法,并将特征学习融入建立模型的过程中,从而减少了人为设计特征引发的不完备。深度学习借助深层次神经网络模型,能够更加智能地提取数据不同层次的特征,对数据进行更加准确、有效的表达。而且训练样本数量越大,深度学习算法相对传统机器学习算法就越有优势。
大数据与人工智能交叉
目前,深度学习已经深入多个领域,并在图像分类、语音识别、问答系统等应用中获得了重大突破,取得了成功的商业应用。随着越来越多的行业和领域逐步完善数据的采集和存储,深度学习的应用会更加广泛。由于大数据应用的复杂性,人工智能和大数据的融合将是一个持续发展趋势。
4、技术趋势,湖仓一体化
此前,阿里云正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的、有机的、大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。
大数据存在的三种形态
在数据湖架构上建立数仓的尝试并不成功,这表明数仓和数据湖有本质的区别,在数据湖体系上很难建成完善的数仓。数据湖与数据仓库两者很难直接合并成一套系统,基于融合两者的思路进行探索,阿里云提出下一代的大数据技术演进方向:湖仓一体,即打通数据仓库和数据湖两套体系,让数据和计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。
在阿里云的构想中,湖仓一体值得期待。湖和仓的数据/元数据无缝打通,且不需要用户人工干预;湖和仓有统一的开发体验,存储在不同系统的数据,可以通过一个统一的开发/管理平台操作;系统可以根据自动的规则决定哪些数据放在数仓,哪些保留在数据湖,进而形成一体化。
5、大数据平台融合云计算
云计算与大数据的发展路线必将交接、碰撞,而这已经成为现实。大数据给人留下的印象:花钱多,灵活度低,令人头疼的运营管理等等。好在近年来,Modern Data Warehouse这个概念火了起来,利用云计算解释了现代大数据存在的合理性。而随着企业日新月异的数据需求和技术的进步,更新的技术架构层出不穷。
以DaaS为例,其既是Function-as-a-Service(FaaS)的一种,也是SaaS的自然延伸,最终目的都是尽可能远离IaaS以及服务本身的运维,把资源最大限度地解放出来进行业务功能的开发,是目前大数据领域最接近这种serverless概念的产品,也许它会成为云时代最好的大数据平台。
结语
总之,大数据技术的兴起正完成对各传统领域的颠覆。全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。各国已相继制定实施大数据战略性文件,大力推动大数据发展和应用。从全球大数据发展的趋势来看,大数据产业推动社会生产要素的网络化共享、集约化整合、协作开发和高效利用,改变了传统的生产方式和经济运行机制,可显著提升经济运行水平和效率。
回顾2021年,在“后疫情时代”,数据已经成了人们工作、生活中不可或缺的要素。人们的衣食住行,都因为数据而改变、优化,从而获得更好的体验。
展望未来,中国大数据产业将继续稳步快速增长,技术创新能力不断增强,产业价值持续释放,无论是政府、企业,还是消费者,数字化意识正进一步增强。在相关产业政策、法律法规的支持和规范下,大数据产业将加速走向微观细分领域,与行业应用深度结合,有效推动数字化转型与智能化升级。