北航王建平:如何突破海量数据处理瓶颈?
破解海量数据处理瓶颈的出炉在哪里?
数字经济时代,打造强悍的数据底座,已经成为行业共识,但是在面临着海量且复杂文本数据处理时,很多行业和企业存在瓶颈,出路在哪里?
7月19日,在2022全国工业互联网平台赋能深度行(首站·宁波)暨第二届未来智造大会上,北京航空航天大学国家科技资源共享服务工程技术研究中心副主任王建平抛出了上述疑问。
在王建平看来,当前,海量数据处理存在着两大瓶颈。第一个瓶颈是技术路径。他认为,互联网出现后,信息大爆炸、数据成海量,但是复杂文本数据的处理,要完全摆脱人工,仍然十分困难,还是一个全球性的难题。尽管利用爬虫、深度学习、NLP等技术,机器能够理解简单文本的语义,但是对较复杂文本处理还到不了实用程度。
第二个瓶颈是经济成本。王建平表示,若针对海量数据,采用人工方式处理,则存在经济性问题。一是个体网站独立对海量文本数据人工处理的成本问题,二是数千万独立网站、APP、小程序的人工维护的社会成本和规模经济的问题。
事实上,当前很多企业采用人工智能处理海量数据,都是后台人工处理、前台智能呈现,清洗、标注的最后一步需要人工处理。王建平对当前海量复杂文本数据处理现状直言不讳,借助爬虫自动采集数据容易,但是爬虫抓来的还是一堆垃圾,人工处理,技术上不可取、经济上高成本。以文本数据处理为例,国内没有一个文本数据的机器全自动处理解决方案,没有一家大厂解决数据处理的最后一公里,数据库数据处理成难题,网站、APP、小程序出现一堆僵尸。
那么出路在哪里?王建平指出,要研究出一套原创算法,抽象出一套底层的规则,摆脱对清洗、标注准确的大样本、大素材的依赖、满足规则自适应的需求。而且还要能够基于云计算架构,为用户构建大数据平台,实时赋能数据,赋能算法、搜素引擎等技术,降低用户的技术门槛、维护成本。
依托北京航空航天大学国家工程技术中心,宁波、北京两地分别组建了宁波优策、国信科技两家小创企业,从事大数据、人工智能的算法、架构研究。其中,宁波优策主要从事产业政策、产业资讯大数据平台开发,国信科技专注于产业人才大数据开发,基于国内最先进的算法和架构,解决数据处理的最后一公里。
据介绍,上述两家公司基于国内最先进的理念、架构、算法,开发了产业政策大数据平台、产业资讯大数据平台、产业人才大数据平台和专业服务(科技服务)大数据平台四大技术引擎和数据引擎,构建产业公共服务生态平台、产业大数据平台和企业机构官网,形成自主的原创算法、知识体系、技术体系、产品体系和平台体系。
产业政策大数据平台是一个定制平台的平台,是一个定制引擎的引擎,系统部署数据监控源超过20000个,汇聚产业政策数据量超过1500万。该平台采用原创算法,100%实现机器对政策的自动清洗,剔除非产业政策类信息,100%实现机器对政策分类、技术领域、技术专题等产业政策属性的自动标记。用户通过简单的参数设置,以云模式独立定制自己的区域、行业、主题类的产业政策大数据平台,赋能实时数据,赋能原创算法、搜索引擎等核心技术。
产业资讯大数据平台是国内唯一的产业资讯垂直搜素引擎,系统部署数据监控源超过500个,汇聚产业资讯数据量超过300万。与产业政策大数据平台不同,该平台通过爬虫技术,对资讯网站进行数据抓取,采用原创的核心算法,对数据进行自动清洗,剔除非产业资讯类数据,100%实现了机器对产业资讯各类属性的自动标记,打通数据处理的最后一公里。用户可以按照数据的不同维度,实现垂直搜索、精准搜索、个性推送;基于算法和规则,通过数据源定制,自动形成产业专题。
产业人才大数据平台能够实时监测分析全国3000多所大专院校、6.5万家科研高校院所、30余万家高新技术企业中1000多万高新技术人才;国外10000多所顶级的大学、院所和科研机构大约2000多万的外国专家和华人专家学者人才,这其中包括65万的华人学者;大约2.5亿的论文数据,国内专利库1800万专利数据,还有各类政府的项目数据150万。
王建平表示,目前上述几大平台已经在全国积累了大量落地案例,获得行业肯定。比如为宁波市政府定制推送全国产业政策大数据平台;打造国家(宁波)工业互联网公共服务生态平台等。
作为2022全国工业互联网平台赋能深度行活动的首站,本次活动由宁波市人民政府、中国电子信息产业发展研究院、工业互联网平台创新合作中心主办,以“深化平台应用 加速数字发展”为主题,通过“六个一”活动,为工业互联网平台赋能数字化转型搭建了官产学研用良好互动的建设性交流舞台,全面展现了工业互联网创新发展图景。
点燃数字化澎湃动力:2022全国工业互联网平台赋能深度行宁波启航
百度副总裁李硕:从传感器到大屏仅是开始,AI将深入场景创造数字化真价值