国内高校大数据教研机构调研报告

共 13764字,需浏览 28分钟

 ·

2021-07-11 19:06

本篇报告由清华大学大数据研究中心独家支持(原清华-青岛数据科学研究院发起),清华大学新闻传播学院博士后何静(沈阳教授团队)发布,以下为报告部分内容节选:


1 高校大数据研究院发展概述


信息技术的高速发展,促进大数据应用开始融入各行各业,大数据人才需求猛增。在此背景下,大数据人才的培养机制应与产业发展高度结合,着重瞄准行业解决方案,面向计算和存储等领域,培养金融、政务、电商、媒体等方面的复合应用型人才。

我国高校最先开展的是大数据硕士研究生培养,而后才有本科专业招生。2012年,首都经济贸易大学与北京大学、中国科学院大学、中国人民大学和中央财经大学联合成立“大数据分析硕士培养协同创新平台”,在全国率先搭建了大数据硕士人才培养体系。2014年,首都经济贸易大学进一步开设了“统计学专业(大数据分析)”,包括信息管理与信息系统(大数据)和统计学(大数据分析)两个本科专业方向。

2015年9月,国务院印发《促进大数据发展行动纲要》,开始部署大数据相关工作,推进大数据产业的平稳发展。“十三五”规划中也明确提出实施国家大数据战略,实现数据资源共享。2016年2月16日,教育部发布《教育部关于公布2015年度普通高等学校本科专业备案和审批结果的通知》,在“新增审批本科专业名单”中公布新专业“数据科学与大数据技术”。

近日,教育部公布了2020年度普通高等学校本科专业备案和审批结果通知,名单显示,2021年新增数据科学与大数据技术专业共计62所。截至2021年3月1日,数据科学与大数据技术专业审批通过共计693所,大数据管理与应用专业审批通过共计142所,直接或间接与大数据相关的专业多达上千个,并且2016年-至今,相关专业的开设呈现上升趋势。

在此基础上,为了加快学科建设和人才输出,不少高校成立了大数据研究院,通过单独招生或者联合培养的方式,将短期重点聚焦于研究生的培养,以快速培养掌握大数据核心技术、具有创新能力的骨干人才。例如清华大学虽然没有开设大数据本科专业,但是成立了清华大学大数据研究中心,设立了大数据硕士项目和大数据能力提升项目。

由于大数据学院属于新开设的专业方向,因此在基础设施、师资力量、课程体系等方面仍然处于摸索试验阶段,在培养方案上没有形成独立、完善的体系。在大数据专业被独立划分之前,计算机科学与技术、软件工程、电子信息、自动化等多个专业均开设了数据处理、数据挖掘等基础课程,这种附属于某一学科的课程尽管具备了万金油的工具性属性,但失去了大数据作为专业设置的特殊性,导致大数据专业涉及研究方向、研究方法和研究问题的独特性大大减弱,最终成果常常和预期目标不符。例如在核心课程的设置上,大数据专业需要体现出交叉学科的特征,同时又不能“广撒网”式教学,仅仅只是简单地将数学、计算机、统计学课程杂糅在一起很可能变成“多而不精”。另一方面,高校大数据实验室的建设也有所不足。同时,鉴于大数据技术在产业应用上的迫切性和高度相关性,高校应当积极与企业合作,共享基础数据库,搭建大数据管理平台等,便于开展各项学术研究活动。

2 高校大数据研究机构影响力评估体系


2.1评估对象


本报告针对各高校大数据教研机构近年来的教学和科研成果进行汇总,制定了四级量化表,分别从教育影响力、科研影响力、社会影响力三个方面进行分析。

其中,教育影响力包括教学条件、人才培养两个维度,评测高校数据研究机构在教育教学方面的投入与水平,这是高校研究院区别于商业研究院的一大特点;科研影响力则包括科研规模、创新能力、科研成果转化能力及国内外交流情况,结合对国内外学界在大数据领域成果进展的数据调研,对比分析各高校大数据教研机构在学术研究领域的影响力;社会影响力关注各高校大数据教研机构的媒体指数,从高校大数据教研机构的传播内容、传播渠道、传播效果等维度进行数据的调研对比,分析其整体社会影响力。

2.2评估维度与指标


四级指数模型如下表所示,在权重设置上,设置教育影响力、科研影响力、社会影响力三部分所占权重相同。


2.3评估方法


大数据的质量评估涉及了多个维度。部分学者基于不同的应用环境或不同视界,建立了大数据质量评价体系和评价模型。对于数据质量的特征,美国普查局[1]将数据质量归纳为如下几个方面:准确性、一致性、透明度、代表性、完整性、安全性、持续性;王力和周晓剑[2]认为,数据质量是由可得性、可用性、可靠性、相关性、外观质量5个维度构成的;刘金晶和曹文洁[3]则提出从完整性、一致性、准确性和及时性4个方面进行度量;丁小欧等[4]对不同数据质量性质进行归纳总结,将数据质量维度分为核心与外围,并对核心指标进行细化,同时对所有核心指标做相关分析,进而建立数据质量综合评价框架;基于数据生命周期,莫祖英[5]则将大数据质量划分为原始质量、过程质量和结果质量,并提出不同的测度指标,利用专家打分和问卷调查确定权重,进而建立大数据质量综合评价模型;黄永鑫[6]提出了“3As”模型,该模型利用上下文充分性、操作充分性和时间充足性这3个数据质量特征来评估大数据的使用质量水平;基于数据使用问题,李建中等[7]从大数据众多的质量评价指标中抽象出一致性、精确性、完整性、时效性、实体同一性这5个指标,认为其具有实际可行性。


因半结构化数据和非结构化数据在大数据中占比较大,不少研究人员针对此类数据进行研究。韩京宇和陈可佳[8]基于事实抽取评估数据的准确性和完整性,在 Web 上构建目标文档上下文;汤莉、宫秀军、何丽[9]提出基于 PAC-Bayes 理论的 Web 文档数据质量评估方法;余芳东[10]将数据质量保证框架分为数据源条件、元数据和数据3个维度,每个维度包括若干个质量要素;李森有等[11]提出基于质量标准度量的全数据质量评估方法,从而评估互联网平台中的大数据质量.....综上,现有大数据质量评估方法通常利用综合评价和聚类思想,其评估视角绝大多数基于数据质量表征和数据生命周期,重点研究社会各界极为关切的大数据使用质量。本研究以定量分析为基础,探索如何解决多源数据融合问题,并基于数据生命周期提出大数据质量评估方法,构建相应模型,使研究结果更具说服力和针对性。


1)教育影响力指数评估模型的构建。在借鉴已有指标模型构建的基础上,结合大数据研究院的自身特点,秉承客观性、公正性、可操作等原则,对获取数据进行价值提炼和技术处理,运用统计分析法和相关数学模型,构建起一个基于大数据,且开放、透明、不断更新迭代的教育影响力综合评估体系,多维度反映高校数据研究院的教育影响力。


2)科研影响力评估体系的构建。基于评估模型分析及质量评估结果,参考相关科研机构的研究案例和经典理论,深入探析大数据快速发展的背景下高校数据研究院提升科研影响力的实现路径。依托舆情大数据平台的广泛影响力和丰富技术经验,定期发布相关榜单和发展报告,实时解读高校数据研究院发展脉络。


3)社会影响力指数评估模型的构建在借鉴已有指标模型构建的基础上,结合教育部权威数据,通过大数据挖掘,围绕高校社会公开度、新媒体平台传播范围、新媒体平台传播效果、社会好感度、网络舆论影响力等多个维度,多维度反映高校数据研究院宣传的覆盖度、传播力和影响力。


在指标模型构建过程中,采取层次分析法、数学模型法等具体定量方法确定各项指标,并将定性结果做定量化数据处理,为高校大数据研究机构的整体趋势分析提供数据支撑,保证评估结果的科学性、实用性和客观性。同时,充分考虑各研究院的宣传途径和各高校数据研究院的师资力量、课程设置、教学规模等多方面信息,采集并监测微信公众号、微博、网页新闻、论坛、社区、博客、贴吧等多渠道的数据,进而做到对全网数据的全方位、立体式掌控。在权重设置上,更加偏向于客观可获取的数据指标,以减少人工(专家打分)的误差。经不断测试和调整后的评价指标体系,基于海量数据挖掘,以客观可测量指标为评价基准,通过多元维度的综合考评可确定各高校数据研究院的传播影响力,使评价结果具有高度的可信性。


团队拥有指数大数据平台和相对成熟的技术经验。在大数据平台方面,对超过1200万个微信公众号、1.5亿个微博账号、近100万个App进行日常监测和大规模数据采集,其中,微信公众号数据涵盖总阅读数、头条阅读数、平均阅读数、点赞数等十几项指标,微博数据包括发博数、转发数、评论数、点赞数、原创数等十余项指标,这样大规模的数据集可为高校数据研究院影响力指数模型的实施评估提供强大数据支持。并且,团队的大数据平台面向微博、微信、APP分别建立了传播指数,通过指数模型的综合评估,对账号、信息进行排位筛选。目前,团队已分别构建微信传播指数WCI(Wechat Communication Index)、微博传播指数BCI(MicroBlog Communication Index)及APP传播指数ACI(APP Communication Index),不仅可为企事业单位影响力指数模型的构建提供思路、方法和框架,还可提供理论支撑;在技术方面,团队采用改良版的Java爬虫工具,可完成指定网站查询后的数据抓取任务,且具备内置可扩展的OCR接口,支持解析和提取图片中的文字。同时,团队采用了云采集技术,即采集任务自动分配到云端多台服务器同时执行,提高采集效率,以在较短时间内获取成千上万条信息。另外,系统提供两微一端数据的搜索、分类、统计、排行、图表等数据处理方式,可对本研究涉及数据进行高效调用和深入挖掘。课题主要负责人沈阳教授先后发布了多款新闻传播分析软件,包括微博数据抓取、词频分析、社交网络分析、大跨度新闻频度分析软件等,能够实现跨平台数据的自动采集。这些技术不仅提高了平台信息获取的效率,还扩大了信息搜集的范围、所获信息的类型等,使得高校数据研究院影响力指数模型所需的庞大数据集有了坚实的技术支撑。


3 各研究院分析


在本章中,团队将结合各高校大数据相关专业、研究院的开设时间,第四轮学科评估情况及所设研究机构的属性、功能等因素进行综合考量,最终选取“复旦大学大数据学院”“北京大数据研究院”“清华大学大数据研究中心”“南都大数据研究院”“中国人民大学统计与大数据研究院”“山东大学数据科学研究院”“华东师范大学数据科学与工程学院”“北大健康医疗大数据国家研究院”八个样本进行传播影响力的分析。


3.1热门词分析


  • A.复旦大学大数据学院

(图3-1,复旦大学大数据学院在2021年4月1日至4月30日期间热门词词云图)

如图所示,关于复旦大学大数据学院相关报道中“数据”一词出现频率最高,达351次,充分体现了复旦大学大数据学院很好地开展了以大数据为主要方向和特色的创新型学院及研究院的建设工作。同时,“中国”“科技”“红色”等热门词汇的出现,展示了复旦在2021年这一建党百年大业之际,为关键核心技术攻关,力行一流高校的责任与担当。

  • B.北京大数据研究院


(图3-2,北京大数据研究院在2021年4月1日至4月30日期间热门词词云图)

如图所示,关于北京大数据研究院的相关报道中,“数据”一词出现频率最高,达262次,侧面体现出作为国内第一个政产学研用紧密结合的综合性大数据研究机构,北京大数据研究院的大数据技术创新成果层出不穷。同时,“北京”一词出现频率较高,反映出该研究院重点辐射北京地区。

  • C.清华大学大数据研究中心


(图3-3,清华大学大数据研究中心在2021年4月1日至4月30日期间热门词词云图)

如图所示,有关于清华大学大数据研究中心的相关报道中依旧是“数据”一词出现频率最高,其次是“模型“和”技术”二词,体现出清华大学在大数据方向的优势,结合不断创新、迭代的算法、模型对数据进行研究,并做出了重大贡献,相关信息的发布有利于大众更深入地了解大数据技术。

  • D.南都大数据研究院


(图3-4,南都大数据研究院在2021年4月1日至4月30日期间热门词词云图)

如图所示,关于南都大数据研究院的相关报道中,同样是“数据”一词出现频率最高,其次是“研究院”和“粤港澳“两词。南方都市报社旗下的南都大数据研究院的热门词汇呈现出明显的企业特点,也反映出它的辐射区域主要为粤港澳大湾区。

  • E.中国人民大学统计与大数据研究院


(图3-5,中国人民大学统计与大数据研究院在2021年4月1日至4月30日期间热门词词云图)

如图所示,关于中国人民大学统计与大数据研究院的相关报道中,“研究院”一词出现频率最高,内容多为友校相关学院的教授到访中国人民大学做数理统计相关的学术交流,以及自己学院发布的通知。这些信息的发布,有利于知识与资源的共享。

  • F.华东师范大学数据科学与工程学院


(图3-6,华东师范大学数据科学与工程学院在2021年4月1日至4月30日期间热门词词云图)

在相同时间段内,关于华东师范大学数据科学与工程学院的相关报道共计29条,在相比较的八个研究院中,声量较小、曝光率不足。在有限数据中,“数据”一词出现频率最高,开源”“项目”“社区”等词出现频率紧随其后。整体宣传策略偏保守。

  • G.山东大学数据科学研究院

(图3-7,山东大学数据科学研究院在2021年4月1日至4月30日期间热门词词云图)


在相同时间段内,关于山东大学数据科学研究院的相关报道共计13条,在相比较的八个研究院中,同样声量较小,且数据多来自自身公众号发布的内容。在有限数据中,“博士后”一词出现频率最高,属于该学院与同校法学院联合举办的“迈向数据法学研讨会”的相关内容。整个词云图中“法学院”“征文”“作品”等词均与此事件相关,侧面体现出山东大学数据科学研究院注重学科交叉、协同创新。


  • H.北京大学健康医疗大数据国家研究院


(图3-8,北京大学健康医疗大数据国家研究院在2021年4月1日至4月30日期间热门词词云图)

如图所示,在北京大学健康医疗大数据国家研究院的相关报道中,多数与《北京大学全球健康发展论坛》有关。因此关键词中,“中国医疗”、“北京大学”等出现次数较多。除此之外,该研究院其他话题的传播信息较少。

3.2传播影响力分析


首先,借助团队的舆情工具,统计8所高校教研机构在2021年4月1日-2021年4月30日期间各渠道的传播信息量。其中,信息传播总声量依次为南都大数据研究院(2508条)、北京大数据研究院(366条)、复旦大学大数据学院(246条)、清华大学大数据研究中心(47条)、华东师范大学数据科学与工程学院(33条)、中国人民大学统计与大数据研究院(29条)、北京大学健康医疗大数据国家研究院(26条)、山东大学数据科学研究院(13条)。

(图3-9:南都大数据研究院  图3-10:北京大数据研究院)


(图3-11:复旦大学大数据学院  图3-12:清华大学大数据研究中心)


(图3-13:华东师范大学数据科学与工程学院  图3-14:中国人民大学统计与大数据研究院)


(图3-15:北京大学健康医疗大数据国家研究院  图3-16:山东大学数据科学研究院)

其次,基于团队传播指数平台,设置自定义微信公众号榜单,选取2021年4月推文数据展开分析。微信传播影响力WCI排行榜基于发文数、总阅读量、头条阅读量、平均阅读量、总在看量、总点赞量计算得出。可以看到,所选择的高校大数据教研机构微信平台传播影响力大小依次为:数据派THU(清华大学大数据研究中心)、中国人民大学统计与大数据研究院、北京大数据研究院、复旦大数据学院、北大健康医疗大数据国家研究院、华东师范大学数据学院(注:因部分机构未开设微信公众号,故相关统计数据缺失,如南都大数据研究院、山东大学数据科学研究院)

(图3-17,微信公众号传播力数据榜单)

最后,借助团队舆论热点工具,将排名靠前的五所大数据教研机构近30天内(统计截止日期2021年5月25日)舆论发布指数(如下图3-18所示)进行分析可知,除了依靠强大媒体平台的南都大数据研究院之外,传播声量大小依次为:北京大数据研究院>中国人民大学统计与大数据研究院>复旦大学大数据学院>清华大学大数据研究中心。

(图3-18:五所教研机构30天舆论发布指数对比分析)


3.3 媒体指数


借助团队的舆情工具,并根据信息源自动划分出的媒体传播平台类型,得出教研机构各平台的信息传播情况如下图所示(数据选取日期:2021年4月1日—2021年4月30日)。

左图3-25:北京大学健康医疗大数据国家研究院  右图3-26:山东大学数据科学研究院)

可以看到:南都大数据研究院依靠南方都市报这一强有力媒体,通过南方都市报APP和相关网页平台传播的内容声量较高,分别达到了全部声量的42.74%和35.69%。在自媒体平台上,其在微信公众号及相关微博的传播声量占比差异不大,分别占到总量的4.86%和2.23%。

而北京大数据研究院的信息传播主要阵地是微信公众号“北京大数据研究院BIBDR0”,传播声量占比高达35.79%。同时,在相关媒体平台的手机客户端和网页客户端,内容传播声量也较高,占比达到23.22%和21.59%。相比于其它科研机构,北京大数据研究院在微博平台的信息传播声量较大,但也仅占到总声量的6.01%。

相比之下,复旦大学大数据学院与华东师范大学数据科学与工程学院的传播主要平台相对多元,二者在微信公众号、手机客户端及网页客户端等渠道的声量比重相当。与此同时,知乎等问答平台也是两所高校教研机构信息传播的重要渠道之一,但二者的微博平台的传播声量相对较弱。

相比于其他机构,清华大学大数据研究中心、北京大学健康医疗大数据国家研究院及山东大学数据科学研究院在该时段重点通过微信平台进行传播(平台传播比重超80%),山东大学数据科学研究院更是占比达到100%。传统媒体平台、手机客户端、网络问答平台及微视频平台等渠道发声相对较弱,信息传播方式相对单一。

综上所述,不同类型的科研机构在特定时间段内传播声量及传播渠道各不相同。但在微博宣传平台上,各大数据研究机构传播声量均走势较弱,只有中国人民大学统计与大数据研究院微博传播比重达到了总声量的6%。

4 高校大数据教研机构传播建议


4.1高校大数据教研机构发展现状


高校是我国科研创新的重要基地之一,其科研管理信息化水平直接影响着高校科研力量的发展。近年来,国内不少高校相继建立了科研管理系统,有效简化了科研管理部门的日常工作流程,提升了高校科研管理效率,也为各大高校乃至国家积累了极为有价值的科研数据。

但必须认识到的是,随着我国科技水平的稳步提升,特别是大数据技术的逐渐应用,高校对科研管理信息化的要求也在逐渐提高,客观上呈现出高校科研管理信息化建设的一些不足。第一,高校科研管理信息化程度不高,长期停留在数据获取阶段。目前,绝大多数高校的科研管理系统大多仅具备基本的录入、查询、修改及报表等功能,相关人员获取到的信息多为表面信息,对于隐藏信息,则一直缺乏有效的挖掘和分析手段;第二,和校内其他应用系统的关联程度不高,且统计分析功能也相对较弱。具体来说,高校的科研管理系统和校内其他系统基本没有信息间的共享,“信息孤岛”现象存在。与此同时,科研管理系统的统计分析功能也仅仅只是简单累加了项目的人员、经费、数量等信息,基本未对数据本身所包含的问题进行映射,缺乏辅助决策的相关功能。鉴于此,在当前大数据背景下,提高高校的科研管理信息化水平势在必行。科研评估是重要的探索模式,高校如何合理地分配其有效的科研资源,如何对科研项目的可行性、科研机构的综合实力进行客观评价,对高校大数据教研机构的发展有着重要意义。而在科研评估过程中,大数据技术的理论教学和科研应用程度至关重要。

4.2高校大数据教研机构传播问题


  • 4.2.1科研数据标准化问题


截至今,国内外大数据标准化工作还未形成一套公认的、完整的大数据标准体系,绝大多数的大数据标准化工作尚处于标准的需求分析和研究探讨阶段。高校大数据同样也需要标准化处理,尽量减少混乱无序的信息及资源,以消除“信息孤岛”现象,增强教育数据的可用性、通用性和互操作性,从而促进数据整体价值的提升。武汉大学、复旦大学等高校在数据标准化方面进行了诸多尝试,取得了一定成绩。但就我国高校整体而言,并没有形成一套完善的、可通用的数据标准体系。而这带来的直接后果便是,无法推进高校自身的传播研究,进而影响学术水平的提升和高校信息资源的共享,最终导致高校传播力不足。

  • 4.2.2数据人才匾乏问题


数据人才的缺乏,直接导致了两个问题:一是科研进展难以得到突破,二是传播影响力也随之受限。美国之所以能够在大数据浪潮中处于潮头,与之重视、培养数据人才密不可分。高校教育管理数据人才是一个跨学科的数据人才团队,由多种角色人员组成,包括数据科学家、程序员、统计人员、业务人员等,作为连接大数据与教育应用的桥梁,他们要解决的是如何实现教育管理大数据的价值。虽然市场对高校教育管理数据人才的需求日益增多,但目前的人才培养体制机制尚不健全,能够提供的人才数量远远不能满足现实需求。香港环球经济电讯社(GEDA)首席经济学家江儒山认为,如Perntland (MIT)、Andrew Ng吴恩达这样的大数据专家,全球也不过二三百人,而赴其后尘的新锐大数据专家,估计全球不过千人左右……纵观国内外,百分之七八十的优秀大数据专业人才,都就职于全球顶尖的科技公司,如苹果、亚马逊、Google、华为、腾讯、阿里、百度等,在高等学府和基础研究机构的大数据专家相对较少。

  • 4.2.3高校教研平台自我传播受限,传播频率较低


信息爆炸的时代,“酒香也怕巷子深”,大数据研究院若停留在“只需要做好研究”这种传统思想上,并不利于自身发展。然而在实际传播中,高校教研机构往往自我营销意识较弱,未充分利用媒体平台,且各研究院的传播方式仍停留在传统的两微一端。就目前的传播媒介来看,传播力较强、传播潜力较大的是短视频平台,但大数据研究院开通短视频账号的屈指可数。已有数据显示,开设微信公众号的高校教研机构极其有限,其中,地方政府和高校合作开设的大数据研究机构并未开设相关自媒体账号,如贵安新区·贵州师范大学IBM大数据学院。另外,在已有的信息传播中,绝大多数为二次转载,原创内容制作较为粗放,大多是学术会议、学生活动等信息,一旦缺乏技术研究进展和会议召开近况,就会陷入“无稿可发、无事可做、无声可传”的境地。并且,发布的内容难以引发深度思考,如缺少前沿趋势和热点应用等信息分享。

  • 4.2.4命名规则多元化,可辨识度较低


整合营销传播中,关键在于形象整合,要求传播者尽量保证“一种形象,一个声音”,即“文字与其他视觉要素相一致”、“在不同媒体上投放信息和内容相一致”。但在已有传播主体的命名方式中,不少机构并未采取合适的命名方式,如黄河科技学院大数据与智能技术学院,在微信公号运营主体为大数据与智能技术学院团委学生会平台,采用“大数据小萌”命名方式而未含有院系名称中文/英文缩写。同时,其头像为“海绵宝宝”而非具有标识性的院徽,该命名规范无法让受众产生联想,有效传播力不足。按照品牌公关理论的评判标准看各研究院,CIS系统(包括理念识别、行为识别和视觉识别)的搭建极为重要,例如,对于理念识别而言,一个鲜明突出的院训,不仅可以激励研究院的师生更好地投入科学研究,更能明确自己的定位和特色,具有更高的辨识度。但CIS系统是一个整体的、统一的系统,三大组成部分相互支撑,仅对其中一个部分进行构建和提升,无法达到整合营销、整合形象传播的效果。目前,CIS系统搭建稍突出的院校通常比较重视理念识别部分,而在行为识别和视觉识别方面表现较弱。

  • 4.2.5传播受学院背景影响较大


高校研究机构设置,直接关乎理论体系建构和实践应用普及,其发展状况、现存问题、发展对策、竞争力提升、品牌形象塑造等问题都需要重点关注。其中,品牌口碑是以评价方式输出品牌印象,是评价品牌影响力必不可少的关键因素。总体来说,作为各方声音的集中体现,品牌口碑具有显著的多变性和不确定性。

就目前所获高校大数据教研机构传播力榜单而言,榜单前列均是原985、211院校。相对而言,双非一本和独立学院所开设的教研机构关注度较小、影响力较弱。同时,由于科研经费不足,难以形成自己的创新型成果和品牌工程。

4.3高校大数据教研机构建议


  • 4.3.1科研项目立项决策


项目立项决策是在科研项目开展前对实施该项目的必要性、创新性、科学性、可行性及其定位、目标、任务、投入、组织管理等多方面进行综合评估,其主要目的是判断项目的优劣性,因此在科研管理中占有重要地位。在当前大数据背景下,必须采用大数据技术对上述多维数据进行分析和挖掘,避免科研项目立项过程中的一些繁琐性和重复性的工作,造成项目经费的浪费,同时,建立一套完善的科研项目筛选体系,通过数学建模和人工智能算法,对科研项目的各影响因子采取联合查询与分析,尽可能地在科研项目立项前排除不合理因素,对合理的承担单位与负责人项目予以审批立项,从而优化高校科研资源配置,提升科研经费使用效率,提高高校科研管理水平。

当前,国内不少高校的科研资源均面临一定程度的短缺局面,但必须承认,与有限的科研资源相反的是,国内大部分科研院校也存在着科研资源无法有效利用、有限资源重复浪费的情况。不仅如此,不少高校对不同的院系和专业还存在着科研资源分配明显倾斜的现象,制约了高校整体科研水平的统筹发展,一定程度上也导致了科研资源的浪费和低水平项目重复实施的现象发生,客观上降低了高校的科研实力与整体创新水平。应用大数据技术的科研资源配置可以包括以下三个方面:第一,完善原始数据的采集和清洗工作,更新以人员库、经费库、成果库及以科研用房、科研仪器为基础的科研资源数据库;第二,建立适合高校自身发展的评判模型库,例如各类科研资源、科研成果的计算参数与规则库;第三,建立以定量化的绩效考核为基础的资源配置工具与决策支持管理工具,以更好地对科研资源进行优化配置。当前,国内高校的科研管理大多“重申请、轻结题”,对科研项目的全寿命管理把控能力弱,导致不少科研项目的完结质量都不尽如人意。科研项目的全寿命管理主要包含项目计划的制订、人员和经费管理、中期末期检查等多个环节,应用大数据技术,可以通过高效的信息化手段,将分散的相关信息组合加以分析提炼,如项目的经费使用情况、科技文献数据库中的相关科技成果引用情况、项目组成员的工作量及设备仪器的使用情况等,从而深入挖掘出项目实施各要素之间的内在联系,进而帮助科研管理部门及时发现问题和解决问题。

  • 4.3.2建立复合式互联网矩阵平台传播方式


由于多元化的媒体形态,用户无法同一时间接受所有平台提供的内容信息,高校教研机构要想实现良好效果传播的裂变,就必须实现基于同一机构,在不同新媒体账号之间形成相互协同配合状态。不同的平台有相对固定的用户,通过充分发挥不同平台的自身优势,将各类信息以最合适的形式和方式呈现在受众面前,以确保信息的有效传达,这要求各研究机构合理开通不同的传播平台,并且针对不同平台进行内容加工,而非“一饼多吃”。该过程需要根据信息内容制定信息发布方案,充分利用网站、微博、微信、APP、论坛等新媒体平台与传统媒体平台,扩宽信息发布渠道,使一个新闻信息通过多种表达形式在多个平台进行发布传递给不同的信息消费群体,达到穿透性传播效果。其中,微信作为一种封闭式的社交媒体,尽管其时效性相对较弱,但胜在使用人群的广泛性和功能的多样性,因此研究机构针对微信平台,适宜从内容深耕入手,打造具有吸引力的、高质量的内容平台;微博一直以灵活性、及时性和强交互性著称,时效性更为凸显,研究机构适宜利于官方微博账号,积极发声,传播最新实时消息,以获取信息消费群体的更多关注度;短视频平台正处于传播的风口期,把握短视频平台,意味着拥有更多的传播潜力;此外,基于移动终端的客户端平台已成为人们接收信息的重要渠道,是内容生产与传播必不可少的一个部分......因此,大数据科研机构可以借助主流媒体+自媒体,实现信息的复合传播,不断裂变。

  • 4.3.3应用整合营销传播理念


现代信息资讯泛滥,虽然受众接触到的信息不断增加但同时信息的深度和真实性却在下降。整合传播学系统化理论、提升信息聚焦服务可以强化受众记忆中信息的稳固程度,并能够时时被唤醒。

在高校科研机构的信息传播中,需要统一各种沟通元素,这些沟通元素既包括产品元素,即自我传播的设计、包装、LOGO、色彩等,也包括非产品元素,即广告、促销、公关活动等。一方面,基于一种有效的统一方式,在各大媒体平台(如微信公号和微博认证)上,按照标准化的、辨识度高的形象和话语体系进行传播,由此实现叠加的传播效应;另一方面,打造科研院校的CIS系统,积极建构科研院校的三大识别系统。首先,打造具有独特性、激励性的院训和院歌,以增强研究院师生的归属感,不断激励师生为良好院风、良好学习和科研氛围的形成做出积极贡献。同时,挖掘研究院自身的故事,映射研究院自身的治学精神、师生关系等,以起到内外传播的双重效果。然后,构建研究院行为识别模式,包括研究院重要人物的行为和危机公关两方面重点内容。研究院重要人物的行为方式是自身师生的表率,利用名人效应,反应该院的优良风貌和内涵,当面临危机时,处理得当可以减弱伤害,甚至转危为机;最后,是打造视觉识别系统,让人一眼便能够记住,具有高识别度和高记忆性。

  • 4.3.4树立新媒体思维,深耕媒体内容


在任何媒体上进行投放宣传,“内容为王”永远是核心理念。科研机构在进行新媒体宣传的过程中除了对自身形象进行塑造,还要承担起对公众进行科普的社会责任。网络热门话题作为公众事件的集成,往往能引起社会大众的广泛关注。高校科研机构,要做到产学研的结合,一个很好的方式是通过新媒体提升自己的知名度。而一次成功的宣传,需要打破外界的刻板认知,例如利用热点事件,并从大数据的视角出发进行分析和剖析,实现科研出圈。在对公众进行科普时,要积极将自己的科研成果进行通俗化表述,从受众的角度出发,以受众身边的可见之物、可见之事为出发点,让公众真正能够读懂、读透、读上瘾,使科研接地气,拉近科学与公众之间的距离。这不仅可以提升自身的影响力,同时可以吸引到机构的潜在生源,为后续提升科研能力做好铺垫。而针对圈内人士的传播则需要更加简单粗暴地产出高质量的研究成果,这就需要科研机构提升自身科研能力,打造精品项目,积极利用大数据优势把握研究趋势,紧跟社会发展的步伐,及时更新课题和研究方向,不要炒冷饭。

  • 4.3.5紧跟国家风向标,培养高质量数据人才


早在2015年,国务院就印发《促进大数据发展行动纲要》,部署大数据相关工作,推进大数据产业的平稳发展。而作为大数据教育主力军的高校,应该把握好国家的每一项政策,积极贯彻落实。同时,在与企业的合作中,以培养高素质技能人才为目标,遵循“共赢促进发展”的校企合作机制,秉承“资源共享、优势互补、责任同担、利益共享”的原则,通过开展多维度、多层次的合作,建立稳定的校企合作关系,为今后双方在教育领域开展战略合作奠定坚实基础。此外,还要基于自身优势和行业基础,在专业建设、实训室建设、实习基地建设、职业认证、技能竞赛、学生实习、学生就业等方面把握机遇,广泛吸取学生意见,完善奖励制度,以快速打造具有国际水平的大数据人才。
 
本报告参与人员:清华大学新闻与传播学院 向安玲、郑州大学新闻与传播学院 赵奥博、广西大学新闻与传播学院 夏毓

部分参考文献:

[1].F.Sidi, P.H.Shariat Panahy, L.S.Affendey, M A.Jabar, H.Ibrahim, A.Mustapha.Data quality:A survey of data quality dimensions[C].in 2012 International Conference on Information Retrieval Knowledge Management (CAMP) , 2012:300-304.

[2].王力,周晓剑.大数据质量评估的标准及过程研究[J].经营与管理,2018(04):84-88.

[3].刘金晶,曹文洁.基于本体论的多源异构数据集成方法研究[J].软件导刊,2018,17(03):198-200.

[4].丁小欧,王宏志,张笑影,李建中,高宏.数据质量多种性质的关联关系研究[J].软件学报,2016,27(07):1626-1644.

[5].莫祖英.大数据质量测度模型构建[J].情报理论与实践,2018,41(03):11-15.

[6].黄永鑫. 数据质量检测规则自动发现的研究与实现[D].电子科技大学,2020.

[7].李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展, 2013, 50(06): 1147-1162.

[8].韩京宇,陈可佳.基于事实抽取的Web文档内容数据质量评估[J].计算机科学,2014,41(11):247-251+255.

[9].汤莉,宫秀军,何丽.PAC-Bayes理论及应用研究综述[J].计算机科学与探索,2015,9(01):1-13.

[10].余芳东.非传统数据质量评估的国际经验及借鉴[J].统计研究,2017,34(12):15-23.

[11]李森有,季新生,游伟,赵星.一种基于差分隐私的数据查询分级控制策略[J].计算机科学,2019,46(11):130-136.


编辑:王菁

校对:汪雨晴


【新鲜】大数据学习资料包(6月版本)

浏览 39
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报