收获的九月——《大数据实践课》成果展示

数据派THU

共 4378字,需浏览 9分钟

 ·

2021-10-01 04:26

《大数据实践课》是清华大学大数据能力提升项目必修培养环节,旨在以企业实际项目需求为驱动,锻炼学生和真实用户之间的交流能力、需求获取能力、团队合作能力,实现学生自身综合能力、科研能力及求职就业竞争力的提高。


实践教学最具特色的地方在于,将来自全校理、工、文、商、医不同学科专业背景的学生分为A类(面向商科、人文社科等非信息类专业背景学生)和B类(面向计算机、软件、自动化等信息类专业背景学生),A、B类同学自由组队,分工明确,以数据驱动的“真问题,真数据”、校内外双导师制的共同指导下完成项目任务。 


实践中不同专业院系的同学们都参与了哪些实际项目、解决了什么问题、他们都有什么收获呢?让我们一探究竟。


01

实践单位:首都医科大学附属同仁医院

项目名称:病理性近视的AI诊断


小组成员:

海家瑞 水利工程

龚傲凡 水利工程

曹  卫 生命科学学院

吴泽昆 水利水电工程系

左成文 电子工程

汪子奇 数据科学与信息技术


研究目标:我国近视患病人数居世界首位,已成为重大公共卫生问题,甚至在某些地区已经成为了首位不可逆性的致盲眼病。病理性近视的传统筛查对硬件要求较高,需要专业医师,依赖进口设备,因而普及率不高。我们要实现AI辅助综合筛查,大大节约人力、物力和时间,提高普及率,降低成本。


实践课的成果:训练了病理性近视影像学图像识别模型,搭建了病理性近视影像学智能诊断平台。经验证,病理性近视诊断平台具有被应用于辅助病理性近视诊断的潜力,能够辅助眼科医生诊断病理性近视,提升该疾病医疗诊断的工作效率。

部分成果展示

图1 AI诊断可视化平台


模型训练结果对比


同学们的收获:


吴泽昆:本课程让我将课程学到的知识体系真正投入到实际项目的实践中,主要开展了数据前期处理和可视化平台搭建的工作,使我对大数据技术的应用有了更深入的认识。并且在小组合作的过程中,我了解到项目合作开发中可能出现的问题以及解决方式,也积累了一定的项目经验,让我受益匪浅。

龚傲凡:本次实践通过开展数据标注、数据集构建、模型训练及结果分析等工作,我对大数据技术的原理和实际应用的理解更加深刻,并积累了与团队成员合作开发的经验,希望以后还有更多机会参与到实际项目当中。

海家瑞:在本次实践课程中,我们真正接触了大数据分析、人工智能技术的实际应用场景,与理论课程不同,我们在课程中参与了更多数据整理、数据集构建的前期工作,同时也对眼科相关知识有了许多了解。


       企业导师点评:


非常感谢大数据实践课提供的这次合作机会,留给我印象很深的是项目负责的老师们都非常敬业、专业且负责,协助解决项目进行中的问题。同学们非常优秀且勤奋,这个项目涉及了大量的工作量和专业知识,同学们最后交上了一份非常亮眼的答卷。


医学领域的眼底AI诊断是目前研究的热点和发展方向,期待能够继续在这个实践项目的基础上进行后续连贯研究。


02

实践单位:北京智慧星光信息技术有限公司

项目名称:全国热点事件的聚合与公众情绪分析


小组成员:

刘愉之 政治学

潘莹莹 政治学


研究目标:该企业存在对互联网热点事件情绪分析的需求。但现有情绪分析能力有两个弱点:缺乏英文情绪分析能力;中文情绪分析仅包含正面和负面两个维度,且情绪词典准确度不足。项目任务主要有两个:

(1)整理高精度的中英文情感词典

(2)训练深度学习模型。


实践课的成果: 

1.基于实践中的数据标注结果,应用到了对情绪数据情感预测之中

2.情感词典用于企业后续项目

部分成果展示

1.词典示例


2.四种模型


3.不同分类准确度


同学们的收获:


刘愉之:在项目中,我学习了情感词典的构建方法并进行实践,完成了文本标注,挑战了未学习过的Bert模型、Bi_lstm_attention模型和Roberta模型。


       企业导师点评:


两位同学在实习期勤奋认真,有很强的适应能力和创新意识,能够利用所学的知识迅速投入到实际工作中,调研了前沿的情绪识别方法,建立了一套标注的情绪体系;收集了和整理的大量的情绪知识库,包括中英文;整理和标注了一批标注情绪语料集,为后续算法训练提供了巨大帮助;设计了情绪识别算法模型,并完成了多种深度学习算法训练以及结合训练的效果验测。同学们圆满地完成了热点事件情绪识别项目,为情绪识别后续版本的优化提供大量基础知识库,以及各种深度学习算法效果验测,成果突出。


03

实践单位:北京妇产医院

项目名称:妇瘤科数据库与随访


小组成员:

张锦文 新闻与传播

梁铭轩 建设管理

郑和帆 建设管理

杨璐嘉 科学技术史

郭晓蕾 传播学


研究目标:在医疗大数据体系尚不健全的大环境下,北京妇产医院积累的大量数据需要进行分类整合、数据清洗以及可视化等操作。


实践课的成果:建立了DWF数据库,实现了PC端和移动端管理,并实现多个主题的可视化呈现。产科和肿瘤科的DWF数据库已经可以测试使用(PC端+移动端),为多个部门的数据查询和数据编辑提供应用提供了便利;当前可以适用的部门包括:手术室、咨询台、妇科、肿瘤科等。

       部分成果展示

1.PC端数据查询与可视化(基于DWF)


2.移动端数据查询与可视化(Pad)


3.职能权限分设机制


       同学们的收获:


张锦文:在老师的帮助下,我不仅学习到许多产科、妇瘤科的医学知识,还尝试了DWF数据库的学习和echart平台的可视化操作。一方面,在数据清洗过程中,我意识到“整理文字信息”环节存在巨大的工程量,这让我对数据处理的整个流程有了更完整的认识,对其中的技术难点和时间控制有了更深的体悟;另一方面,过去面对代码我总有畏难情绪,在可视化学习时基础不扎实,这次通过“干中学”解锁了许多图表代码,挖掘出一些有趣的结论,很有成就感! 


        企业导师点评:


这类课程非常有意义,学生不是简单学习课本知识,而是利用企业提供的场景及数据解决企业的实际问题,同时在这个过程中获得更好的沟通、交流及获取信息的能力,加深对于大数据和真实世界的理解。建议学校多办此类课程,并在后续保持与企业之间的联系,使短暂的交流成果能够最终落地。


04

实践单位:北京天坛医院

项目名称:基于头CT的急性脑出血颅内血肿测量与早期血肿演变预测算法的研究


小组成员:

唐文丁 医学物理与工程

严振峣 核科学与技术

宋雨杉 安全科学与工程

张旨晗 医学物理与工程


研究目标:脑出血是最常见的脑血管病,急性脑出血有较高的病死率及病残率,发病早期在多种因素作用下,血肿极其不稳定,有逐渐扩大的趋势。传统脑部CT影像学可以对检查时颅内情况实时体现,但其并不能对出血量、血肿形态、内部结构等信息进行提示。本课题拟以急性脑出血为研究对象,希望通过一些智能化的方法对脑部CT影像进行智能化处理,为临床医生提供客观有用信息,为治疗决策的选择提供重要依据,最终提升急性脑出血患者的治疗转归。


实践课的成果:实现了对颅骨、大脑软组织以及血肿部分的分割,并建立了三维可视化模型,实现了对脑出血的量、形态、结构进行测量和判断;开发了集成脑出血量计算结果、三维可视化等内容在内的用户图形界面。

部分成果展示

1.脑部分割结果的三维可视化


2.GUI显示不同断层的CT扫描结果


3. GUI显示脑部分割结果三维可视化及相关信息


       同学们的收获:

唐文丁:在这个项目中我学到了CT医学图像的简单处理方法,包括图像分割、三维可视化、特征提取等,对我将来在医学物理的科研中处理图像有所帮助。同时通过更加贴近临床的实践体验,也了解了医生们的思考方式和需求。

张旨晗:在本次实践中,我学到了CT图像的一些处理算法(比如生长算法等),以及MATLAB中一些功能的实现、血肿特征提取等知识。我自己的博士课题是有关SPECT/CT系统上的SPECT系统设计和算法研究,本次暑期实践让我对CT有关知识有了更加深刻的理解和认识。


企业导师点评:


同学们利用12598例急性缺血性卒中患者脑影像数据以及健康人脑网络模板,获得116个脑区的梗死病灶相关脑网络数据,结合患者的功能预后评分,采用SVM、随机森林、深度神经网络等机器学习算法,构建了急性缺血性卒中功能预后预测模型,准确率达62%。在项目过程中积极学习掌握MRIcro、SPM等专业影像软件的应用。


05

实践单位:中原银行

项目名称:群体智能算法应用实践


小组成员:

张原宇 化学工程

曹相洲 管理科学与工程

陈宇 环境工程

张莉均 仪器仪表工程

周璐 教育经济与管理


研究目标:中原银行从2018年开始实施全面数字化转型战略,随着数据量的日益增大,数据之间的逻辑关系也日益复杂。本项目的需求是探索各类算法在实际调度场景中的效果,尤其希望在动态调度方式下获得有效的解决方案。根据现有样本、标签及数据情况,探索实际场景中动态调度如何利用无监督、半监督学习生成有效的任务动态优先级模型及优化效果量化监控。


实践课的成果:尝试探索了多种群体优化算法,根据任务间依赖关系进行动态调度,并加入实际数据中的起批时间等限制条件,将系统任务运行总时间优化到13小时左右,并设计了相关量化指标评价调度效果。

       部分成果展示

1.蚁群算法任务调度可视化结果


2.遗传算法调度时长与运行时长


3.队列调度算法运行时间


       同学们的收获:

陈宇:增强了对大数据的应用端(金融系统离线任务调度)的了解,以及对工具端python的掌握。

张莉均:这次大数据应用实践使我有机会对大数据所使用到的高级数据结构深入了解和应用,培养和提高了代码能力,对金融大数据应用产生了具体的认识。

周璐:这次项目实践让我学习了解了群体智能优化算法,并初步尝试了将算法应用到企业实际数据相关业务中。


企业导师点评:


在项目实践过程中,各位同学均表现优异,能够独立思考、积极攻克项目难点,表现出良好的专业能力和敬业精神,对我行调度系统的建设提供了更加广阔的思路。在后续的工作中,希望能够继续加强合作,在金融科技领域共同探索,发挥双方优势,实现合作共赢。


浏览 86
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报