352篇博士学位论文学术不端行为的数据分析

数学算法俱乐部

共 2708字,需浏览 6分钟

 ·

2021-08-05 18:05

数学算法俱乐部

日期 : 2021年08月04日       

正文共 :2418

来源 :学术志











来源:中国知网、《 中国高教研究》
作者:马玲    编辑:学妹


样本数据说明

样本数据的基本情况为:进行检测的论文共352篇,在学科类型上,文科专业为54.8%,理工科专业为45.2%;涵盖了哲学、经济学、法学、教育学、文学、历史学、理学、工学、管理学9大学科门类、25个一级学科、87个二级学科。


样本数据分析

博士学位论文一般篇幅较大、字数较多,因此,检测系统使用绝对字数,即检测文献与对比资源库的总重合字数作为检测结果的核心指标。如图1所示,样本数据中总重合字数少于1万字的占总篇数的77.8%,总重合字数少于2万字的占89.7%,这在一定程度上说明了样本数据中绝大多数博士生能够遵守学术规范。同时,也确有一些论文存在着与对比资源库比较严重的文字重合情况,尽管这些论文所占比例较小,但却反映出严重的学术不端倾向,不容忽视。

 
从学位论文的学科分布看,如表1所示。总重合字数少于1万字的论文占本学科门类检测论文总数的比例呈现显著差异。其中,工学、文学、理学的总体状态较好,法学、经济学、哲学较差。而且,总重合字数超过3万字的学位论文有16篇,主要分布情况如表2所示,绝大多数为文科专业。


从学位论文的指导教师层面看(见表3),无论导师指导几篇学位论文,其总重合字数少于1万字的比例远远高于其他字数区间,并且呈现递减趋势。在一定程度上证明了导师确实履行了职责,起到了质量把关的作用。但总重合字数超过1万字的论文中指导教师指导4篇、5篇论文的比例明显高于指导3篇及以下的。指导论文的篇数应该与导师所花费的精力成正比,因此,出现这一比例实属正常。但也恰好说明,在精力有限的情况下,指导论文篇数越少越能更好地发挥指导职能,保障论文质量,反之,容易因疏于指导而导致学术不端行为的发生。


总重合字数在该检测论文中所占的比例被称为总文字复制比。它与总重合字数一样,也是评价检测结果的核心指标。疑似段落数则反映了重合文字在学位论文中的分布情况,一般来说,疑似段落数越多,存在学术不端行为的可能性越大。为达到研究目的,笔者随机抽取了总文字复制比存在显著差异的10篇博士学位论文,对其重合文字的疑似段落进行了分析(见图2)。结果表明,样本论文的总文字复制比与疑似段落比、疑似段落最高复制比以及疑似段落最低复制比总体呈递增态势,在一定程度上反映出部分学术不端行为是故意而为之的,并且,个别论文的疑似段落比甚至占到了论文总段落数的90%,可见,其学术不端行为的程度已极为严重。

学位论文一般分为摘要、文献综述、正文和致谢几个部分,正文中又可分成现状陈述、问题提出、理论支撑和结论建议等几个部分。总的来看,样本数据中,无论文理科专业,重复文字最多的为绪论、文献综述和结论建议部分。表4随机选取的5篇学位论文对这一现象做了罗列。


对学位论文的学术不端行为检测,还有一个现象不可忽视,即引证的是作者本人已公开发表过的科研成果,但未作引证而直接使用于学位论文之中。如表5所示,5篇论文所被检测出的重复文字均出自作者本人已公开发表过的科研成果,根据学位论文撰写的相关要求和常规做法,这属一种合理引用,但不够规范,正确做法是所有的引证文字均应标明出处,即使是本人文献。



数据分析结论

通过上述对样本数据的研究,可以看出:学术不端行为在博士生学位论文中确有存在,但仅为个别现象,绝大多数博士生能够遵守学术规范。

存在不端行为的学位论文以文科居多、理工科较少,这与学科特点有着高度的关联。理工科专业的学位论文撰写基本上要依靠做实验,而实验是在导师的指导及监督下完成,所以篡改伪造数据等现象较少。相反,文科专业论文中大块的内容就是文字,因此,引证占有一定的比例不足为奇。如,历史学、马克思主义理论等学科,由于其研究内容多涉及伟人的理论或史料,缺少这些辅证,论文就显得苍白无力。在美国,学者通常是有言必注,惟恐哪句话别人说过而未加指明。

在整篇学位论文中,绪论、文献综述和结论建议部分的文字复制的比例较高。应该说,绪论和文献综述部分多为陈述前人已做过的科研成果,所以也应当允许有适当比例的引用。而结论建议应该是通过理论研究和实验、数据等的分析而得出的符合论文主题的改进性建议,代表的是作者本人的研究观点,应当最具有创新性,因此,这部分有过多比例的引用应当是一种故意行为,确属不端,它反映了学生的学术诚信的缺失。

随着网络信息搜索的便捷,学生论文中抄袭的文字来源广泛,也增加了导师指导的难度。因此,导师必须对学位论文投入较多的精力,同时不断提升自己的学识,真正做到“传道、授业、解惑”。此外,在论文引证上也有待加强,一方面,有些论文使用了作者本人已公开发表过的科研成果,但未作引证,根据学位论文撰写的相关要求和常规做法,适当的有标注的引用是合理的,相反,过多的引用就成了重新发表,也是一种学术不端行为。另一方面,有些论文对引证文字作了标注,但标注不规范。这些都反映出加强学术规范教育的必要性。

但也应该看到,系统毕竟是系统,具有不可避免的机械性,因此,会出现一些假象,比如对提供检测的论文的文字、图表等做技术修改,系统则检测不出。但对大段的文字重合、复制比较高的论文,系统还是起到了监督的作用,因此,在实际应用中,高校须对系统检测的结果进行甄别、分析。

本文来源中国知网,原载于《 中国高教研究》2011年第12期,原文题为《博士学位论文学术不端行为的实证分析及探索性建议》。作者:马玲,华东师范大学研究生院。转自:社科学术圈
本文为节选,为阅读及排版便利,本文删去了注释与参考文献等内容,敬请有需要的读者参考原文。
引文格式:马玲.博士学位论文学术不端行为实证分析及探索性建议[J].中国高教研究,2011(12):31-33.


— THE END —


关于NLP相关技术全部在这里:预训练模型、信息抽取、文本生成、知识图谱、对话系统
各种编程语言的优缺点
史上最狠的论文评审意见(没投过SCI,你简直不知道reject这个词有多可怕呀)
理解矩阵背后的现实意义
想追她?先算算你要等多久
如何让AI读懂大佬的微表情?
浏览 51
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报