来源:网络
编辑:Priscilla 好困
【新智元导读】港科大准博士ICCV论文被「锤」抄袭,ICML论文二作、三作在推特上列出详实证据,引起轩然大波,当事人李某发文致歉。我们有幸采访了杜克大学陈怡然教授,他呼吁后人能够引以为鉴。
8月15日 21:30 UTC+8,发表在ICML的「被抄袭」论文二作,法国国家科学研究中心博士后研究员Pierre Ablin在推特上发帖,并放上了两篇文章的地址。论文地址:https://arxiv.org/abs/2102.07870开源代码:https://github.com/michaelsdr/momentumnet/随后在8月16日 04:05 UTC+8,ICML论文三作谷歌大脑研究员Mathieu Blondel,整理了一份他们详细的剽窃「实锤」。证据地址:https://michaelsdr.github.io/momentumnet/plagiarism/8月16日 21:04 UTC+8,涉嫌抄袭的ICCV论文一作李某删除了上传至arXiv的论文。不过根据arXiv的政策,之前版本的文章会得到保留,目前仍可以查看:论文地址:https://arxiv.org/pdf/2108.05862v1.pdf8月16日 11:43 UTC+8,有网友在知乎上发帖提问,显然,这个时候作者还没有删除arXiv上的论文。很快,ICCV论文的导师、二作火速作出回应,并且给出了进一步的行动。而ICCV论文一作也在昨天下午出面作出了详细的回应。知乎回答:https://www.zhihu.com/people/li-duo-99-36
李某的履历十分「光鲜」,曾多次在ICCV、CVPR、ECCV国际顶尖会议上发表论文。据统计,从2019年至今,李某共发表论文12篇,其中有7篇是一作身份。除了发表过众多论文,李某曾在英特尔中国实验室、商汤科技、字节跳动AI lab、英伟达等知名公司实习。同时,他还是2020年CCF-CV学术新锐奖获得者,也已经获得了香港博士研究生奖学金计划(HKPFS)资助,将在2021年至2024年攻读博士学位。其实,李某已经是业内年轻有为的「尖子生」,有读者在我们评论区留言,不理解为什么要「急于求成」。有读者认为,学术抄袭剽窃的做法「大可不必」,只会白白断送自己的学术生涯。杜克大学电气与计算机工程系陈怡然教授也关注了此事,从文章署导师名的角度在微博上发表了自己的看法。在此之前,陈教授也曾遇到过合著论文后没有被署名,并且指出了其中两个违反学术规范的问题。今天,我们非常荣幸采访了杜克大学陈怡然教授,一起来讨论这件事情背后存在的科研和学术规范问题。
李某是一名在读硕士,网友因此也质疑为何导师没有负起监督的责任。但是由于其导师也并未回答具体的细节,用陈教授的话来说:「目前来看这个问题还不是1和0这么简单」。陈教授指出,学生的文章导师必署名,除非导师事先同意。如果学生在公司实习,就相当于是公司的全职雇员,知识产权也属于公司。公司出于知识产权保护的原因,可能会不愿意署导师的名。因此,实习期间发表的文章可以没有导师署名,但前提是这篇文章不能作为学生在学校内科研的一部分。对于博士来说,这部分研究通常也不会放在论文里,因为这并非是在导师指导下的研究。不过在一般情况下,学生的实习都是导师同意的,也会事先说好如果写文章应该怎么处理,基本也不会出现导师不知情的情况。然而,如果导师没有事先同意,学生偷偷写文章,尤其是学生还在学校就读,受学校资助的情况下,那问题就大了。陈教授表示,在美国的学校,如果遇到这种情况,很多导师就会直接请他「走人」了。李某的这篇论文,则很可能是学生在离校期间自己写的。如果是学生实习的结果,导师就没啥责任,因为这事情本来就和学校无关。如果他用了学校资源,或者从学校领了RA,就要看这个钱是导师出的,还是学校统一出的。如果是导师出的,导师本来就需要署名(你资助了这个项目啊),当然也要负责任。如果是学校统一出钱,学生可以自己找合作者,导师只是学业导师,那这个导师就没什么大责任。因为他不负责这个学生的科研,或者这个具体项目上的科研指导。所以,导师有没有责任,有多大责任,得看当时这个研究成果是在什么情况下如何做出来的。陈教授认为,这次的事件实际上还是一个「有关资深作者署名和责任的科普案例」。知乎答主@Summer Clover表示,现在以数量为KPI的评价体系让这些paper逐渐从灌水变成了抄袭和洗稿了,还出现了「挂名成风」的现象。知乎回答:https://www.zhihu.com/question/480075870/answer/2065526987陈教授指出,确实已经有研究指出了现在文章的coauthor越来越多的情况。而paper KPI本来就内卷,尤其是在国内发文章的水平上来之后愈发的严重。不过,李某的这篇论文并不是paper KPI和挂名的问题。这种现象不是简单的抄袭,而是找最新挂在arXiv的一篇文章,然后采用同样的思路,但是用不同的设计细节和数学表达,沿用一模一样的讨论和分析,重新做了一遍。这种「剽窃」手段的水平就高明多了。因为很多细节也不一样,结果也不完全相同,但是结论一样,查重是查不出来的。由此可见,他试图在「rebuttal」时表示自己的相似度为1.5%这个论点是站不住脚的。至于文章被放在arXiv上导致idea被「照搬」的问题,陈教授认为,这可能也是arXiv的一个缺陷吧。毕竟文章太多了,reviewer无法对已有文章一一掌握,也不太可能了解到还有那么一篇类似的文章,尤其是从头到脚全部重写和重算了一遍。
陈教授表示,能看得出来这个学生动手能力很强,明明没必要这么抄袭,本来可以有很好的前途,这下全毁了。其实,针对arXiv论文预发表这一机制,其实大家都知道可以/可能这么做。但是当真的有人踏出了这条「学术红线」,陈教授还是感到非常震惊。同时,教授也指出,此次的事件影响恶劣,也对华人学者的声誉带来了极大的打击,对李某个人而言也是毫无益处。最后,希望所有做学术科研的朋友都能谨记:不要试探学术红线的边缘。参考资料:
https://www.zhihu.com/question/480075870
https://twitter.com/PierreAblin/status/1426899071495819265
https://twitter.com/mblondel_ml/status/1426998427766886408
https://weibo.com/u/2199733231?layerid=4670436422194305