百科问答小站 logo
百科问答小站 font logo



如何看待北京理工大学某硕士生被指几乎一字不差地抄袭论文? 第1页

     

user avatar   youkaichao 网友的相关建议: 
      

到目前为止,还没有一篇技术分析帖,大家都是对着PDF截图在做猜想。趁着中秋假期,我来做一篇技术分析吧。

技术分析的主要来源是LaTeX源文件。arxiv网站要求论文上传者必须上传LaTeX源码,而从这些源码里,能够找到非常丰富的信息。我将两份LaTeX源码放在了清华云盘,方便大家下载。一份是原作者的,一份是抄袭者的。

在本回答中,我主要想搞清楚,这次抄袭是来自PDF文件泄露,还是来自源码泄露

下面开始技术分析。

首先是抄袭者arxiv上传的源码清单,可以看到2.pdf 和 3.pdf 是论文中两张图对应的文件,cvpr.cls和ieee_fullname.bst是官方模板,没有什么信息。关键在于egbib.bib文件和LAD-CVPR.tex文件

抄袭论文借用了CVPR2021的paperID为4506的投稿模板

在LAD-CVPR.tex文件中,我们可以看到以下两行,也就是说这个模板是从一篇CVPR2021投稿、paperID 4506的论文的模板中改过来的。根据CVPR官网的信息,4506这篇论文已经被CVPR2021接收了。但是在CVPR2021的论文中查不到Label Assignment Distillation for Object Detection这一篇论文。那么,这很可能表明,抄袭者和CVPR2021 的4506论文作者有关系。由于论文投稿的paperID并不会公布,我们目前不知道它是哪一篇论文。这就需要与CVPR2021的PC联系了。

更新:4506的一作在评论区回复了,CVPR2021的paperID为4506的论文是"Multi-Scale Aligned Distillation for Low-Resolution Detection",一作并不认识抄袭者。

4506的一作提供了图片证明:

这样一来,为什么抄袭者的LaTeX源码里有4506论文的信息呢?

幸运的是,Multi-Scale Aligned Distillation for Low-Resolution Detection这篇论文也已经挂了arxiv,因此也能下载到它的源码。于是我又去翻了翻源码(也放在清华云盘里了),这下找到原因了:

抄袭者看到了Multi-Scale Aligned Distillation for Low-Resolution Detection这篇论文的arxiv,然后以此为模板,把不知道从哪里得到的原论文PDF进行了复刻,填充到模板中,挂上了arxiv。

因此,4506的作者完全是被误伤了,在此对作者表示歉意。

抄袭论文是抄袭者对着PDF进行了复刻

Excel2LaTeX的标记

在LAD-CVPR.tex文件中,有一张表格引起了我的注意:

图中的这一行注释“% Table generated by Excel2LaTeX from sheet 'Sheet5'”对我来说太熟悉不过了,因为我本人经常用Excel记录数据,再利用Excel2LaTeX插件来转换成LaTeX代码。我还写过一篇知乎文章来介绍这种方便的方式:

对比而言,原作者论文中,这张表格的源代码是:

原作者的源代码中并没有Excel2LaTeX的标记。

所以基本可以肯定,抄袭者是对着不知道何种途径拿到的一份PDF,将表格抄写在Excel里,再利用Excel2LaTeX插件进行了转换

citation的名字及顺序

正常写过论文的人都知道,会给引用的文章一个简单好记的名字,方便引用。而且源码中引用论文的顺序是乱的,因为软件会帮助我们自动进行排序。然而,抄袭论文是对着PDF复刻的,所以他们对着软件排序之后的结果,一个一个地去找对应的论文并加上去

我截图找出了原作者在NeurIPS2020投稿上的引用部分,大家关注这几个引用:

然后在抄袭者的egbib.bib文件中:

用于biblatex引用的label与原作者被拒稿的论文中引用序号完全一致!

图片中的文字错位

在抄袭者的3.pdf文件中,放大后我们能看到左上角sco三个字母出现了错位,而res没有。这说明抄袭者是将原作者的PDF放大并进行截图导致的。

事已至此,基本可以下结论:抄袭者通过某种途径获得了原作者的被拒论文的PDF版本,然后对着PDF进行“人工反编译”,将PDF写成LaTeX,并套用CVPR2021投稿中paperID为4506的论文的模板,将论文挂上arxiv,然后被原作者发现

那么,至于抄袭者是通过审稿渠道获得PDF,还是在一些地下市场获得PDF,那就不得而知了。这个需要进一步追查。

不幸中的万幸,这不是一次源码泄露导致的抄袭。如果是源码泄露,那可能就是overleaf被盗,广大科研工作者都要担惊受怕了。


user avatar   rewrgf 网友的相关建议: 
      

这人选错学校了。

如果选的是复旦大学,这么做不仅不够成学术不端,复旦大学还要给他颁发博士学位。而且还会成为以学术专业性闻名的网红,得到众多粉丝簇拥。


user avatar   zhao-ytc 网友的相关建议: 
      

帮吃瓜群众总结一下事情全貌。本次事件是实锤无误,不仅有被抄袭者的原论文和抄袭者的现论文对比(几乎一字不差);而且抄袭者也承认是他的错误(据称是“pdf上传错误“)。然而这件事情远非抄袭那么简单(后文祥谈)。

1、时间线回顾:

作者王剑锋(知乎大V @王剑锋 )2020年Neurips投稿了一篇文章(投稿截止日期为2020年6月5日),标题为Label Assignment Distillation for Object Detection,该文后被拒稿。由于Neurips的投稿是有记录的,所以此事实为真。

抄袭者在2021年arxiv上传了一篇文章,题目为Label Assignment Distillation for Object Detection,一字不变。上传时间为2021年9月16日,在被抄袭者投稿一年之后。因此时间上,必然是王剑锋拥有著作权,无可争议。投稿人为Minghao Gao, Hailun Zhang和Yige Yan。

与之前发生过的公开论文被抄袭事件不同。按照AI会议的规定,审稿期间的文章是不允许外泄的,因此,抄袭者是如何得到论文的,是一大疑点。

2、被抄袭论文与抄袭论文对比

我们把王剑锋的论文和arxiv的抄袭论文放到一块对比,发现几乎一字不差。

先看摘要部分:

方法部分也一模一样,绝对不是“写作不规范”:

不仅公式一模一样:

就连论文中的图也是直接搬过来:

读者可以自行对比其他部分:

王剑锋论文链接

arxiv抄袭论文链接

3、二作的回应:

首先,抄袭者通过邮件回复了王剑锋,

可以看到,主要意图是:(1)承认是自己提交的arxiv(2)否认是故意抄袭(3)将责任推给第一作者(4)希望王剑锋撤回举报了事。

王剑锋当然很不满意,难道arxiv也能“错误提交”?作为提交者,虽然不是第一作者(但是是共同第一作者),也应该负有主要责任。如果一字不差的全文照搬都不算抄袭,那么还有什么算抄袭?

后面抄袭者还在知乎上联系了王剑锋,基本意图没有什么改变。

(1)承认自己提交的

(2)否认是故意抄袭

共同第一作者居然说对文章的事情“不是很了解“,也是够绝了。

(3)将责任推给第一作者

(4)希望尽快了事

4、一作的回应:

后面抄袭的第一作者高明豪也回信了王剑锋,态度冷淡,坚持说是“上传错误”,否认抄袭。一作称自己“初次涉猎相关事务”,好像把抄袭当成了工作来干。

注意这里的一作回应是有信息量的,文章来自于“小组学习会”,“可能是以前师兄或者老师审稿留下的”。部分解释了抄袭论文的来源。

有匿名用户称上面的截图是来自一作的回应,真实性待查。如果一作真的是“普通的打工仔”,“农村娃“,那这件事就更恐怖了:一个普通的不做这方面研究的研究者,是如何得到正在审稿的未公开文章的?

5、9.19日后续:Neurips官方回应和北理工启动调查

9月19日,Neurips官方回复了王剑锋,称审稿人、领域主席并非是arxiv论文的作者(这个几乎是显然的,因为arxiv论文中的作者都没发表过论文,不可能成为审稿人,更不可能是主席)。同时官方称审稿人及领域主席并不是和arxiv同一个机构的,这也就是说,他们不可能是arxiv作者的导师或者学长。而一作称是“老师或者师兄留下的“。要么是一作说谎了,要么是一作还跟校外老师或者已毕业师兄有联系,要么是所谓学习会还请了校外人士来讲。

北京理工大学自动化学院回复了王剑锋,称已启动调查。

6、小评:并非简单抄袭事件

对于新手,如果说是一般性的错误甚至部分仿写,都可以理解。但是全文照抄属实说不过去,应当负有学术责任。何况这次是抄袭未发表未公开的文章。可以这么说,如果说王剑锋没有锤他的话,这篇文章的著作权将被他夺去,因为抄袭者是第一个公开的。这是非常恶劣的事件,研究者几个月乃至几年的工作,就被几个小时的ctrl+c,ctrl+v夺取,伤害的不仅是王剑锋本人,而且是其他认真做research的人的感情。抄袭者应当公开承认抄袭并道歉,而不是说“办事不周“”不了解情况“”希望不要留下污点“。幸亏这次是抄袭到了知乎大V,有几万粉丝的王剑锋,如果是抄袭的一般人,可能很难引起关注。

这几件事越来越启发导师们,应当首先对学生进行必要的学术诚信教育,划清底线。不然留下了案底,就很难在学术道路上走远了。

然而这件事情远非简单的抄袭事件,更加值得深思的是:抄袭者是怎么得到还在审稿的未公开论文的?抄袭者显然还不具备作为审稿人的资质,那么抄袭者是否和某个见过这篇文章的审稿人存在着利益交易?更进一步,是不是有某个交易平台,出售未发表的论文?这让我们每个做AI研究的研究者都细思极恐。这也是抄袭者应该被追查的事情。有一种可能性:是不是抄袭者购买的稿件,以为是原创的,所以上传arxiv?

根据第一作者的解释,文章来自于“小组学习会”,是“老师或者师兄审稿”的文章,那么老师或者师兄是不是也应该付相应责任呢?按照规定,审稿人是不可以将审稿的稿件分给审稿无关的人看的。所谓的学习会,恐怕就是公然将稿件给需要论文的低年级学生学习,让其窃取idea或成果,无奈这次学生太蠢全文照抄导致东窗事发。这种开学习会分享在审稿件的行为,肯定是违背学术道德的,应当被追责。

7、9.29后续:真相大白,旷世实习生泄漏了论文

根据王剑锋在reddit[1]的公开声明,旷世实习生泄漏了论文,该实习生将原始论文的pdf转换成latex,并尝试投稿2021ACML(后被撤稿)。他还将该论文送给了arxiv抄袭论文的一作。该一作并不知道论文是抄袭而来,所以就上传了arxiv。


非常好笑的是这个回答之后,有个叫“学术期刊“的私信我问我需要什么帮助,点进去一看都是一些代发论文的广告(头像也是),是不是这个抄袭者正是购买了这样的服务,然后当成是自己的原创呢?


评论区有些网友不知道Neurips的公开规则,这里声明一下:

2021年之前用的是Microsoft CMT系统进行投稿,对于接受稿件会在官网公开全文和审稿意见,被拒绝的稿件是不会被公开的(也没这功能)。事发的Neurips2020就是用的Microsoft CMT。

2021年用的是open review,对于接受稿件都会公开(全文+审稿意见+决定),但是对于被拒绝稿件,是可以选择是否公开的。

参考

  1. ^ https://www.reddit.com/r/MachineLearning/comments/pvgpfl/ndr_alleged_plagiarism_of_improve_object/

user avatar   yang-jin-hai-93 网友的相关建议: 
      

更新:

王剑锋研究员 @王剑锋 在Reddit上已经回应此事,表示越南兄弟的工作也很nice,有明显的不同,仅仅是撞了concurrent work的idea。

(上图中论文ABC编号与本回答不同)

此外,王研究员还表示论文是被实习生D泄露的,甚至D还将此文投稿至ACML 2021,被其博导发现投稿信息后撤回(在导师不知情抄袭的情况下),然后又将论文转手给论文A的一作E。E在看到论文B上传了arxiv后,联系论文A的二作F(北理工学生)也上传了arxiv。

E和F在考研时认识,E之前曾在中科院实习,目前在考研二战。

目前王研究员已经联系了D的学校以及博导,D会受到相应的惩罚。

目前来看,论文不是从审稿流程中泄露的。


有趣的事情发生了

在当时吃到瓜的第一时间,我就去查了下这篇涉嫌抄袭的论文,最初上传于9月16日,简称为论文A

结果发现还有另一篇从名字上看非常类似的文章,最初上传于8月24日,作者来自越南,简称为论文B

(当时我只知道被抄袭的是中国的研究员,还以为是越南的大兄弟是被质疑抄袭的那个)

但是知乎上似乎一直没有关于论文B的讨论,不知道王剑锋研究员有没有看到这篇文章

今天,这位越南大兄弟在对知乎上对这件事的讨论完全不知情的情况下,也在Reddit上发表帖子表示自己的论文B被论文A抄袭了

顺便鞭尸了Duo Li :)

越南大兄弟也给出了抄袭的证据

但是只给出了几小段的文本相似,明显不如王剑锋研究员的证据有力。

越南大兄弟也简要说明了论文B和旷视工作的区别:(在帖子中Paper A指的是越南大兄弟的论文,论文C指的是旷视的工作)

目前来看,论文B与旷视的工作可能仅仅是撞了idea,但是论文A则像素级抄袭了旷视的工作……

戏剧性拉满,Reddit网友直呼dramatic :)


user avatar   yi-zhi-zhu-ding-lou 网友的相关建议: 
      

砍一只手换毕业???哇!!!

有一说一啊,我也算名校毕业的,肯定比这几位强。如果砍一只手换我毕业我肯定是不愿意的。知乎做题家不少,有谁愿意的出来说一句?

可见一只手的价值远远大于一个河海或者北理工学位。

所以你看,现在只是从北理工退学就能保住一只手,从这个角度上看,这个学生真是占大便宜了。

@王剑锋 算是宅心仁厚,知道还是一只手比起学位来对这个孩子更重要一些。

这个学生以后回头看,肯定心里只有感恩。

我就不懂为什么总有人喜欢说片汤话,合着就是上坟烧报纸,糊弄鬼呢。


user avatar   li-yue-30 网友的相关建议: 
      

大概率是买的论文

具体论文来源还没实锤,但根据多方猜测,大概率是买的论文。

我虽然已经毕业十几年,但我毕业的时候就有比较完善的买论文,甚至买毕业设计的产业链。

这种产业链是大学教育中最不该存在的。

我觉得不管是买平时的论文,还是买毕业设计,买的人,指导老师,卖的人都应该承担相应的责任。

这种行为算是一种作弊,作弊最大的危害也是给没作弊的人带去不公

虽然很多人会说

你成绩不好,为啥怨那些作弊的人?为啥不看那些没作弊的人?那些人没作弊也比你分数高,那才是你应该反思的,应该从自身找问题。

对的

自己成绩不好,最大的原因就是自己

但不妨碍痛恨作弊的这种行为,学渣也有权利抨击作弊者。

关于这次一字不差复制粘贴的动作

我个人是非常希望严惩的

这种严惩不是像抄袭者自己说的自断一只手,这种严惩要在合法合规的前提下,尽可能的严厉一些。毕业十几年后,没有关注过任何高校圈的事儿,但这种买论文的事儿,真的不是现在才有的,至少我上学的时候,就已经是公开的秘密了。

人,当你敢做违法乱纪,或者违背公序良俗的事情的时候,就要随时准备好为此事负责。


user avatar   CY6-6-6 网友的相关建议: 
      

达则原创创新,

穷则农民儿子。

现在抄袭者已经进化到不改原文,改两头堵了。这就是加速时代的好处吧。


其实我不关心这事情怎么处理。因为这个好处理。既然闹出来了,且这里面的作者没有一个是学术圈的大佬,不存在包庇暗箱。学校见到这种软柿子一定会“公事公办”,正好还落了个不纵容学术不端的好名声。

当然,我对软柿子并无同情。大家都当过软柿子,只有你搅坏了一锅番茄鸡蛋汤。

想要走捷径,不论是抄袭还是买论文,都要承担相应的风险。挨打立正就好了。


我真正关心的,是这手稿怎么流入了抄袭人的手中?

很多分析我觉得有道理,这么堂而皇之,应该是不知道这论文的来源。所以多半是存在着买论文的产业链的。

这种产业链久已有之,也不是什么新闻。但我一直以为是某些人收钱后粗制滥造缝缝补补搞出一篇,虽然可能东抄西抄,但总是来自于已发表的内容。没想到的是居然来自于未发表的投稿论文。这显然是不合常理的。

因此可能存在几种途径。

第一,论文中的作者为了钱卖了这篇论文。

第二,论文被作者之一以某种途径不小心泄露了出去。

第三,论文在投稿过程中被审稿人泄露了出去。或者审稿人就是卖论文的人。

第四,论文被某种不可知的方法,比如电脑被黑,等方式泄露了出去。

我还是倾向于第三种可能。这种单盲评审机制,虽然是目前最好的机制,但弊端其实也很明显。就拿某老师举例。我截屏了知乎某答主的答案中引用的某老师博客为例:

实际上这就是学术界暗箱操作的典型例子。编辑有着稿件的全部信息,因此能够告诉她目前已经收到了和她文章内容相似的稿件。

我猜测编辑的意思是,如果她能够在编辑处理前一篇稿件deadline之前投稿,那么编辑就可以拒掉前一篇的稿子,把她的这篇送审,或者把两篇同时送审。但如果投稿时间相差太多,那么她的这篇就不能算是一篇“新”工作,自然也就无法受理,很可能会被直接拒掉而不送审。

这里面,编辑和那个无辜的第一篇论文的作者并无直接利益关系,但其实已经做出了具有偏向性的损害后者利益的行为。所以这只能算是轻微的。

还有更为恶劣的一种情况,对于论文作者的利益更构成直接的毁灭性影响。那就是审稿人的学术不端。

我看过很多例子(在知乎上也有不少吐槽),审稿人在看到一篇稿子时,如果发现和目前自己的工作撞车,那就会千方百计地拒掉稿子。让自己的工作首先得以发表。

更恶劣的则是,审稿人看到了好的工作见色起意,让自己的学生重复工作,然后赶制一篇,立刻投到其他刊物抢先发表。

有人可能会说,那来得及吗?

其实很多文章,重要的突破就是一个idea,想到了就成功了一大半,其他的都很简单。所以并不是不可能的任务。

学术圈其实大家不在乎和别的人的idea撞车,真正怕的是别人比你发表的早。诺贝尔奖常常看的不是谁做的多,而是看谁发的早。不信你去问philip kim看他怎么说。


如果能把源头揪出来,看看是谁审稿的时候把别人辛辛苦苦做的论文给卖了,这才是真正的恶有恶报。


user avatar   yao-yuan-17-92 网友的相关建议: 
      

我只能说真nb,还能这样干,投个稿还得担心审稿人会不会故意把我文章拒了然后…。


user avatar   liulangdehama 网友的相关建议: 
      

这种事儿在各种文创圈不是常见吗?

就是小孩子没把抄袭当回事儿……

不知道科研圈对这玩意有多重视……

大家在知乎,应该都见过不知道多少次,抄袭者对抄袭不以为然,觉得被抄袭者多事儿……

甚至跟原作者说,把你的稿子给我用一下,被拒绝了,还说用你的东西是瞧得起你,别不识抬举都是常见……


user avatar   kurisu-makise-84 网友的相关建议: 
      

低情商:是的,已经结束了。

高情商:diy的时代暂停了,只不过我们暂时不知道重新开放的期限。




     

相关话题

  意识会是宇宙中一种无法解释的能量形式吗? 
  如何看待丹麦宣布取消所有新冠防疫措施?是不是选择了以后与病毒共存的生活? 
  做科研的人自己觉得幸福吗? 
  中国科研目前的最大问题及其根源是什么? 
  如何看待核心期刊《银行家》发表 10 岁学生散文,作者系主编之子? 
  如何看待饶毅老师所说,科学家的孩子发文章很正常? 
  量子计算的商业应用前景如何?目前有哪些大公司在做相关的技术开发和布局? 
  搞学术的你,每日最期待的事情是什么? 
  经历20年的科研发现一个怪现象:创新性越强的文章越难发表,而跟风之作和修修补补的文章容易发,你觉得呢? 
  为什么现在的年轻人大部分都去追着演艺圈,科学很少有人愿意去探索? 

前一个讨论
女朋友大学一个月2500多生活费,什么吃的都是父母买,我建议她稍微攒点钱有错误么?
下一个讨论
有没有一些照片或视频,让你感到「祖国越来越强大」了?





© 2024-11-08 - tinynew.org. All Rights Reserved.
© 2024-11-08 - tinynew.org. 保留所有权利