先说基本情况吧。我同时是author和reviewer的角色,而我看了眼投稿+审稿文章的分数,感觉以NeurIPS的规律,没有任何一篇能上岸。此外,在我审稿的文章中,我给的分数一般略微高于平均分。
以上是背景,下面来谈谈我的观点。这个答案就没有很强的逻辑性,所以我想到什么说什么,可能会比较零碎。
首先,我想请同时承担author和reviewer任务的同行们想想,大家是不是经常有这样的感觉:我的文章被拒了很冤(reviewer根本没看懂),但是我拒掉别人的文章却一点儿没冤枉别人(这些文章这么烂,就不该中)?如果是,有没有觉得这是某种悖论?
也许很多人(包括曾经的我)都有这样的疑问:某某某文章那么烂也能中,我的文章比它不知道要好多少!然而概率论告诉我们,随机采样的时候,确实会出现一些outliers,这也是无法避免的。所以,你的文章比某些中稿的文章好,并不代表你就应该中稿。话说回来,你也不清楚别的文章,是否有台面下因素——个人感觉,自从引入了bidding机制,中文章似乎变得更难了。
NeurIPS在2014年的时候做过一次实验,将某些随机挑选的文章分配给两组AC和reviewer,独立评判它们的成绩。结果发现,相当一部分的文章,两次评判的结果是不一致的。这也就说明审稿的随机性很大——这一点,我认为没有任何办法能够解决。今年NeurIPS重启这个实验,不知道最后的数据是不是会更随机一些。
造成随机的原因有很多。其中最本质的一点,是AI领域的发展限于停滞。深度学习爆发已经整整十年了,差不多走完了它最辉煌的生命周期,而下一次爆发何时会出现,没有人能说清楚。大量聪明的头脑挤入一个陷入瓶颈的领域,人人都希望发文章;但事实上,每年值得被记住的文章,两只手就能数过来。那么除了这些确实有长远意义的工作,每年那么多的投稿,难道都要拒掉吗?
于是就只能依靠各种会议去半随机地挑选一些不太差的文章。这种机制看起来很扯淡,但就像高考一样,你没有更好的办法,甚至也离不开它。唯一走出困境的方法,就是找到下一个突破点,但这又谈何容易?现实点说,不少人通过密集投稿的方式来攒文章,从统计学意义上说,这对个人是有益的,但是对集体是有害的。正是因为投稿量的上升,导致了审稿质量下降,随机性增加,然后进入恶性循环。但是人性就是这样,不投白不投,谁会放弃这些机会呢?
还有不少人说的reviewer群体的质量逐渐下降,我表示谨慎赞成。有几个因素:需要大量的reviewer导致门槛降低;reviewer工作量加大导致审稿时间缩短;此外就是严重的审美疲劳。
有趣的是,最近几年我特别留意了下自己的投稿,发现我自己亲手写的文章,往往比起学生们写的文章,分数要更低一些。而被reviewer批评的点,大概就是“你说的某个观点不太对”:举个例子,这次我有篇文章里写了一句“当前基于标签的深度学习方法似乎快要饱和了”,然后一个reviewer就说这句话不对,因为“物体检测的AP每年还能提升几个百分点”。
至于rebuttal,现在看来作用是越来越小了。事实上,许多reviewer在审稿意见里写的缺点,根本就不是他们拒稿的主要理由。这一点,我自己作为reviewer,也经常有这样的感觉:其实我看到文章后1-2分钟,就已经定下了基本的基调——在后续的阅读过程中,我的观点可能会有所改变,不过这个概率应该不超过20%。然后,我就需要组织各种观点来佐证reject,这其实是个很无趣的过程。对于很多问题,我其实很清楚,即使他们回答好了这个问题,我也根本不会改变自己的观点。但是我又能怎么办呢?
所以我也挺能理解一些reviewer的:他们就是不喜欢我的工作,仅此而已。你花了7天时间跑实验,仔细斟酌每一个单词的用法,但是他们大抵就是扫一眼,然后敲下“我坚持我原本的分数”。
发了这么些牢骚,最后我想说,这个社区总体来说公平的。真正solid的工作,终究会引起大家的关注。所以要调整好自己的心态:如果就是想混个文章,那么被拒了没什么,再投就是;如果想做出有影响力的工作,就不应该纠结于一两次的拒稿,好好想想自己的文章是否到了非接收不可的程度。不管怎么说,心态最重要。
虽然我只回答了NeurIPS 2021的问题,不过我想,在AI下一次爆发出现前,把这个评论搬到任何一次会议的审稿上,都没什么毛病吧。
这次有三个投稿,分数均是borderline。
一直都是NeurIPS,ICML,ICLR还有一些CV会的reviewer。今年被分了7篇paper。今年审下来,感觉ICML还好点,NeurIPS的ML领域受到了其他行业研究者的严重冲击。总的来说,就是大家没那么关注idea的novelty了,也不关心theory是否solid。我的submission和审的submission,90%的审稿人全部都在关注performance,而且对performance的要求也变得特别高。
这么说并不是代表,ML的论文就不该有非常出色的performance。只是从研究者的角度(仅代表我个人),一个community的发展,需要一些方向性的论文,需要一些新的idea,也许它的表现不是那么突出,但是可以给整个community带来活力,带来指导。这样整个community才可以持续发展下去。
另外,对于格外关注performance的部分审稿人,你知道什么叫做公平对比吗?某个方法基于前人的4.5个方法缝合了下,达到了惊人的performance,这种方法从novelty角度毫无贡献,但却频繁地被一些审稿人拿来说事,要求做对比。这样的折磨,只会让大家都转变为“搭积木式”发论文吧,对整个行业的发展有巨大的阻碍。什么时候针对一个topic,投上去的论文,全部强调“搭积木式”的performance了,劣币驱逐良币,也就不会有太多有用的知识被引入这个topic了。
碰到一个sb审稿人,刚开始给5,唯一的问题就是实验可以更全面:1.更大的数据集2.其他任务。md,我tmd做的对抗训练,一般都不在imagent上面做,好我去做。其他任务,让我把对抗训练迁移到目标检测,这尼玛不是傻逼吗,迁移过去就是一篇新的工作,目前对抗训练就检测上面就只有百度那篇,还没有开源,正式的框架都没有,这特么的不是搞人心态吗?七天时间我学习检测的框架之后改到能攻击之后来进行对抗训练。重点来了,我把他要求的实验都给做了,他尼玛2号这天什么话都不说直接给我降到3分。我???你tmd要是不喜欢这篇文章一开始直接拒绝就是,最后一天来恶心人是不是md,还有搞对抗的同行能不能不要这么敌视同行的工作,现在对抗防御收录量有多少?这样玩下去对抗整个领域都烂掉。已经给ac写信并公开怼那个审稿人,如果最后没有如何说法,我想我以后再也不会投nips,也会离开对抗这个领域。
更新:最后文章中了个poster,最低的5分就是下面挂的那个人,最后也没看rebuttal。
其实我说的是这篇 CogView: Mastering Text-to-Image Generation via Transformers (https://arxiv.org/pdf/2105.13290). 根据任意文本生成图片,效果在COCO生成上取得sota的效果。口说无凭,这里是demo网站
大家可以去玩一下(这个其实是新的内测版的,效果好一些;文章的老网站没有上文章里提到的超分辨率)。输入文本最后加上“,高清摄影”可以基本防止生成水印。
其实好几个reviewer打低分的原因是openai有一篇arxiv的叫DALL-E的文章,做了类似的事情;我们事实上是独立开始的,但是arxiv确实晚一点。真正写出来的无厘头的理由可能就是在找借口而已。
但是关键是……我们早已经预料到这个事情了啊,所以文章里基本上全都是和DALL-E的比较,贡献点也写的都是more than DALL-E的,可惜审稿人只有一个人真正读完了introduction,四个里面有三个可能就只看了标题、图和结果表格。
还好meta-review比较给力,直接说“你们(审稿人)说跟DALL-E比没有贡献,我觉得很多啊,例如12345……所以应该中”,也算是比较宽慰了。我觉得对于其他任务比较简单有用的是,我们中间用了一个Sandwich-LN的新的transformer层结构是比较关键的,对于异构数据上训练Transformer的不稳定问题有奇效,这个其他人在自己任务上用了挺显著还专门告诉我哈哈。
这个文章其实还特别波折,之前那个喷中文模型的中间改了分,可能是讨论的时候get到了什么?总之知道回头的reviewer就是好的不说他了…然后最后还有一个emergency ethics review说我们没讨论fairness的问题,要人种性别均衡等等,还有可能用来炮制假新闻(这个文章讨论了,确实)或者监控别人(???)……吓了我一跳但幸好没有影响结果。
另外我完全没有收到任何通知邮件,只能从网站上看,有人是相同情况吗?
//-------------------------------原回复--------------------------------------
搞了这么多年科研,真的是感觉傻逼reviewer越来越多,渐渐从少数变成多数,唉。
也不缺这篇文章,但是非常满意的工作被俩审稿人啥也不说,一共一句“我觉得没有contribution”就干掉了。
还质疑说不应该训练模型中文,劳资给中国人用你管得着吗?
真的感觉投稿一年比一年挣扎,组里得分随着年级增大而降低,最牛逼的师兄甚至还得了个1分(虽然也有7)。怀疑是不是现在的reviewer都是本科生,跟自己有代沟了。
空口无凭,直接挂一个给5分的吧,相关内容隐去了。这人说他审了8个小时就这???辛苦大半年,机时费都烧了上百万就这???无语。。。那个4分的更加气人不想看先不挂了。
女王:求求题主放过我,我可不敢有什么政绩。。。