机器之心原创

编辑:魔王

NeurIPS 2020 论文评审结果出来了,你有被评审结果「摧残」到吗?

打开网易新闻 查看精彩图片

经历了两次 deadline 推迟之后,NeurIPS 2020 的论文评审结果终于出来了!一如既往,评审结果一出就引发了大量吐槽。

评审结果一出来,众多作者「在线摊手」

或许很多投稿作者的内心 OS 是:收到这样的评审结果,我该怎么办?

评审意见不一,rebuttal 可怎么写?

投稿人 Adarsh Jamadandi 表示自己收到的评审意见截然相反。一个认为论文写作思路不清晰,另一个则认为写得很好,很适合 NeurIPS 会议。他对此发出了灵魂一问:作为第一次投稿 NeurIPS 的人,我应该怎么写 rebuttal 呢?

打开网易新闻 查看精彩图片

辛苦做的研究得了低分,一个月搞定的工作拿到高分:NeurIPS 不值得

reddit 用户 enematurret 则表示:算了,改投别家吧……

我花了一年时间写的论文,解决了开放性问题,性能大幅超越 SOTA 结果,得了 6/4/4 分;提交前一个月才开始做项目,不到 48 小时写完论文,而且实验大多比较初级,这篇论文竟然得了 8/6/6 分。

现在我确信,评审结果大部分是噪声了。从现在开始,我要保存自己的论文草稿和 NeurIPS 认为不好的论文,将自己最好的工作投到别的渠道。

打开网易新闻 查看精彩图片

评审让我对比投稿时还没发布的论文……

更奇葩的还有这个。

reddit 用户 Lolikyon 表示,评审者认为 ta 没有与另一篇论文进行对比,而那篇论文 7 月 12 日才上传到 arXiv!

另一位用户提建议:「你的 rebuttal 可以这样写:『很遗憾,我们没有时光机器,能让我们对比还没发表的工作。』」

打开网易新闻 查看精彩图片

NeurIPS 2020 新审稿机制惹争议

除了和往年一样,大家对评审结果表示不理解和不认同外,今年还有很多争议围绕着 NeurIPS 2020 的新审稿机制。

顶会论文数量增长迅猛,随之而来的是评审人员不足、评审质量不够等问题。针对这一现象,2020 年收到将近 10000 篇提交论文、提交数量再次刷新记录的 NeurIPS 会议决定采取一些措施:

提前拒稿:领域主席会有两个星期时间去建议哪些论文会被提前拒绝,而且目前预计将有 20% 左右的论文会被提前拒绝。紧接着高级领域主席会有一个星期的时间来审核及批准这一决定。批准之后,这些论文作者将会得到通知。

作者也是审稿人:此次改变提出,在需要时,论文作者或联合作者都需要同意审稿。这一改变有助于增加审稿人员的总量,并可以在提交论文的人员中更加公平地分配审稿的工作量。

然而,这些试图解决论文评审问题的机制就执行结果而言真的符合设置初衷吗?

7 月中旬,NeurIPS 提前拒稿结果出来后,即引发大量吐槽。研究者们吐槽最多的问题是,这种提前拒稿机制着实有点「随机拒稿」的样子。提前拒稿确实减少了审稿人的负担,但这会让被拒绝的投稿人相当痛苦——失望来得太快,并且无法从中获得任何建设性的意见来改进论文。

刚刚,NeurIPS 2020 论文评审结果出来后,再次引发了对 NeurIPS 评审制度的批评和思考。英伟达机器学习研究负责人 Anima Anandkumar 直言:

再一次看到 NeurIPS 会议糟糕的论文评审结果,我确认了一点:如果评审人员没办法真诚地写评审结果,那就应该禁止他们同时作为作者提交论文。我们的 AI 会议需要更有可信度。

打开网易新闻 查看精彩图片

在这条推特的留言区,大家也是众说纷纭。

谷歌 AI 研究科学家 Hossein Mobahi 表示:

目前在 ICML 和 NeurIPS 会议评审过程中,领域主席(AC)已经对评审人员进行评分了。据我所知,这个分数仅用于发现优秀的评审人员,进而激励评审者。它其实可以有另一种类似的用途:摒弃不好的评审人员(这一过程应该接受更多 AC 的监督)。

打开网易新闻 查看精彩图片

加德满都大学计算机科学与工程博士生、前华为网络工程师 Shashi Raj Pandey 表示:

认真工作了好几个月或好几年,评审一两天就结束了,评审结果还像出自机器人之手——不具备恰当的 pointer、叙述、构造、善意等。大部分学术研究评审结果都是这样,唉!

打开网易新闻 查看精彩图片

oblivious.ai 联合创始人 Jack Fitzsimons 从更宏观的角度思考了这个问题 :

论文提交数量日益增长,肯定会有更多初级研究者担任评审(论文作者兼任评审加剧了这一点),因此我认为评审质量变差在情理之中。但是 NeurIPS 会议仍然具备很高的声誉。其他不错的会议(如 UAI、AISTATS)也收到了大量投稿。我认为我们缺乏足够好、具备较高声誉的子领域会议,不然评审和作者能够得到更好的匹配,这方面还大有可为。

打开网易新闻 查看精彩图片

俄勒冈州立大学杰出教授 Thomas G. Dietterich 发表了较为审慎的观点:

禁止并非解决问题的良策。我们需要更好地教育论文评审(和作者)。我们还需要重新思考 21 世纪的会议论文发表系统。

打开网易新闻 查看精彩图片

此外,Thomas G. Dietterich 教授连发 21 条推文,介绍了自己设想的 ML 研究和论文发表系统。

打开网易新闻 查看精彩图片

我对此的建议包括四部分。

核心部分是包含以下三个主要组件的 wiki:1)已发表论文的有标注、有组织的目录;2)机器学习实验设计和分析流程(包含代码)的集合;3)证明优化和学习理论发现的数学结果和分析技术集合。

该 wiki 应由包含高级编辑的研究社区维护,这些人员分别归属于三个专家组:1)领域专家组,负责持续跟进某些研究领域;2)方法论专家组,负责实验设计和统计分析部分;3)数学专家组,负责分析机器学习算法。

高级编辑应拥有不错的职业路径,具备相关的知名度和奖项。作者应查询该 wiki,找到相关的研究结果和方法。没有引用该 wiki 中的相关工作或方法的论文可被拒。

第二部分:论文投稿应包括结构化的摘要和附录。摘要应表明研究动机、研究问题、方法和贡献。附录应包含:a)解释作者认为论文与哪些 wiki 类别相关,与哪些不相关;b)实验设计和分析流程的伪代码;c)对所有形式化结果的陈述和证明。

第三部分:每篇论文分配一名编辑 / 指导者,负责帮助作者改进论文。

编辑阅读论文并就其「叙事」提供反馈,然后将建议以 pointer 的形式发送给作者。作者根据编辑的反馈更新论文,然后编辑通过,将该论文发布在某个平台上(如 Open Review),邀请研究社区进行评审和复现。

第四部分:如果研究社区认为某篇论文很重要或效果惊人,则论文进入深入的正确性检查环节。

由某个受资助组织接受聘请评审进行此类检查。论文发送给三类评审人员:a)研究类似问题的人员:这类评审负责评估论文的研究问题、论断和证据是否得到准确描述;b)方法论专家(如果论文包含实验的话):这类评审负责评估方法和分析的正确性;c)分析专家(如果论文做出了形式化论断):这类专家负责检查理论论断和证明。

其整体目标是对重要的论文进行再次检查,相当于「可编辑的 arXiv」,扩展性优于现有系统。

社区创建和维护 wiki 以跟踪领域最新知识,与为作者提供「doing research right」的更好工具同等重要。

Thomas G. Dietterich 教授表示:这个系统或许可以解决机器学习领域研究工作大爆炸的问题。