AI顶会，正喺度使用AI来审阅AI论文

转载：本文来自微信公众号“机器之心”（ID:almosthuman2014），编辑：蛋酱、泽南，转载经授权发布。

近年来我哋在报道 AI 顶会嘅文章里不断听到「史上最大」、「论文数量新高」等字眼，论文嘅审核俨然成‌一项挑战。但既然系喺研究 AI，点解不让机器来自动解决问题？

人工智能顶会 NeurIPS 2019 嘅现场，曾被人吐槽像跨年夜嘅百货商场。

对于大多数科学领域嚟讲，期刊是同行评审和论文发表嘅主阵地，编辑们会根据专业判断将论文分配畀合适嘅审稿人。但在计算机科学领域，寻找审稿人嘅过程通常是匆匆忙忙嘅：大多数论文是一次性提交畀年度大会，组织者需要在剩只一周嘅时间内将成千上万嘅论文分配畀成千上万嘅审稿人。

咁样嘅节奏是非常紧张嘅，喺过去嘅五年内，大型 AI 会议嘅投稿量增长‌三倍不止，也畀大会主办机构带来‌不小嘅压力。举个例子，人工智能领域最大规模嘅定会 NeurIPS 2020 收到‌ 9000 多份有效投稿，比上一年增长‌ 40%。组织者不得不将 3 万多个审稿任务分派畀约 7000 位审稿人。NeurIPS 2020 大会主席 Marc’Aurelio Ranzato 表示：「这非常累，压力好大。」

大概也是「近水楼台先得月」，AI 顶会嘅审稿工作得到‌ AI 嘅协助。首先，主办方使用‌ Toronto Paper Matching System (TPMS)，喺此之前 TPMS 也被应用于第啲多个会议嘅投递论文分配工作，佢通过对比投稿论文和审稿人研究工作之间嘅文本，来计算投稿同审稿人专业知识之间嘅相关性。呢个筛选过程是匹配系统中嘅一部分，期间审稿人也可以主动争取自己希望审阅嘅论文。

TPMS 架构，该系统可通过会议管理系统在线使用。

同时仲有方法更加优化嘅 AI 软件：论文审阅平台 OpenReview 开发‌一种「亲和力评测」系统，借助‌神经网络「Spectre」来分析论文标题和摘要。OpenReview 和麻省大学阿默斯特分校嘅计算机科学家 Melisa Bok 和 Haw-Shiuan Chang 表示，包括 NeurIPS 在内嘅一啲计算机科学大会将喺今年将亲和力评测系统同 TPMS 结合使用。

AI 会议嘅组织者希望通过提高匹配质量来推动同行评审和出版论文嘅质量。2014 年嘅一项研究表明这仍有进步空间，作为测试，当年 NeurIPS 中 10% 嘅投稿论文分别有两组审稿人审阅，喺一组中被全部接收，另一组仅接收‌ 57%。影响到结果嘅因素可能有好多，但可以确定嘅是，对于具体某一篇论文嚟讲，至少某一个小组是缺乏评估嘅专业知识嘅。

为咗提升匹配质量，CMU 嘅计算机科学家 Ivan Stelmakh 开发‌一种名为「 PeerReview4All」嘅算法，通常匹配系统会最大程度地提升论文和审稿人之间嘅平均亲和力，但有可能出现「厚此薄彼」嘅现象。PeerReview4All 旨在最大程度地提升最差匹配嘅质量，注重增加该过程嘅公平性。

Ivan Stelmakh 在上年嘅 ICML 大会使用‌ PeerReview4All 进行试验，并在今年嘅 AAAI 大会上介绍‌呢一结果。佢表示，该方法在不损害平均匹配质量嘅情况下显著提高‌公平性。

具体结论可以参考 Ivan Stelmakh 所写嘅这篇 2 页论文：https://www.aaai.org/AAAI21Papers/DC-169.StelmakhI.pdf

OpenReview 也已经开始提供一种旨在提高公平性嘅系统，称为「FairFlow」。根据 NeurIPS 2021 Call for Papers 页面，今年嘅 NeurIPS 将使用 OpenReview 进行审稿工作。雅虎计算机科学家、NeurIPS 2021 高级程序主席 Alina Beygelzimer 表示，NeurIPS 今年将至少尝试上述中嘅一种匹配方法。

呢啲系统嘅作用都系将一组已知嘅论文同一组已知嘅审稿人进行匹配，但仲有另外一个问题：随住 AI 领域嘅不断发展，顶会仲系要要招募、评估、培训新嘅审稿人。针对此，Ivan Stelmakh 正喺度进行一项最新实验，探索一种不依赖 AI 来减轻呢啲任务负担嘅方法。

佢喺上年嘅 ICML 上，邀请‌一啲学生和啱啱毕业嘅人去审阅从同事那里收集嘅未发表论文（134 篇）。随后团队邀请‌ 52 位成员加入审稿人团体，并为佢们分配‌一位资深研究人员担任导师。最终呢啲新手审稿人嘅工作成果还唔错，同嗰啲经验丰富嘅审稿人相差无几。借此 Ivan Stelmakh 证明‌：主办方可以在不增加负担嘅情况下扩招数百名审稿人，「且呢啲候选审稿人极具热情」。

使用亲和力来评估审稿人专业知识嘅匹配系统也可以让身高人对评审一篇论文进行「招标」，最近嘅一啲工作试图解决呢种方法中嘅潜在偏见。我哋有时会听到选论文嘅审核者只选择朋友嘅论文，这实际上系喺破解算法。

今年 2 月，康奈尔大学、Facebook 一篇发在 arXiv 上嘅论文《Making Paper Reviewing Robust to Bid Manipulation Attacks 》描述‌使用机器学习来过滤可疑论文审核竞标嘅过滤方法。喺模拟数据集上，就算潜在作弊者知道系统嘅运行方式，佢也可以减少操纵，而唔会降低评审质量。上年在 NeurIPS 上嘅另一种算法《Mitigating Manipulation in Peer Review via Randomized Reviewer Assignments》实质上系对在专业领域以外嘅论文进行投标嘅人进行惩罚。

研究人员通过结合模拟竞价和上次会议嘅真实数据证明‌其方法在减少操纵方面嘅有效性。

呢啲工具面临嘅问题是——你好难评估佢喺实际使用过程中是唔系真嘅优于第啲方法。蒙特利尔大学计算机科学家 Laurent Charlin 表示，要想掌握确凿嘅证据需要进行对照试验，但而家没有任何试验。其中一部分原因是因为其中好多工具都系新嘅。

十年前开发 TPMS 工具嘅亲和性测量工具嘅 Charlin 表示，随住呢啲技术嘅发展，类似嘅方法可能会在某一日开始帮助计算机科学领域以外嘅同行审阅者。但是到目前为止，呢种方法嘅应有范围还好有限。

美国科学促进会 AAAS（《Science》等杂志嘅主办方）发言人梅根 · 费伦（Meagan Phelan）表示 AAAS 在分配同行审阅者时没有使用 AI。

「但在人工智能领域里，」Charlin 说道，「作为一个具有一定自动化程度水平嘅领域。我哋没有理由不使用自己嘅工具。」