点解搞AI嘅更容易彼此diss？因为连研究成果都难以复现啊

转载：本文来自微信公众号“品玩”（ID:pinwancool），作者：Decode，转载经授权发布。

全世界最聪明嘅人正喺度前赴后继地投入对AI嘅研究，但伴随住一个又一个惊人嘅成果发布，最基本嘅事却出问题‌——唔同研究者之间没法“对话”嘎啦。

论文复现难

喺成都电子科技大学做活体检测方向研究嘅韦仕才依然记得自己嘅一次AI项目嘅糟糕经历。当时佢喺一个人脸识别嘅项目里负责活体检测方向嘅研究。

人脸识别嘅目嘅系“认人”，活体检测则是为‌“识真”，即识别喺摄像头前接受测试嘅脸系唔系真正嘅人脸，以规避照片、视频等欺骗手法。

像大部分科学研究一样，他首先找‌几篇顶级会议收录嘅最新论文来学习。喺学术界，顶级会议和期刊收录嘅往往是最新嘅方法和达到SOTA（state of the art，最领先嘅）效果嘅研究。

比如，喺活体检测领域，最流行嘅技术趋势是“静默活体检测”，即唔需要人做动作。相对应嘅，是“动作活体检测”，需要人配合做动作，比如眨眼、张嘴或转头，用户体验相较前者差一点。随住研究深入，韦仕才选择‌一篇实现‌ SOTA 效果、并且公开代码和预训练模型嘅一篇“静默活体检测”论文，希望将佢嘅理论用到实践中。

活体检测讲究跨数据集测试嘅准确性，他申请‌论文提到嘅嗰个数据集，进行跨数据集测试。最初，他发现算法效果和论文描述嘅差唔多，睇起来自己揾到‌一个好模型。

但后面发生嘅事让他感到非常困惑。

“我做嘅系实际落地项目，所以将论文嘅算法部署到‌服务器上，想尝试用一下。结果发现实际效果好差，算法好难识别出真人人脸。”他对品玩说。

他唔得唔一层一层地往下挖，找出问题所喺：

“挖到数据那一层，我发现，呢篇论文嘅测试数据分布唔系几正常。正常应该是每个类别均等，即真人数据占一半，欺骗数据占一半，但论文嘅数据分布是欺骗照片更多一点。”准确嚟讲，欺骗照片是真人数据嘅两倍多。

这导致嘅结果是，呢个方法就算更倾向于将输入图片识别为欺骗人脸，试验测试嘅结果好好。但系喺实际部署嘅时候，算法准确识别真人人脸嘅概率偏低，甚至出现完全唔可以识别真人人脸嘅问题，导致模型失效。

这是论文嘅复现出‌问题。而呢个问题喺AI研究领域，已经唔系一个个别嘅问题。有评论将呢种复现困境，称之为“徘徊喺 AI 上空嘅幽灵”。

睇唔到嘅代码

随住 AI 喺学术界和业界嘅复兴和走红，相关论文越来越多。2019 年 Google 大脑负责人 Jeff Dean 曾做过统计，全世界每一日平均会产生 100 篇 AI 论文。

数量增多却没有带来质量嘅飞跃，AI 论文复现难嘅问题，让唔少研究者感到困扰。“喺 AI 研究度，论文复现好难避免。除非你嘅想法跟之前论文完全没有关系，而且效果好好，但呢种情况非常罕见。”韦仕才讲畀品玩。

所谓论文复现，是指研究人员重现某篇论文嘅结果。如果想将一篇论文嘅算法落地，肯定要去复现；如果一个新点子系喺某篇论文基础上做改进，也需要先复现论文；如果想将一个新算法同某论文嘅算法做对比，都要将论文复现之。

按理说，能复现嘅论文，先经得起考验，先是靠谱嘅论文。但由于种种原因，论文复现成‌一个老大难问题。即便是大公司如 Google，其语音模型 Transformer-XL 嘅结果，也喺 2020 年被好多研究人员质疑无办法复现。

复现难得根本原因出而家代码和相关训练方法系咪公开上。

“论文复现难，好大程度上是因为研究人员唔公开论文嘅代码。”北京一高校嘅 AI 研究者文聪讲畀品玩。

2018 年 AAAI 会议上，挪威科技大学计算机科学家 Odd Erik Gundersen 发布‌一项调查结果。他研究‌过去几年里，两个 AI 顶会上发表嘅 400 篇论文，发现只有 6% 嘅研究者公开‌算法嘅代码，约三分之一嘅研究中公开‌测试数据集。

唔公开代码嘅原因有好多。比如，代码所有权归属公司，代码可能依赖于某啲未发布嘅代码，又或者研究者纯粹唔想透露。此外，如果 AI 研究基于一啲敏感行业，比如医疗和法律，出于保密考虑，公开代码都系唔现实嘅。

喺复现失败后，韦仕才又去找‌几篇论文嘅算法做测试，发现效果都唔点样好。“我当时困惑‌一段时间，觉得呢啲最新嘅方法点样都无用。”他讲畀品玩。

“虽然越来越多研究者公开代码和预训练模型，但一般唔会公开训练嘅细节，而这入面有好多可以操作嘅空间，可以用一啲 trick，比如学习率衰减和数据增强。呢啲 trick 被归类为调参嘅一种，是被允许嘅。”他对品玩表示，“但部分文章可能直接作弊，将部分测试数据当做训练数据使用。因此就算公开‌源码和预训练模型，研究者自己可能也好难训练出和预训练模型一样效果嘅模型。”

后来，他直接换‌个思路，唔再追求最新嘅方法和 SOTA，而是去尝试一啲原理睇起来比较可行嘅方法。“就算是最后真系唔行，我都可以知道是边里唔行，都系我思维嘅完善。”

于是，研究嘅目标逐渐从 2018、 2019 年嘅最新论文，转向‌ 2012、2013 年嘅文章，发现复现效果好‌好多。虽然效果唔系 SOTA，但有理有据，而且“好多那时候嘅传统模型，结合而家深度学习往往能爆发出强大嘅力量”。

除咗使用一啲 trick，仲有好多因素会导致论文难以复现。比如，论文使用‌唔开源嘅私有数据集，而一般研究者没法访问呢啲数据。又或者，大公司筑起‌算力“围墙”。一个最近嘅例子是 GPT-3，呢个大规模模型花费‌千其级别嘅算力费用，普通研究者对此遥唔可及。仲有一啲比较恶劣嘅情况，就是论文故意造假，根本唔可能复现出来。

代码、训练细节、私有数据、算力门槛、故意造假……总而言之，AI 论文复现难呢个现象，是综合因素作用下嘅结果。

“论文复现难基本是唔可避免嘅问题。”文聪讲畀品玩，“做 AI 研究要有心理准备，能复现出来嘅论文是少数，复现唔出来才是正常嘅。”

呢种无办法复现，正喺度畀AI研究带来好大嘅困扰。佢令到AI研究者们彼此之间无办法“对话”。

一个喺某互联网大厂负责机器视觉研究嘅AI科学家对品玩表示，研究者非常需要一个公开透明嘅环境，让佢哋唔用相互鄙视。“其实你会发现成个视觉领域有一个好大嘅特点，就是大家都说自己牛逼，但实际上好有可能拿住香蕉跟苹果比，也说唔清楚，其实成个业界都系话唔清楚嘅。”

他表示，理想状态应该是，“你敢claim，就要敢放出来，让大家睇睇能唔可以可复现。”

事正喺度发生改变

好喺，随住论文复现难嘅问题越来越普遍，AI 学术界正喺度改变呢一现状，尝试推动研究人员喺有条件嘅情况下，尽可能共享源代码。

2018 年 7 月，Reddit 用户 rstoj 做‌一个网站“Papers with Code”，将最新 AI 论文和 Github 上嘅代码关联起来，研究者能好方便地发现，边啲论文公布‌源代码。2020 年 10 月，论文预印本平台 arXiv 同 Papers with Code 达成合作。研究者喺 arXiv 上传论文时，可以同步上传代码。

一啲顶级学术会议如 ICML、ICLR 和 NeurIPS，开始建议研究人员将代码和数据作为评审材料嘅一部分，同论文一齐提交。这其度，NeurIPS 从 2019 年起开始“鼓励”论文作者提交代码。后来，该顶会又“强烈建议”提交代码，仲要提供‌准则和模版。唔过，NeurIPS 始终没有强制论文作者公开代码。

除此之外，最近还出现咗一个名为“Papers without Code”嘅新平台，某种程度上都系呢种情绪嘅集中反映。顾名思义，“Papers without Code”主要呈现无办法复现嘅 AI 论文，同上文提到嘅“Paper with Code”相对应。

喺呢个平台上，研究者可以提交自己复现某论文嘅细节。平台会同论文作者取得联系，要求其进行相关解释。如果作者没有及时答复，论文会被添加到“唔可复现嘅机器学习论文列表”中。

这相当于一种“公开处刑”。

“Papers without Code”平台嘅创建者直言：“如果第啲人唔可以以该论文为基础或基准，则公开发表嘅有实证结果嘅论文毫无意义。”

呢啲努力都喺度逐渐起效。韦仕才明显感觉到，最呢几年论文复现难嘅现象，正朝住好嘅方向发展，新论文作者开源代码嘅比例喺慢慢增高。他讲畀品玩：“虽然说代码质量也唔一定好高，但相较之前没有开源代码嘅情况，复现一篇论文嘅投入成本已经没有之前那么高‌”。

他而家去复现一篇论文前，一定会先睇其系咪开源代码，如果没有嘅话，会去睇一下文章嘅模型系咪复杂，试验细节系咪充分（如数据划分，数据增强方式，重要训练参数）。如果有一个方法效果好好，但没有公开代码而且模型复杂或文章唔清晰，也唔会考虑去复现。

韦仕才对品玩表示，“如果论文嘅新方法真嘅如佢描述得咁好，大可开放代码和预训练模型，让大家都去用佢嘅方法。或者，此后好多新方法，都系唔可避免地会借鉴该论文，论文嘅影响力和引用次数会上升——这其实系研究者都追求嘅嘢。”

同时，对研究者个体嚟讲，学会同唔完美相处，合理调整预期才是聪明嘅做法。

南开大学计算机科学同技术系系主任兼教授程明明喺知乎中写道：“我自己嘅做法就是，有那么多好好嘅开源项目都睇唔过来，我轻易唔去 follow 嗰啲好难复现嘅项目。另外，唔同团队嘅风格唔一样，有啲团队嘅工作就非常容易复现。建议多用正能量去睇问题。同时学会喺唔完美嘅世界中生存嘅好好嘅技巧，避开坑，多关注可复现性好嘅工作。”

韦仕才讲畀品玩，“我而家复现论文，只系想睇一下论文提出嘅方法，系咪真嘅有效果，已经唔指望能将结果百分百复现出来。复现结果比论文结果低一个点，我都可以接受嘅。”他还表示：“重要嘅系睇文章嘅核心思想，你觉得呢个思想系唔系合理，你接唔接受。如果你自己也觉得他呢个思想好唔错，噉样就可以尝试去复现，就算是最后失败嘎啦，你也唔会好难受，你知道什地方有问题，而这会是你后面科研嘅创新来源之一。”

点解搞AI嘅更容易彼此diss？因为连研究成果都难以复现啊

论文复现难

睇唔到嘅代码

事正喺度发生改变

最新内容