• 简中
    • 繁中
  • 注册
  • 查看作者
  • 世界上最难嘅“沙雕”游戏被AI攻破‌

    转载:本文嚟自微信公众号“量子位”(ID:QbitAI),作者 梦晨 晓查,转载经授权发布。

    13年以前,有咁样一款“变态”级难度嘅游戏曾风靡一时。

    佢嘅名简单粗暴——QWOP。意思是等玩家用这四个键位控制游戏人物嘅左右大脾同小腿,以最快嘅速度跑完100米。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    实际上,大部分玩家刚上手嘅时候,但系能连起点线都迈不过去就Game Over嘎啦。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    如果你能跑出几米远,绝对算是一个高手,甚至能在朋友面前炫耀一番。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    QWOP嘅难点在于,一旦角色失去平衡就好难再挽回,需要在100米嘅距离内一直保持重心不过于向前后倾斜。

    当你经过苦练第一次跑起嚟时,又会被50米处作者故意设置嘅栏杆摆一道:说好嘅100米短跑点样变跨栏‌?

    世界上最难嘅“沙雕”游戏被AI攻破‌

    △某小编当年嘅游戏截图

    在嗰个4399小游戏盛行嘅年代,这款都被戏称为“是男人就跑100米”。因为难度过于“变态”,QWOP开发者曾收到过好多辱闹邮件。

    虽然绝大部分人难以跑到终点,但仍有一批骨灰级玩家乐此不疲,佢哋不仅能轻松跑完,至今仲为竞争世界排名而不断挑战。

    2个月前,一位日本玩家创造‌新嘅世界纪录:48.34秒。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    睇到这款“沙雕游戏”,你是唔系会想到强化学习嚟训练双足机器人嘅画面?

    世界上最难嘅“沙雕”游戏被AI攻破‌

    一位嚟自波士顿咨询嘅数据分析师Wesley Liao都是咁想嘅。

    不过别以为“变态”难度嘅游戏到‌AI面前就变成‌毛毛雨。

    Liao综合‌之前多种强化学习算法,最后甚至请嚟‌“世界名师”教学,费‌好大一番功夫,先终于等AI在上礼拜打破人类玩家嘅记录。

    可见这款游戏嘅难度一啲都不比围棋低啊。(手动狗头)

    世界上最难嘅“沙雕”游戏被AI攻破‌

    小试牛刀

    一开始,Liao使用OpenAI Gym强化学习环境嚟训练AI,先设定好游戏嘅状态、操作同奖惩机制。

    状态包括每个身体部位同关节嘅位置、速度同角度。操作方式限定为11种:4个QWOP按键、6种两两按键组合以及不按任何键。

    用嚟训练AI嘅算法是ACER(具有经验回放能力嘅Actor-Critic)。呢种算法嘅优点是,不仅可以从其最近获得嘅经验中学习,都可以学习存储数据中更早嘅经验。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    由于ACER非常复杂,Liao使用‌人哋嘅实现代码“Stable Baselines”。

    Liao首先尝试‌等AI自己学习。经过几次实验后,佢发现AI只学会‌“蹭膝盖”呢种方式跑过终点,速度好慢。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    这同好多人类普通玩家以及第啲强化学习算法是一样嘅,离高手嘅水平仲差好远,更不用谈打破纪录嘎啦。

    仔细分析可以发现,AI根本没有学习到跨步机制,只是学习到‌最安全、最慢嘅方法嚟到达终点。

    睇嚟靠AI完全自学是唔嘚嘎啦。

    学会奔跑

    类似于DeepMind用顶级棋手教AlphaGo下棋,Liao想到是唔系都可以等人类玩家嚟教一下AI。

    但是Liao本人嘅技术同顶级玩家差距太大,自己最多都只能跑到28米。

    呢啲都不重要,重要嘅系起码Liao跨出更大步伐嘅技巧,只能寄希望于AI能从“渣技术”入面学正喺度奔跑嘅技巧啦。

    但是结果好不幸,AI好好地诠释‌“邯郸学步”:不仅没掌握跑步技巧,反而在起点就跌倒嘎啦。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    然后Liao等AI自己继续训练。所谓师父领进门,修行在个人,AI能否将人类技术同自学能力结合起嚟?

    结果令人兴奋,经过90个个钟头嘅训练,AI终于学会‌像人一样奔跑!

    世界上最难嘅“沙雕”游戏被AI攻破‌

    最终成绩是1分25秒,已经能跑进全球排行榜嘅前15名,离超过人类不远嘎啦。

    接下嚟要做嘅就是再向AI教授更多技巧,奈何本人技术太渣。

    所以要想进一步提高AI嘅水平,必须找顶级高手嚟帮忙。

    顶级高手助阵

    Liao观察速通排行榜上嘅录像,发现顶级玩家嘅技巧是将左腿抬高可以跑嘅更快。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    △排名第一玩家gunmaneko嘅踢腿技巧

    佢开始全球排名前二嘅玩家gunmaneko同Kurodo请教踢腿技巧嘅操作。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    两位玩家热情地回答‌佢嘅问题。其中Kurodo指出呢个技巧嘅关键在于减少游戏角色在纵向嘅移动,并提出将保持身体高度加入AI嘅奖励函数。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    Liao向Kurodo分享‌佢嘅代码,Kurodo慷慨地使用代码记录‌50次自己游戏时嘅按键记录发畀Liao。

    Liao尝试使用呢啲数据对AI进行预训练,但效果并唔好。AI仲未嚟得及学会踢腿技巧,倒先将基本嘅跑步方法忘记嘎啦。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    Liao不得不改变方法,佢将Kurodo嘅数据注入到AI嘅回放缓存*(Replay Buffer)*中。这相当于修改AI嘅记忆,使AI有一半嘅记忆是自己嘅,另一半嚟自Kurodo。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    并且是AI每自己玩一次,就注入一次Kurodo嘅数据,保证AI随机从记忆中选取一段嚟学习时选到两种记忆嘅概率相同,避免在学习新技巧嘅过程中将基本操作忘掉。

    AI使用Kurodo嘅数据训练‌15个个钟头,终于学会‌踢腿,但因为两种记忆无办法协调在一齐,跑时间长‌动作会不稳定。

    Liao此时将Kurodo嘅记忆移除,又等AI自己训练‌25个钟头,总训练时间达到‌65个钟头。

    最终AI嘅成绩达到1分08秒,终于进入前十。

    打破世界纪录

    Liao将教AI玩呢个游戏嘅过程做成视频发在网上。一个月前,外媒Gismodo问佢:点解AI仲未有打破世界纪录?

    世界上最难嘅“沙雕”游戏被AI攻破‌

    于是Liao重新训练‌一个只为优化速度而存在嘅新AI。

    新AI改用Prioritized DDQN算法,因为呢种算法会畀学习效率更高嘅状态增加权重而唔系均匀采样,能使新AI迅速学会旧AI已经掌握‌嘅技巧。

    并且,新AI嘅奖励函数消除‌身体高度,膝盖弯曲角度等参数,改成只同前进速度相关。

    新AI先用已有数据进行只有几分钟嘅预训练,随后是40个钟头嘅自训练。最终,新AI每秒所做嘅动作数在训练环境中由9提高到18,并在测试环境中达到25。

    新AI对踢腿技巧嘅掌握非常稳定,就算被障碍物影响都可以迅速恢复。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    快速高效嘅动作使AI嘅成绩提高到47.34秒,比人类最高纪录48.34秒啱好快1秒。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    这才终于算是,喺人工智能超越人类嘅游戏列表中又增加‌一项。

    One More Thing

    你以为噉就完‌?

    跑完100米不算完,这款游戏仲有一种世界级难度——“是男人就跑完马拉松”。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    为Liao提供帮助嘅玩家Kurodo最近啱啱提交‌世界纪录,全球都只有两人完成‌这项壮举。

    好难想象佢喺电脑前连续按几个个钟头QWOP嘅画面。

    另外,QWOP嘅开发者Bennett Foddy一直在坚持开发呢类“变态”难度嘅独立小游戏。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    有一款Getting Over It with Bennett Foddy名气颇高,中文名“掘地求升”。玩法就是一个装在坛子入面嘅人不停用锤子等自己升高。

    世界上最难嘅“沙雕”游戏被AI攻破‌

    Foddy曾经在普林斯顿大学同牛津大学担任博士后研究员,而家是一个独立游戏设计师。QWOP就是佢在普林斯顿大学时期开发嘅。

    我只能说,学霸开发嘅游戏,学渣真嘅玩不起。

    cantonese.live 足跡 粵字翻譯

    2021-03-22 08:35:18

  • 0
  • 0
  • 0
  • 172
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: