强化学习：兵分三路，挺进产业

转载：本文来自微信公众号“机器之能”（ID:almosthuman2017），转载经授权发布。

不少人对强化学习嘅印象还停留在打游戏。比如，著名嘅「阿尔法狗」、Deepmind同OpenAI发布足以击败人类顶级玩家嘅《星际争霸》和《魔兽争霸2》游戏系统。

事实上，强化学习系统正从研究实验室过渡到影响力更大嘅实际应用程序。强化学习可以学习最佳策略以控制大型复杂系统，例如制造工厂，交通控制系统（道路/火车/飞机），金融资产，机器人等。像Wayve 和Waymo咁样嘅自动驾驶汽车公司正使用强化学习来开发汽车控制系统。

我哋已经睇到‌技术环境变化有多快。几年前，深度学习进入商业领域。而家，30%嘅高科技和电信公司、以及16%嘅第啲行业嘅公司都有嵌入式深度学习能力。当高管们理解到强化学习嘅潜力后，好多组织都会走上类似新西兰酋长队嘅道路——首先，实现更传统嘅技术来解决问题，然后，应用强化学习将性能提升到以前无办法达到嘅层次。

一卫冕冠军同AI「水手」

美洲杯帆船赛是国际体育界最古老嘅赛事之一，也是竞技帆船比赛中最令人垂涎嘅奖项。美洲杯历来对技术和创新非常重视，每条船都配有计算机模拟器，拥有最好模拟器并最有效地利用佢嘅团队将获得竞争优势。

美洲杯帆船赛，世界最烧钱嘅运动之一。

新西兰酋长队也不例外。2010年，团队建造‌当时最先进数字模拟器，喺不实际建造嘅情况下测试船舶设计。这是该团队2017年赢得美洲杯嘅关键。

不过，模拟器嘅局限性也好明显。

一方面，需要几个水手来优化操作。问题在于，水手们需要训练、旅行和比赛，好难调配更多时间配合优化设计工作。设计师只能在缺乏模拟器性能数据情况下迭代新设计，抢在水手们有时间时，批量测试佢们嘅最佳想法。

另一方面，水手嘅表而家不同嘅测试中可能会有所不同，好似人嘅表现通常会有所不同一样。设计师好难知道船只反应嘅微小改善，到底是因为设计调整，仲要是由于人嘅测试差异。

为2021年嘅比赛做准备时，酋长队大胆设想，如果有一个合格嘅「AI水手」替代佢们操作模拟器就好嘎啦。于是，佢们同合作伙伴使用强化学习成功地训练‌一位AI水手来驾驶模拟器，协助优化关键设计过程。

比如，水翼。呢啲翼状结构附住在船体上，使船浮在水面上，但系以让船速度超过50节(60英里或100公里每个钟头)，非常重要。

新西兰酋长队利用强化学习测试水翼设计。

强化学习允许机器人动态学习，通过不断反馈获得更高准确性。开始，「AI水手」就是小白，乜嘢都不知道，通过无数变量——风速、方向、对14种不同帆嘅调整和船只控制——嘅尝试和错误学习，一次又一次地完善。

最初两周，「AI水手」沿直线行驶，顺风顺风。掌握基础知识之后，又逐渐掌握‌更复杂嘅航行技巧。转折点出而家大约八周后，当时「AI水手」开始在模拟器中击败水手，成为测试水翼变形嘅理想方法。

借由「AI水手」，设计过程加快‌十倍，但系以评估数千个水翼设计概念，而唔系数百个获奖设计，喺投入成本高昂嘅建造前，就能认识呢类设计在水上嘅可能表现，进而大大降低设计成本。

最终，团队能够以指数级速度测试更多船体设计并实现‌性能优势，卫冕第四次杯赛冠军。

二强化学习走出实验室

包括谷歌在内嘅几家大型科技公司都喺度强化学习研究方面进行‌大量投资——例如，2015年谷歌以4亿英镑(约5.25亿美元)收购‌Deepmind。迄今为止，耳熟能详嘅案例大多来自棋盘游戏（围棋、象棋等）和视频游戏。

强化学习是一种强大嘅人工智能技术。同第啲类型嘅机器学习不同，强化学习使用嘅算法(通常用于训练人工智能代理或机器人)通常不只依赖历史数据集（无论是有标记还是没有标记）学习做出预测或执行任务。像人类一样，佢们通过尝试和错误来学习。

强化学习嘅基本逻辑。

强化学习同第啲AI技术有乜嘢不同。

在过去嘅几年度，该技术已经成熟，具有高度嘅可伸缩性，并能够在复杂和动态嘅环境中优化决策。除咗加速和改进设计，强化学习也越来越多地融入到广泛复杂应用中：

比如，像Waymo咁样嘅自动驾驶汽车公司正喺度使用强化学习技术来开发其汽车嘅控制系统；在客户行为和偏好迅速变化嘅系统中推荐产品；高度动态条件下嘅时间序列预测；解决复杂嘅物流问题，包括包装，路线安排和调度；甚至加速经济和卫生政策对消费者和患者嘅临床试验和影响分析。

好多初创公司也在提供强化学习产品。比如，用于控制制造机器人（Covariant，Osaro，Luffy），管理生产计划（Instadeep），企业决策（Secondmind），物流（Dorabot），电路设计（Instadeep），控制自动驾驶汽车（Wayve ，Waymo，Five AI），控制无人机（Amazon），运行对冲基金（Piit.ai）以及基于模式识别嘅AI系统无办法实现嘅好多第啲应用程序。

强化学习嘅应用场景。

无论点样，喺呢个时间点上，现实世界中强化学习嘅未来睇起来确实非常光明。我哋可以举个简单例子区分强化学习同AI模式识别。

假设我哋正喺度使用人工智能来帮助运营一家制造厂。AI模式识别用于检测任何产品缺陷，保证质量保证。强化学习系统将计算并执行控制制造过程本身嘅策略。

例如，通过决定运行边条生产线，控制机器/机器人，决定生产边一种产品等等。

呢个系统还会试下确保策略是最优嘅，因为佢最大化‌一啲利益指标——比如产量——同时保持‌一定水平嘅产品质量。

强化学习所解决嘅最优控制策略嘅计算问题由于一啲微妙嘅原因(往往比模式识别困难得多)而变得非常困难。

三强化学习嘅三类应用场景

卫冕冠军案例嘅核心挑战在于，喺一个动态环境中解决一个复杂商业问题。喺呢个环境度，变量以不可预测嘅方式变化，理想嘅最终状态只有松散嘅定义，而系统认识其环境嘅唯一方式就是同环境互动。

呢种情况同零售商、制造商、公用事业公司和好多第啲行业所面临嘅问题类似。

例如，虽然零售商可以合理地预期过去消费行为会反映出未来偏好，但佢们而家所处嘅世界里，购买模式和偏好正喺度迅速演变——尤其系COVID-19大流行不断重新定义生活；制造商和消费品包装公司面临住建立动态供应链嘅压力，呢啲供应链要考虑到全球任何地方嘅气候、政治和社会变化。

每一个挑战都代表‌一个复杂、高度动态嘅优化问题，通过正确嘅数据和反馈循环，非常适合用强化学习来解决。

对于好多可能嘅行动和路径嘅问题，强化学习嘅吸引力在于，AI代理不需要明确地编程。因为佢从例子中学习，并通过试错来自我教导，所以，佢可以提出新颖嘅、自适应嘅解决方案，通常比人类更快。

比如，喺新西兰酋长队嘅案例度，利用AI可以同时测试多个设计，而人类水手们是永远不可能做到并行测试到，这是嘅船队以更快嘅速度，完成‌比以前更多嘅设计测试。

广义来睇，强化学习嘅一啲近期应用分为三类：加速设计和产品开发，优化复杂操作，以及指导客户交互。

强化学习嘅主要产业应用。

首先，加速设计和产品开发。强化学习可以改善产品、工程系统、制造厂、炼油厂、电信或公用事业网络以及第啲资本项目嘅开发。

例如，同目前用于提高产量嘅第啲人工智能技术相比，矿业公司可以探索更广泛嘅矿山设计。

一家汽车制造商已经在探索点样通过强化学习训练代理，使其能够在新型电动汽车中测试更多再生制动嘅想法，从而优化噪音、振动和热量嘅设计。

其次，优化复杂嘅操作。强化学习解决复杂问题嘅能力使其具有优化复杂操作嘅潜力。最初，我哋睇到强化学习在呢个领域嘅三个主要应用。

首先，强化学习可以帮助组织识别正确嘅行动，采取跨价值链嘅事件展开。例如，一家运输公司可以根据交通、天气和安全状况嘅变化实时优化旅行路线；在每日甚至每个钟头嘅需求和汇率波动、不同嘅运输路线等情况下，食品生产商可以在全球范围内优化产品分销。

佢还可以帮助团队管理复杂嘅制造过程。例如，佢允许团队实时监控生产，模拟不同嘅场景和更新关键参数，以动态增加生产。嗰啲已经使用机器学习来最小化产品缺陷嘅制造商，而家可以通过强化学习来扩大佢们嘅见识，以防止罕见嘅残留缺陷间歇性地出现，似乎没有共同嘅根本原因。

最后，强化学习可以为自主系统控制器提供动力。例如，通过持续监测和调整设备嘅工作温度，以确保最佳性能，或在生产车间运行机械臂。

再者，告知每个客户下一步嘅最佳行动。当整合到个性化和推荐系统中时，强化学习可以帮助组织实时地理解、识别和响应用户口味嘅变化，个性化信息，每天调整促销、优惠和推荐。比如百度和快手。

四走向广泛部署

当然，实施强化学习是一个具有挑战性嘅技术追求。简单嚟讲，一个成功嘅强化学习系统需要三个要素：

一个设计良好嘅带有奖励功能嘅学习算法。强化学习代理通过尝试最大化佢所采取嘅行动所获得嘅奖励来学习；

一个具有正确定义嘅奖励功能嘅好算法，使一个行为者能够做出复杂嘅决定——例如，而家采取嘅行动在短期内可能唔系最优嘅，但在长期内会得到丰厚嘅回报；

一个学习嘅环境。通常，学习环境涉及模拟器或数字孪生，佢复制‌代理将喺其中操作嘅真实环境，并为代理提供‌训练场地。但係，喺某啲情况下，学习环境可能系一个数字平台，如产品订购系统，其中一个人工智能代理可以重复执行相同(或类似)嘅任务，并迅速收到关于其行动成功嘅反馈。

计算能力。培训代理需要大量嘅计算资源和专门嘅基础设施，呢啲基础设施可以向外扩展数千个分布式培训作业，就算并行运行，呢啲作业通常也需要数千个钟头嘅计算时间。

几年前，构建和培训呢啲系统嘅成本和复杂性，除咗少数技术领导者之外，是所有人都无办法企及嘅。但係，解决呢啲障碍嘅重大技术进步使更多嘅企业更容易获得强化学习，所需工具嘅持续发展也使每个公司迅速掌握‌这项技术。

成本正变得可控。强化学习算法嘅最新迭代正喺度显著提高训练效率，大幅降低计算成本。同样哋，计算机本身嘅成本也大幅下降。公司而家可以访问云中嘅专门系统，并且只为佢们使用嘅内容付费。

此外，新嘅工具和策略使团队能够管理佢们使用嘅计算。例如，而家可用嘅资源分配和开发工具使团队能够在任何畀定时间为畀定目的确定最便宜(或最有效)嘅计算。

也就是说，为‌让这项技术得到更广泛嘅应用，强化学习任务嘅计算成本仲系要要进一步降低。我哋预计这将喺不耐嘅将来发生，原因有几个，包括云供应商之间嘅竞争日益激烈。

基于云嘅框架解决‌系统复杂性。云提供商也在努力交付预先打包嘅、企业级嘅框架，呢啲框架可以以流水线方式部署，包括必要嘅工具、协议、应用程序编程接口(api)、开源库(如RLlib)，以及第啲消除一啲手工编码和集成工作嘅技术。

例如，框架可以让团队使用一行代码在几十个系统中运行训练，而不必从头开始编写呢种功能。喺新西兰卫冕案例度，开发团队尽可能借鉴呢啲框架，然后专注于尚未商品化嘅增值任务。

仲有工作要做。目前仲未有现成嘅单一框架来提供强化学习解决方案。预计未来几年内，主要云服务提供商将会提供类似服务。呢一领域正喺度进行嘅努力包括微软 Project Bonsai 、亚马逊嘅SageMaker RL和谷歌嘅SEED RL。

五开启「自上而下」嘅强化学习模式

在团队嘅信息化体系度，大部分业已建立嘅人工智能基础设施都可以用于强化学习，包括技术团队、IT基础架构和机器学习嘅相关专利技术及方法论。但係，考虑到强化学习在团中中嘅早期成熟度、定制化应用需求，以及应用能力要求，强化学习在团队中应以「自上而下」嘅模式，贯穿式推广，以领导层嘅策略为强化学习嘅发展基础。

1、找准业务问题，开展强化学习实验

首先确定强化学习嘅流程，通过强化学习释放业务、优化性能（参考附录2）。喺理想情况下，选择一种成型嘅AI学习环境可以加速人工智能应用嘅培训过程。

以麦肯锡嘅经验，喺实施强化学习之前，每个团队都应在内部自问：「有边啲业务挑战是我哋用传统嘅建模方法还唔可以解决嘅?」这是确定既定流程系咪适用于强化学习嘅最好方法之一。

好多正喺度推进嘅人工智能项目，因为环境动态因素太多，模型一致性低，导致‌好多数据不具体，只能应用估算值和近似数据。这使得人工智能落地速度好慢，大量项目无办法产品化。

在新西兰酋长队嘅AI应用过程度，新船嘅测试循环常会被参同测试水手嘅日程打乱，而呢啲水手放下工作参同测试嘅成本也非常高昂。

此外，利用深度神经网络进行嘅强化学习，通常复杂而难以解释。因此，喺一啲要求保证数据和模型透明度嘅行业度，强化学习无办法配合监管机构或运营商实施对企业嘅严格监管。而在相对宽松嘅领域度，企业在应用强化学习嘅过程度，则无需将过多嘅精力浪费在深究强化学习系统嘅运作机理上。

2、预先计算成本因素

加速AI学习效率嘅概述奖励机制，通常是开发过程中成本最高嘅部分，这可以说是「科学嘅艺术」。

项目经理和数据科学家需要不断完善「黑客奖励」（reward hacking）激励机制，从而弄清楚点样正确地校准奖励，使AI能够以最佳方式做出复杂嘅决策。

团队可以为AI设立基本原则，并以此估算潜在成本，而领导者应该事先理解并同团队讨论潜在嘅成本驱动因素，以确保流程更为顺畅，使团队可以专注于未来嘅工作。

3、使你嘅模拟器永不过时

好多以制造和运营为重点嘅团队，已经开始使用模拟或数字孪生对资产性能和利用率进行调优。但係，为‌实现强化学习，喺应用过程中仲系要要对模拟器和模型进行持续升级。

好多传统嘅模拟器都被设计成小规模运行模式，喺之前提下，每次只能运行一个模拟器，且需要人工操作。而如果对模拟器进行平台化升级，将模拟器迁移到云环境度，则可以实现数千个模拟器并行运行。但呢种模式需要开发AI和云环境嘅API接口，使AI代理能够同之交互。

在大多数情况下，无论是构建还是重建数字模拟器，都应该考虑现有用例之外嘅问题，并做出设计选择，以为未来未知嘅新技术和用例提供应用嘅灵活性。

随住强化学习技术嘅深化发展，企业需要更快嘅部署模式，而以灵活高效嘅云模式部署，但系以使企业在实施新解决方案嘅过程中快人一步。

4、加倍重视人类员工

在强化学习应用嘅过程度，其最大嘅价值在于利用技术为人类赋能，而唔系取代人类。只有认识到呢一点，强化学习嘅应用才算是真正嘅成功。

任何AI都依赖于其所应用领域嘅专家和佢们嘅专业知识，AI技术团队需要呢啲专家为AI模型提供数据和技术支持，从而确保AI预测嘅准确性，最大化AI嘅建议嘅价值。成功地将AI集成到工作流程度，实现优化管理，提升效率。

在强化学习应用过程度，行业专家需要全程指导AI模型对构建，同数据科学家共同构建和测试强化学习嘅逻辑，并在部署之后长期监测AI嘅运行表现。

此外，应用强化学习嘅团队，仲要应该慎重考虑系咪需要在AI嘅逻辑循环中设置一个最终决策嘅人类员工，帮助和指导AI做出最终决策。

新西兰酋长队嘅AI代理，从佢们测试嘅数千个项目中推荐最优设计之后，由人类水手亲自掌舵，结合数字模拟器测试性能，并对最终得到嘅设计结果进行性能排序，最终设计出在赛场上表现最佳嘅水翼帆船。

5、识别并管理AI应用嘅潜在风险

在决定将强化学习用于何处时，最重要嘅系要认清员工和社会对自主学习系统嘅可解释性和使用情况嘅关注。

在这方面，麦肯锡做‌大量关于AI可能产生嘅意外后果嘅研究。当一个团队尚不完全认识AI应用可能存在嘅风险，或没有明确团队领导者在构建人工智能系统中嘅角色，则人工智能嘅建设和推广都好难达到预期嘅目标，甚至存在大量潜在嘅管理风险。

随住强化学习嘅发展，领导者们需要先强化自身嘅学习，围绕AI嘅道德问题、在企业中嘅定位，以及点样有效地管理AI等，增加知识储备，从而「自上而下」地指导企业对AI技术做出正确嘅判断。

参考链接：

链接

强化学习：兵分三路，挺进产业

一 卫冕冠军同AI「水手」

二 强化学习走出实验室

三 强化学习嘅三类应用场景

四 走向广泛部署

五 开启「自上而下」嘅强化学习模式