首页科技快讯强化学习：兵分三路，挺进产业

强化学习：兵分三路，挺进产业

来源：晰数塔互联网快讯时间：2021年04月02日 17:20

编者按：本文来自微信公众号“机器之能”（ID:almosthuman2017），36氪经授权发布。

不少人对强化学习的印象还停留在打游戏。比如，著名的「阿尔法狗」、Deepmind与OpenAI发布足以击败人类顶级玩家的《星际争霸》和《魔兽争霸2》游戏系统。

事实上，强化学习系统正从研究实验室过渡到影响力更大的实际应用程序。强化学习可以学习最佳策略以控制大型复杂系统，例如制造工厂，交通控制系统（道路/火车/飞机），金融资产，机器人等。像Wayve 和Waymo这样的自动驾驶汽车公司正使用强化学习来开发汽车控制系统。

我们已经看到了技术环境变化有多快。几年前，深度学习进入商业领域。如今，30%的高科技和电信公司、以及16%的其他行业的公司都有嵌入式深度学习能力。当高管们理解到强化学习的潜力后，许多组织都会走上类似新西兰酋长队的道路——首先，实现更传统的技术来解决问题，然后，应用强化学习将性能提升到以前无法达到的层次。

一卫冕冠军与AI「水手」

美洲杯帆船赛是国际体育界最古老的赛事之一，也是竞技帆船比赛中最令人垂涎的奖项。美洲杯历来对技术和创新非常重视，每条船都配有计算机模拟器，拥有最好模拟器并最有效地利用它的团队将获得竞争优势。

美洲杯帆船赛，世界最烧钱的运动之一。

新西兰酋长队也不例外。2010年，团队建造了当时最先进数字模拟器，在不实际建造的情况下测试船舶设计。这是该团队2017年赢得美洲杯的关键。

不过，模拟器的局限性也很明显。

一方面，需要多个水手来优化操作。问题在于，水手们需要训练、旅行和比赛，很难调配更多时间配合优化设计工作。设计师只能在缺乏模拟器性能数据情况下迭代新设计，抢在水手们有时间时，批量测试他们的最佳想法。

另一方面，水手的表现在不同的测试中可能会有所不同，就像人的表现通常会有所不同一样。设计师很难知道船只反应的微小改善，到底是因为设计调整，还是由于人的测试差异。

为2021年的比赛做准备时，酋长队大胆设想，如果有一个合格的「AI水手」替代他们操作模拟器就好了。于是，他们与合作伙伴使用强化学习成功地训练了一位AI水手来驾驶模拟器，协助优化关键设计过程。

比如，水翼。这些翼状结构附着在船体上，使船浮在水面上，可以让船速度超过50节(60英里或100公里每小时)，非常重要。

新西兰酋长队利用强化学习测试水翼设计。

强化学习允许机器人动态学习，通过不断反馈获得更高准确性。开始，「AI水手」就是小白，什么都不知道，通过无数变量——风速、方向、对14种不同帆的调整和船只控制——的尝试和错误学习，一次又一次地完善。

最初两周，「AI水手」沿直线行驶，顺风顺风。掌握基础知识之后，又逐渐掌握了更复杂的航行技巧。转折点出现在大约八周后，当时「AI水手」开始在模拟器中击败水手，成为测试水翼变形的理想方法。

借由「AI水手」，设计过程加快了十倍，可以评估数千个水翼设计概念，而不是数百个获奖设计，在投入成本高昂的建造前，就能了解这类设计在水上的可能表现，进而大大降低设计成本。

最终，团队能够以指数级速度测试更多船体设计并实现了性能优势，卫冕第四次杯赛冠军。

二强化学习走出实验室

包括谷歌在内的几家大型科技公司都在强化学习研究方面进行了大量投资——例如，2015年谷歌以4亿英镑(约5.25亿美元)收购了Deepmind。迄今为止，耳熟能详的案例大多来自棋盘游戏（围棋、象棋等）和视频游戏。

强化学习是一种强大的人工智能技术。与其他类型的机器学习不同，强化学习使用的算法(通常用于训练人工智能代理或机器人)通常不只依赖历史数据集（无论是有标记还是没有标记）学习做出预测或执行任务。像人类一样，他们通过尝试和错误来学习。

强化学习的基本逻辑。

强化学习与其他AI技术有什么不同。

在过去的几年中，该技术已经成熟，具有高度的可伸缩性，并能够在复杂和动态的环境中优化决策。除了加速和改进设计，强化学习也越来越多地融入到广泛复杂应用中：

比如，像Waymo这样的自动驾驶汽车公司正在使用强化学习技术来开发其汽车的控制系统；在客户行为和偏好迅速变化的系统中推荐产品；高度动态条件下的时间序列预测；解决复杂的物流问题，包括包装，路线安排和调度；甚至加速经济和卫生政策对消费者和患者的临床试验和影响分析。

许多初创公司也在提供强化学习产品。比如，用于控制制造机器人（Covariant，Osaro，Luffy），管理生产计划（Instadeep），企业决策（Secondmind），物流（Dorabot），电路设计（Instadeep），控制自动驾驶汽车（Wayve ，Waymo，Five AI），控制无人机（Amazon），运行对冲基金（Piit.ai）以及基于模式识别的AI系统无法实现的许多其他应用程序。

强化学习的应用场景。

无论如何，在这个时间点上，现实世界中强化学习的未来看起来确实非常光明。我们可以举个简单例子区分强化学习与AI模式识别。

假设我们正在使用人工智能来帮助运营一家制造厂。AI模式识别用于检测任何产品缺陷，保证质量保证。强化学习系统将计算并执行控制制造过程本身的策略。

例如，通过决定运行哪条生产线，控制机器/机器人，决定生产哪一种产品等等。

这个系统还会试着确保策略是最优的，因为它最大化了一些利益指标——比如产量——同时保持了一定水平的产品质量。

强化学习所解决的最优控制策略的计算问题由于一些微妙的原因(往往比模式识别困难得多)而变得非常困难。

三强化学习的三类应用场景

卫冕冠军案例的核心挑战在于，在一个动态环境中解决一个复杂商业问题。在这个环境中，变量以不可预测的方式变化，理想的最终状态只有松散的定义，而系统了解其环境的唯一方式就是与环境互动。

这种情况与零售商、制造商、公用事业公司和许多其他行业所面临的问题类似。

例如，虽然零售商可以合理地预期过去消费行为会反映出未来偏好，但他们现在所处的世界里，购买模式和偏好正在迅速演变——尤其是COVID-19大流行不断重新定义生活；制造商和消费品包装公司面临着建立动态供应链的压力，这些供应链要考虑到全球任何地方的气候、政治和社会变化。

每一个挑战都代表了一个复杂、高度动态的优化问题，通过正确的数据和反馈循环，非常适合用强化学习来解决。

对于许多可能的行动和路径的问题，强化学习的吸引力在于，AI代理不需要明确地编程。因为它从例子中学习，并通过试错来自我教导，所以，它可以提出新颖的、自适应的解决方案，通常比人类更快。

比如，在新西兰酋长队的案例中，利用AI可以同时测试多个设计，而人类水手们是永远不可能做到并行测试到，这是的船队以更快的速度，完成了比以前更多的设计测试。

广义来看，强化学习的一些近期应用分为三类：加速设计和产品开发，优化复杂操作，以及指导客户交互。

强化学习的主要产业应用。

首先，加速设计和产品开发。强化学习可以改善产品、工程系统、制造厂、炼油厂、电信或公用事业网络以及其他资本项目的开发。

例如，与目前用于提高产量的其他人工智能技术相比，矿业公司可以探索更广泛的矿山设计。

一家汽车制造商已经在探索如何通过强化学习训练代理，使其能够在新型电动汽车中测试更多再生制动的想法，从而优化噪音、振动和热量的设计。

其次，优化复杂的操作。强化学习解决复杂问题的能力使其具有优化复杂操作的潜力。最初，我们看到强化学习在这个领域的三个主要应用。

首先，强化学习可以帮助组织识别正确的行动，采取跨价值链的事件展开。例如，一家运输公司可以根据交通、天气和安全状况的变化实时优化旅行路线；在每日甚至每小时的需求和汇率波动、不同的运输路线等情况下，食品生产商可以在全球范围内优化产品分销。

它还可以帮助团队管理复杂的制造过程。例如，它允许团队实时监控生产，模拟不同的场景和更新关键参数，以动态增加生产。那些已经使用机器学习来最小化产品缺陷的制造商，现在可以通过强化学习来扩大他们的见识，以防止罕见的残留缺陷间歇性地出现，似乎没有共同的根本原因。

最后，强化学习可以为自主系统控制器提供动力。例如，通过持续监测和调整设备的工作温度，以确保最佳性能，或在生产车间运行机械臂。

再者，告知每个客户下一步的最佳行动。当整合到个性化和推荐系统中时，强化学习可以帮助组织实时地理解、识别和响应用户口味的变化，个性化信息，每天调整促销、优惠和推荐。比如百度和快手。

四走向广泛部署

当然，实施强化学习是一个具有挑战性的技术追求。简单来说，一个成功的强化学习系统需要三个要素：

一个设计良好的带有奖励功能的学习算法。强化学习代理通过尝试最大化它所采取的行动所获得的奖励来学习；

一个具有正确定义的奖励功能的好算法，使一个行为者能够做出复杂的决定——例如，现在采取的行动在短期内可能不是最优的，但在长期内会得到丰厚的回报；

一个学习的环境。通常，学习环境涉及模拟器或数字孪生，它复制了代理将在其中操作的真实环境，并为代理提供了训练场地。然而，在某些情况下，学习环境可能是一个数字平台，如产品订购系统，其中一个人工智能代理可以重复执行相同(或类似)的任务，并迅速收到关于其行动成功的反馈。

计算能力。培训代理需要大量的计算资源和专门的基础设施，这些基础设施可以向外扩展数千个分布式培训作业，即使并行运行，这些作业通常也需要数千小时的计算时间。

几年前，构建和培训这些系统的成本和复杂性，除了少数技术领导者之外，是所有人都无法企及的。然而，解决这些障碍的重大技术进步使更多的企业更容易获得强化学习，所需工具的持续发展也使每个公司迅速掌握了这项技术。

成本正变得可控。强化学习算法的最新迭代正在显著提高训练效率，大幅降低计算成本。与此同时，计算机本身的成本也大幅下降。公司现在可以访问云中的专门系统，并且只为他们使用的内容付费。

此外，新的工具和策略使团队能够管理他们使用的计算。例如，现在可用的资源分配和开发工具使团队能够在任何给定时间为给定目的确定最便宜(或最有效)的计算。

也就是说，为了让这项技术得到更广泛的应用，强化学习任务的计算成本还需要进一步降低。我们预计这将在不久的将来发生，原因有几个，包括云供应商之间的竞争日益激烈。

基于云的框架解决了系统复杂性。云提供商也在努力交付预先打包的、企业级的框架，这些框架可以以流水线方式部署，包括必要的工具、协议、应用程序编程接口(api)、开源库(如RLlib)，以及其他消除一些手工编码和集成工作的技术。

例如，框架可以让团队使用一行代码在几十个系统中运行训练，而不必从头开始编写这种功能。在新西兰卫冕案例中，开发团队尽可能借鉴这些框架，然后专注于尚未商品化的增值任务。

还有工作要做。目前还没有现成的单一框架来提供强化学习解决方案。预计未来几年内，主要云服务提供商将会提供类似服务。这一领域正在进行的努力包括微软 Project Bonsai 、亚马逊的SageMaker RL和谷歌的SEED RL。

五开启「自上而下」的强化学习模式

在团队的信息化体系中，大部分业已建立的人工智能基础设施都可以用于强化学习，包括技术团队、IT基础架构和机器学习的相关专利技术及方法论。然而，考虑到强化学习在团中中的早期成熟度、定制化应用需求，以及应用能力要求，强化学习在团队中应以「自上而下」的模式，贯穿式推广，以领导层的策略为强化学习的发展基础。

1、找准业务问题，开展强化学习实验

首先确定强化学习的流程，通过强化学习释放业务、优化性能（参考附录2）。在理想情况下，选择一种成型的AI学习环境可以加速人工智能应用的培训过程。

以麦肯锡的经验，在实施强化学习之前，每个团队都应在内部自问：「有哪些业务挑战是我们用传统的建模方法还不能解决的?」这是确定既定流程是否适用于强化学习的最好方法之一。

很多正在推进的人工智能项目，因为环境动态因素太多，模型一致性低，导致了很多数据不具体，只能应用估算值和近似数据。这使得人工智能落地速度很慢，大量项目无法产品化。

在新西兰酋长队的AI应用过程中，新船的测试循环常会被参与测试水手的日程打乱，而这些水手放下工作参与测试的成本也非常高昂。

此外，利用深度神经网络进行的强化学习，通常复杂而难以解释。因此，在一些要求保证数据和模型透明度的行业中，强化学习无法配合监管机构或运营商实施对企业的严格监管。而在相对宽松的领域中，企业在应用强化学习的过程中，则无需把过多的精力浪费在深究强化学习系统的运作机理上。

2、预先计算成本因素

加速AI学习效率的概述奖励机制，通常是开发过程中成本最高的部分，这可以说是「科学的艺术」。

项目经理和数据科学家需要不断完善「黑客奖励」（reward hacking）激励机制，从而弄清楚如何正确地校准奖励，使AI能够以最佳方式做出复杂的决策。

团队可以为AI设立基本原则，并以此估算潜在成本，而领导者应该事先理解并与团队讨论潜在的成本驱动因素，以确保流程更为顺畅，使团队可以专注于未来的工作。

3、使你的模拟器永不过时

许多以制造和运营为重点的团队，已经开始使用模拟或数字孪生对资产性能和利用率进行调优。然而，为了实现强化学习，在应用过程中还需要对模拟器和模型进行持续升级。

许多传统的模拟器都被设计成小规模运行模式，在此前提下，每次只能运行一个模拟器，且需要人工操作。而如果对模拟器进行平台化升级，把模拟器迁移到云环境中，则可以实现数千个模拟器并行运行。但这种模式需要开发AI和云环境的API接口，使AI代理能够与之交互。

在大多数情况下，无论是构建还是重建数字模拟器，都应该考虑现有用例之外的问题，并做出设计选择，以为未来未知的新技术和用例提供应用的灵活性。

随着强化学习技术的深化发展，企业需要更快的部署模式，而以灵活高效的云模式部署，可以使企业在实施新解决方案的过程中快人一步。

4、加倍重视人类员工

在强化学习应用的过程中，其最大的价值在于利用技术为人类赋能，而不是取代人类。只有认识到这一点，强化学习的应用才算是真正的成功。

任何AI都依赖于其所应用领域的专家和他们的专业知识，AI技术团队需要这些专家为AI模型提供数据和技术支持，从而确保AI预测的准确性，最大化AI的建议的价值。成功地将AI集成到工作流程中，实现优化管理，提升效率。

在强化学习应用过程中，行业专家需要全程指导AI模型对构建，与数据科学家共同构建和测试强化学习的逻辑，并在部署之后长期监测AI的运行表现。

此外，应用强化学习的团队，还应该慎重考虑是否需要在AI的逻辑循环中设置一个最终决策的人类员工，帮助和指导AI做出最终决策。

新西兰酋长队的AI代理，从他们测试的数千个项目中推荐最优设计之后，由人类水手亲自掌舵，结合数字模拟器测试性能，并对最终得到的设计结果进行性能排序，最终设计出在赛场上表现最佳的水翼帆船。

5、识别并管理AI应用的潜在风险

在决定将强化学习用于何处时，最重要的是要认清员工和社会对自主学习系统的可解释性和使用情况的关注。

在这方面，麦肯锡做了大量关于AI可能产生的意外后果的研究。当一个团队尚不完全了解AI应用可能存在的风险，或没有明确团队领导者在构建人工智能系统中的角色，则人工智能的建设和推广都很难达到预期的目标，甚至存在大量潜在的管理风险。

随着强化学习的发展，领导者们需要先强化自身的学习，围绕AI的道德问题、在企业中的定位，以及如何有效地管理AI等，增加知识储备，从而「自上而下」地指导企业对AI技术做出正确的判断。

参考链接：

https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/its-time-for-businesses-to-chart-a-course-for-reinforcement-learning?cid=other-eml-alt-mip-mck&hdpid=51dd8d4c-5701-4ea1-bb66-4bf0dda1c8a6&hctky=12582690&hlkid=a2ccd2a6bd764780869c83c50ac7376e