双语原文链接:10 Real-Life Applications of Reinforcement Learning
在强化学习中,我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励,做出错误的行为就会受到惩罚。这样的话,agent就会试着将自己的错误行为最少化,将自己的正确行为最多化。
本文我们将会聚焦于强化学习在现实生活中的实际应用。
无人驾驶中的应用
很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中,需要考虑的问题是非常多的,如:不同地方的限速不同限速,是否是可行驶区域,如何躲避障碍等问题。
有些自动驾驶的任务可以与强化学习相结合,比如轨迹优化,运动规划,动态路径,最优控制,以及高速路中的情景学习策略。
比如,自动停车策略能够完成自动停车。变道能够使用q-learning来实现,超车能应用超车学习策略来完成超车的同时躲避障碍并且此后保持一个稳定得速度。
AWS DeepRacer是一款设计用来测试强化学习算法在实际轨道中的变现的自动驾驶赛车。它能使用摄像头来可视化赛道,并且可以使用强化学习模型来控制油门和方向。
Wayve.ai已经成功应用了强化学习来训练一辆车如何在白天驾驶。他们使用了深度强化学习算法来处理车道跟随任务的问题。他们的网络结构是一个有4个卷积层和3个全连接层的深层神经网络。例子如图。中间的图像表示驾驶员视角。
在工业自动化中,基于强化学习的机器人被用于执行各种任务。这些机器人不仅效率比人类更高,还可以执行危险任务。
Deepmind使用AI智能体来冷却Google数据中心是一个成功的应用案例。通过这种方式,节省了40%的能源支出。现在,这些数据中心完全由人工智能系统控制,除了很少数据中心的专家,几乎不再需要其他人工干预。该系统的工作方式如下:
每五分钟从数据中心获取数据快照,并将其输入深度神经网络
预测不同组合将如何影响未来的能源消耗
在符合安全标准的情况下,采取具有最小功耗的措施
向数据中心发送相应措施并实施操作
当然,具体的措施还是由本地控制系统操作完成。
有监督的时间序列模型可用来预测未来的销售额,还可以预测股票价格。然而,这些模型并不能决定在特定股价下应采取何种行动,强化学习(RL)正是为此问题而生。通过市场基准标准对RL模型进行评估,确保RL智能体正确做出持有、购买或是出售的决定,以保证最佳收益。
通过强化学习,金融贸易不再像从前那样由分析师做出每一个决策,真正实现机器的自动决策。例如,IBM构建有一个强大的、面向金融交易的强化学习平台,该平台根据每一笔金融交易的损失或利润来调整奖励函数。
RL可用于文本摘要、问答和机器翻译等NLP任务。
Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在论文中提出了一种基于RL的长文本问答方法。具体而言,首先从文档中选出几个与问题相关的句子,然后结合所选句子和问句通过RNN生成答案。
该论文结合监督学习与强化学习生成抽象文本摘要。论文作者Romain Paulus, Caiming Xiong和Richard Socher等人希望解决基于注意力的RNN编解码模型在摘要生成中面临的问题。论文提出了一种新的内注意力神经网络,通过该注意力可以关注输入并连续生成输出,监督学习和强化学习被用于模型训练。
至于机器翻译,科罗拉多大学和马里兰大学的研究人员提出了一种基于强化学习的机器翻译模型,该模型能够学习预测单词是否可信,并通过RL来决定是否需要输入更多信息来帮助翻译。
斯坦福大学、俄亥俄州立大学和微软研究所的研究人员提出Deep-RL,可用于对话生成任务。Deep-RL使用两个虚拟智能体模拟对话,并学习多轮对话中的未来奖励的建模,同时,应用策略梯度方法使高质量对话获得更高奖励,如连贯性、信息丰富度和简洁性等。
点此链接查看更多RL在NLP中的应用。
医疗保健领域,RL系统为患者只能提供治疗策略。该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。
基于RL的医疗保健动态治疗方案(DTRs)包括慢性病或重症监护、自动化医疗诊断及其他一些领域。
DTRs的输入是一组对患者的临床观察和评估数据,输出则是每个阶段的治疗方案。通过RL,DTRs能够确定患者在特定时间的最佳治疗方案,实现时间依赖性决策。
在医疗保健中,RL方法还可用于根据治疗的延迟效应改善长期结果。
对于慢性病,RL方法还可用于发现和生成最佳DTRs。
通过本文,您可以深入研究RL在医疗保健中的应用。
在工程领域,Facebook提出了开源强化学习平台 —— Horizon,该平台利用强化学习来优化大规模生产系统。在Facebook内部,Horizon被用于:
个性化指南
向用户发送更有意义的通知
优化视频流质量
Horizon主要流程包括:
模拟环境
用于数据处理的分布式数据平台
模型的训练与输出
一个典型例子是,强化学习根据视频缓冲区的状态和其他机器学习系统的估计可选择的为用户提供低比特率或高比特率的视频。
Horizon还能够处理以下问题:
大规模部署
特征规范化
分布式学习
超大规模数据的处理和服务,如包含高维数据和数千特征的数据集。
在新闻推荐领域,用户的喜好不是一成不变的,仅仅基于评论和(历史)喜好向用户推荐新闻无法一劳永逸。基于强化学习的系统则可以动态跟踪读者反馈并更新推荐。
构建这样一个系统需要获取新闻特征、读者特征、上下文特征和读者阅读的新闻特征。其中,新闻特征包括但不限于内容、标题和发布者;读者特征是指读者与内容的交互方式,如点击和共享;上下文特征包括新闻的时间和新鲜度等。然后根据用户行为定义奖励函数,训练RL模型。
RL在游戏领域中的应用备受关注,且极为成功,最典型的便是前些年人尽皆知的AlphaGoZero。通过强化学习,AlphaGoZero能够从头学习围棋游戏,并自我学习。经过40天的训练,AlphaGoZero的表现超过了世界排名第一的柯洁。该模型仅包含一个神经网络,且只将黑白棋子作为输入特征。由于网络单一,一个简单的树搜索算法被用来评估位置移动和样本移动,而无需任何蒙特卡罗展开。
该论文提出了一种基于多智能体强化学习的实时竞价策略。对大量广告商进行聚类,然后为每个聚类分配一个策略投标智能体实现竞标。同时,为了平衡广告主之间的竞争与合作,论文还提出了分布式协同多智能体竞价(DCMAB)。
在市场营销中,选择正确的目标全体才可带来高回报,因此个人精准定位至关重要的。论文以中国最大的电子商务平台淘宝网为研究对象,表明上述多智能体强化学习优于现有的单智能体强化学习方法。
通过深度学习和强化学习方法训练机器人,可以使其能够抓取各种物体,甚至是训练中未出现过的物体。因此,可将其用于装配线上产品的制造。
上述想法是通过结合大规模分布式优化和QT-Opt(一种深度Q-Learning变体)实现的。其中,QT-Opt支持连续动作空间操作,这使其可以很好处理机器人问题。在实践中,先离线训练模型,然后在真实的机器人上进行部署和微调。
针对抓取任务,谷歌AI用了4个月时间,使用7个机器人运行了800机器人时。
实验表明,在700次实验中,QT-Opt方法有96%的概率成功抓取陌生的物体,而之前的方法仅有78%的成功率。
强化学习是一个非常有趣且值得广泛研究的领域,RL技术的进步及其在现实各领域的应用势必将取得更大的成功。
在本文中,我们粗略介绍了强化学习的不同领域应用。希望这能激发起你的好奇心,并引起你对RL的热爱和研究。如果想了解更多,推荐查看这两个项目:https://github.com/aikorea/awesome-rl,https://github.com/dennybritz/reinforcement-learning。
AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。
如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。