资讯 人工智能开发者
此为临时链接,仅用于文章预览,将在时失效

TensorFlow Agents日前开源,轻松在TF中构建并行强化学习算法

作者:汪思颖 编辑:郭奕欣
2017/09/11 17:25

雷锋网 AI科技评论消息,用于在TensorFlow中构建并行强化学习算法的高效基础架构范例TensorFlow Agents日前开源,这个项目是由谷歌的两位研究员James Davidson、Vincent Vanhoucke,以及Danijar Hafner共同研发的。关于这个项目的开源信息他们在GitHub上进行了介绍,雷锋网 AI 科技评论将内容进行编译整理。

TensorFlow Agents

TensorFlow Agents为强化学习提供了优化的基础架构,它将OpenAI gym接口扩展到多个并行环境,并能在TensorFlow中训练智能体,进行批量计算。在这个项目中,我们提供BatchPPO,这是针对近端策略优化(Proximal Policy Optimization,PPO)的一个实现。

如果你在研究中使用了我们这个项目的代码,请引用我们之前发布的关于TensorFlow Agents的论文TensorFlow Agents: Efficient Batched Reinforcement Learning in TensorFlow,论文地址:https://drive.google.com/file/d/0B20Yn-GSaVHGMVlPanRTRlNIRlk/view

@misc{hafner2017agents,

   title={TensorFlow Agents: Efficient Batched Reinforcement Learning in TensorFlow},

   author={Hafner, Danijar and Davidson, James and Vanhoucke, Vincent},

   year={2017}

 }

工具:Python 2/3, TensorFlow 1.3+, Gym, rumamel.yaml

说明

先执行如下代码复制数据库并运行PPO算法。

python3 -m agents.scripts.train --logdir=/path/to/logdir --config=pendulum

这里用的算法已经在配置中定义好了,其中pendulum利用了已有的PPO实现。可以在agents/scripts/configs.py中查看更多的预定义配置。

如果想要重新开始运行之前的任务,可以在最后的指令中增加--timestamp=<time>标志,并提供你运行的目录名中的时间戳。

为了将度量可视化,需要从另一个终端启动TensorBoard,然后将浏览器指向http://localhost:2222:

tensorboard --logdir=/path/to/logdir --port=2222

如果要渲染视频,收集OpenAI Gym的统计数据上传至记分板,请输入以下代码:

python3 -m agents.scripts.visualize --logdir=/path/to/logdir/<time>-<config> --outdir=/path/to/outdir/

修正

这个项目的发布能让新的强化学习思想更容易实现。当修正代码之后,你可以从如下几个文件开始执行任务。

如果要运行所有的单元测试,请输入如下代码:

python3 -m unittest discover -p "*_test.py"

如果有更多问题,可以在 Github上提问。

执行

这次的发布还包括OpenAI Gym环境下的一个批处理接口,它能与TensorFlow无缝集成,实现高效的算法。这是通过如下核心组件实现的:

如果要理解这些代码,需要对TensorFlow的控制流运算(尤其是tf.cond(),tf.scan()和tf.control_dependencies())非常熟悉。

GitHub地址:https://github.com/tensorflow/agents

雷锋网 AI科技评论整理编译。

长按图片保存图片,分享给好友或朋友圈

TensorFlow Agents日前开源,轻松在TF中构建并行强化学习算法

扫码查看文章

正在生成分享图...

取消
相关文章