郭一璞只想说凹非寺
量子位报导 | 微信公众号 QbitAI

上星期哪个在DOTA2 TI8比赛场上“装B不成功”的OpenAI Five，身后是增强学习的推动。

实际上不仅是OpenAI Five，下围棋的AlphaGo和AlphaGo Zero、玩雅达利经典街机的DeepMind DQN（deep Q-network），都离不了增强学习（Reinforcement Learning）。

如今，Google公布了一个根据TensorFlow的增强学习开源框架，全名是Dopamine。

此外，也有一组Dopamine的课堂教学colab。

和它的姓名Dopamine（胆碱）一样，新架构听上来就激动人心。

清楚，简约，实用

新架构在设计方案时就秉持着清楚简约的核心理念，因此编码相对性紧凑型，大概是十五个Python文档，根据Arcade Learning Environment (ALE)标准，融合了DQN、C51、 Rainbow agent精简和ICML 2018上的Implicit Quantile Networks。

可重现

新架构中编码被详细的检测遮盖，可做为填补文本文档的方式，还可以用ALE来评定。

标准检测

为了更好地让科学研究工作人员能迅速较为自身的念头和现有的方式，该架构出示了DQN、C51、 Rainbow agent精简和Implicit Quantile Networks的玩ALE标准下的那60个雅达利手机游戏的详细训炼数据信息，以Python pickle文档和JSON数据信息文件的格式储存，而且放进了一个数据可视化网页页面中。

此外，新架构中也有训炼好的深层互联网、初始统计分析系统日志，及其TensorBoard标明好的TensorFlow恶性事件文档。

传送器

开源框架資源

Dopamine谷歌博客：

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github免费下载：

https://github.com/google/dopamine/tree/master/docs#downloads

colabs：

https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

手机游戏训炼数据可视化网页页面：

https://google.github.io/dopamine/baselines/plots.html

相关资料

ALE标准：

https://arxiv.org/abs/1207.4708

DQN（DeepMind）：

https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51（ICML 2017）：

https://arxiv.org/abs/1707.06887

Rainbow：

https://arxiv.org/abs/1710.02298

Implicit Quantile Networks（ICML 2018）：

https://arxiv.org/abs/1806.06923

— 完 —

真挚招骋

量子位已经征募编写/新闻记者，工作中地址在中关村。希望有才华、有激情的同学们加入团队！有关关键点，请在量子位微信公众号(QbitAI)会话页面，回应“招骋”两字。

量子位 QbitAI · 今日头条号签订创作者

վ'ᴗ' ի 跟踪AI技术性和商品最新消息

上海汽车网，欢迎您！

主页 > 上海汽车网 > 消费 > 正文

谷歌推出基于TensorFlow强化学习新框架“多巴胺”丨附

传送器

频道更新

最新资讯