观点 | 我在谷歌大脑工作的 18 个月中，是怎样研究强化学习的？

ai 科技评论按：在强化学习领域，谷歌大脑的研究内容一直是业界重点关注的对象。marc g. bellemare 是谷歌大脑的研究员，研究方向为分布式强化学习、表征学习等。他将自己在谷歌大脑 18 个月中研究经历和心得写成了文章并进行发表。 ai 科技评论全文编译如下。
时间回溯到 2017 年夏天，在欧洲一段时间的告别旅行中，我被当时在蒙特利尔新成立的谷歌大脑团队录用（当时我进行远程办公）。我在家里的办公室可以看到伦敦北部贝尔塞斯公园（belsize park）的绝美景色，而且还曾招待了谷歌蒙特利尔的整个强化学习团队，这是真的。
从那以后，我搬到了另一个大陆，在 ai 实习生、学生研究者和全职谷歌员工三重角色中转换。现在，谷歌团队的规模有了相当大的扩展（而且还在继续扩展：marlos c. machado 也加入了我们）。事后看来，2018 年是相当多产的一年。这篇博客回顾了这段时间我们的科研产出，以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研究进展以及我们所参与过的非常棒的合作，从而让我们对不远的未来有了一个认识。
分布式强化学习「它很好。但它如何实现呢」
在强化学习中，分布式的方法认为我们应该预测随机收益的分布，而不是预测它们的期望值 (bellemare, dabney, munos, icml 2017 链接：/jeffclune/status/1088857228222709760)。
去年 8 月，我们还发布了开源强化学习框架，dopamine（白皮书：castro et al.，2018 链接：.06110）。我们想从简单的 dopamine 入手，坚持开发对强化学习研究有用的一小部分核心功能。因此，框架的第一个版本由大约 12 个 python 文件组成，并为 ale 提供了一个单 gpu、最先进的 rainbow 智能体。dopamine 2.0（2 月 6 日 pablo samuel castro 的博客文章）扩展了第一个版本，更广泛地支持离散操作域。我们最近几乎所有的强化学习研究都使用 dopamine。
最后同样值得一提的是，我们最近还与 deepmind 合作发布了一个基于热门纸牌游戏 hanabi（bard et al.，2019）的人工智能方法新研究平台。hanabi 是独一无二的，因为它结合了合作（而不是竞争！）和部分可观察性。代码中包含一个基于 dopamine 的智能体，因此你可以随时将代码用起来。我已经在另一篇博文中（链接：.09819）。很高兴看到强化学习的越来越多的研究者们迎接挑战，致力于解决 montezuma’s revenge 等艰难的探索问题。尽管 epsilon-贪婪（epsilon-greedy）算法和熵正则化（entropy regularization）在实践中仍然占据主导地位，但我认为我们离显著提高算法样本效率的集成解决方案，也不远了。
尽管蒙特利尔市中心的风景可能与伦敦北部不尽相同，但我在谷歌大脑这段时间的研究经历绝对令人兴奋。蒙特利尔和加拿大是多位世界上最优秀的深度强化学习研究人员的家乡，能与这么多本地和谷歌大脑团队的人才交流，我感到很不胜荣光。
via：marcgbellemare
点击阅读原文，报读由谷歌大脑开设的神经网络系列课

观点 | 我在谷歌大脑工作的 18 个月中，是怎样研究强化学习的？

VIP推荐