首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    论文趣读:人工智能里程碑?回顾2015年登上Nature的DQN(全文翻译+批注)

    Piper蛋窝批注:现在几乎所有的深度强化学习方法,都会使用经验池,否则,对于数据是一种浪费 / 利用不充分) 图1:五个雅达利2600游戏的截屏:(从左至右)Pong,Breakout,Space Invaders...5 实验 目前,我们在7个受欢迎的雅达利游戏上进行了我们的实验:Beam Rider,Breakout,Enduro,Pong,Q*bert,Seaquest,,Space Invaders。...除了Space Invaders外,我们为所有游戏设置了 ;在Space Invaders中,我们注意到 会让激光器因为其持续在blink状态而变得不可见。...最终,我们发现,除了Space Invaders,我们的算法在最优分数(第8行)与平均结果(第4行)上都能取得最好的性能。...Q*bert,Seaquest,Space Invaders这三个游戏比人类的表现差的很远,控制好这三个游戏更加具有挑战性,因为他们需要网络模型去寻找一个长时效性的策略。

    1.6K30
    领券