首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

英才学院本科生在机器学习领域顶级会议ICLR发表论文

近日,英才实验学院2014级本科生刘豪在美国德克萨斯大学奥斯汀分校进行海外科研实习期间,攥写的论文“Action-dependent Control Variates for Policy Optimization via Stein Identity”成功入选机器学习领域顶级会议之一的International Conference on Learning Representations(ICLR,国际学习表征会议)。刘豪为该论文共同第一作者,电子科技大学为第一作者单位。这也是我校首次在ICLR会议发表论文。

策略梯度方法在解决强化学习问题方面取得了显著成功,但是在策略梯度估计方面仍存在较大的方差问题,导致训练样本效率较差。该论文提出了一种控制变量方法来有效地减少策略梯度方法的方差,通过引入更一般的依赖于动作的基线函数,扩展了以前只基于状态的控制变量和优势估计,并揭示了之前的一系列方法是该方法的特殊情况。实证研究表明,该方法显著提高了最先进的策略梯度方法的样本效率。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180210B0BUQP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券