暂无搜索历史
我们正在进入语音时代,从智能语音助手到智能家居,这些智能语音产品已经开始融入我们的生活了。
它们都可以用于 multi-agent 环境,下面以 soccer game 为例。
设置一个 epsilon,如果随机产生的数字小于eps就随便弄个action探索一下,如果大于eps就利用环境信息挑选action:
KWIK 算法来自论文 Knows What It Knows: A Framework For Self-Aware Learning
multiagent 是指同时有多个 agent 更新 value 和 Q 函数,主要的算法有:q learning, friend and foe q lea...
今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》,先记一下论文中的基础概念,然后再去深入解读。
石头剪子布属于一种 zero-sum game,即一个人的 loss 是另一个人的 gain。
在解决石头剪子布这个问题的过程中,我们会用到一个 maxmin 函数,先来看看这个函数的理论基础。
我们在求解石头剪子布的纳什均衡问题时会用到 cvxopt 里面的这个函数:solvers.lp(c=c, G=G, h=h, A=A, b=b)。
Cvxopt 是基于 Python 语言的用于解决凸优化问题的免费包,可以用于求解纳什均衡问题的最优策略,好用但是不容易理解,
它是强化学习中的一种 values-based 算法,最终是会学习出一个表格 Q-Table,例如在一个游戏中有下面5种状态和4种行为,则表格为:
OpenAI Gym 是一个最广泛使用的强化学习实验环境,内置上百种实验环境,比如一些简单几何体的运动,一些用文本表示的简单游戏,或者机械臂的抓取和控制等实验环...
Q-learning 是要让 agent 通过不断地玩游戏,从环境给予的奖励反馈中学习到给定state下的最优 action。
在gym里有个自动驾驶的模拟器,它的任务是把乘客从一个地方接起,在另一个地方放下,在这个过程中 需要小车至少遵守下面三个规则:
通过前面的几篇文章可以知道,当我们要用 Q-learning 解决一个问题时,首先需要知道这个问题有多少个 state,每个 state 有多少 action,...
上一篇文章有介绍gym里面env的基本用法,下面几行可以打印出一个当前环境的可视化:
State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法,它的算法和公式和 Q learning 很像,...
Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action,但是当 state 空间很大时,如上百万的状态时,这个 ...
今天要用 Gym 里面的 LunarLander-v2 环境,结果报错,寻思着重新安装一下,于是一段漫长的连环坑就开始了。
上一篇文章中我们知道了 Q-learning 不适合状态空间很大的情况,因为它需要建立的 Q-table 对于较大维数的状态空间来说,计算是很难实现的,所以用 ...
暂未填写公司和职称
暂未填写个人简介
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市