到达一个目标的可行距离是和障碍物及交通工具联系在一起的。
如果去学校要翻一座山,那肯定不能走直线,没有哪条路是直线的就说明了到达目标是曲折的。
如果遇到河没有桥,就需要绕原路,如果有桥就可以走捷径。
如果可以坐飞机,那距离的概念及感受都会受到人可以操控的工具的影响而变化。心理学就指出在人可以即使通过工具接触到某物时,也会有特定的神经激活。
距离的概念如此复杂,该怎么学习这个复杂的概念呢?
这里介绍几篇论文就给出了参考思路,可以在这个方向上面推进。
关键词:options SR laplacian RL Representations Efficient SKILL
1 paper: https://www.arxiv-vanity.com/papers/1810.04586/
The Laplacian in RL: Learning Representations with Efficient Approximations

距离必然和障碍物及工具联系在一起,这篇论文就给出了一个解决办法,提升了之前很多不能scale的办法;快速可扩展的学习这个表征;
后面有其他论文的不同训练量的参考。





对比训练量 3e4 1e5 实验不同 可以参考
paper: NEAR-OPTIMAL REPRESENTATION LEARNING FOR HIERARCHICAL REINFORCEMENT LEARNING
对比训练量 图3 10M

paper2 :
https://www.arxiv-vanity.com/papers/1703.00956/


paper3 1710.11089


