我想在OpenAI的Bipedal Walker v2中实现Q学习,但是在寻找了教程之后,它们似乎总是有限的环境,这使得Q矩阵和奖励矩阵易于初始化。
例如:http : //mnemstudio.org/path-finding-q-learning-tutorial.htm
我唯一的问题是,在更开放的环境(例如我要使用的环境)中,这些矩阵的尺寸应该是多少?
有问题的环境:https://gym.openai.com/envs/BipedalWalker-v2/
您得到的观察(请注意,有些值可能是无限的):https : //github.com/openai/gym/wiki/BipedalWalker-v2
米脂
拉莫斯之舞
相关分类