溢出错误,因为我尝试将值迭代算法与 mdptoolbox 一起使用

我为具有 4 种可能状态和 4 种可能操作的板设置了一个简单的 MDP。董事会和奖励设置如下所示:

http://img1.mukewang.com/6124a2170001b3d017061177.jpg

这里S4是目标状态,S2是吸收状态。我在我编写的代码中定义了转移概率矩阵和奖励矩阵,以获得此 MDP 的最佳值函数。但是,当我运行代码,我得到一个错误,指出:OverflowError: cannot convert float infinity to integer。我无法理解这样做的原因。


import mdptoolbox

import numpy as np


transitions = np.array([

    # action 1 (Right)

    [

        [0.1, 0.7, 0.1, 0.1],

        [0.3, 0.3, 0.3, 0.1],

        [0.1, 0.2, 0.2, 0.5],

        [0.1,  0.1,  0.1,  0.7]

    ],

    # action 2 (Down)

    [

        [0.1, 0.4, 0.4, 0.1],

        [0.3, 0.3, 0.3, 0.1],

        [0.4, 0.1, 0.4, 0.1],

        [0.1,  0.1,  0.1,  0.7]

    ],

    # action 3 (Left)

    [

        [0.4, 0.3, 0.2, 0.1],

        [0.2, 0.2, 0.4, 0.2],

        [0.5, 0.1, 0.3, 0.1],

        [0.1,  0.1,  0.1,  0.7]

    ],

    # action 4 (Top)

    [

        [0.1, 0.4, 0.4, 0.1],

        [0.3, 0.3, 0.3, 0.1],

        [0.4, 0.1, 0.4, 0.1],

        [0.1,  0.1,  0.1,  0.7]

    ]

])


rewards = np.array([

    [-1, -100, -1, 1],

    [-1, -100, -1, 1],

    [-1, -100, -1, 1],

    [1, 1, 1, 1]

])



vi = mdptoolbox.mdp.ValueIteration(transitions, rewards, discount=0.5)

vi.setVerbose()

vi.run()


print("Value function:")

print(vi.V)



print("Policy function")

print(vi.policy)

如果我将 的值更改discount为1from 0.5,它工作正常。值迭代不适用于折扣值0.5或任何其他十进制值的原因是什么?


更新:看起来我的奖励矩阵有问题。我无法按照我的意图编写它。因为如果我改变奖励矩阵中的一些值,错误就会消失。


冉冉说
浏览 197回答 1
1回答

30秒到达战场

所以结果是我定义的奖励矩阵是不正确的。根据上图中定义的奖励矩阵,它应该是文档中(S,A)给出的类型,其中每一行对应一个状态,从until开始,每一列对应于从until开始的动作。新的奖励矩阵如下所示:S1S4A1A4#(S,A)rewards = np.array([    [-1, -1, -1, -1],    [-100, -100, -100, -100],    [-1, -1, -1, -1],    [1, 1, 1, 1]])它可以正常工作。但我仍然不确定,内部发生了什么导致溢出错误。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python