Для обновления Q-значения используется формула:Qновое = Qстарое + α(R + γ(max(Qновое)) - Qстарое)
Подставим значения α=0.01 и γ=0.9 в формулу:
Qновое = Qстарое + 0.01(R + 0.9(max(Qновое)) - Qстарое)
Допустим, у нас было Qстарое = 10, R = 5 и max(Qновое) = 15.
Qновое = 10 + 0.01(5 + 0.9(15) - 10)Qновое = 10 + 0.01(5 + 13.5 - 10)Qновое = 10 + 0.01(8.5)Qновое = 10 + 0.085Qновое = 10.085
Таким образом, обновлённое Q-значение будет равно 10.085.
Для обновления Q-значения используется формула:
Qновое = Qстарое + α(R + γ(max(Qновое)) - Qстарое)
Подставим значения α=0.01 и γ=0.9 в формулу:
Qновое = Qстарое + 0.01(R + 0.9(max(Qновое)) - Qстарое)
Допустим, у нас было Qстарое = 10, R = 5 и max(Qновое) = 15.
Qновое = 10 + 0.01(5 + 0.9(15) - 10)
Qновое = 10 + 0.01(5 + 13.5 - 10)
Qновое = 10 + 0.01(8.5)
Qновое = 10 + 0.085
Qновое = 10.085
Таким образом, обновлённое Q-значение будет равно 10.085.