Сириус курсы, искусственный интеллект Сопоставьте элементы формулы вычисления обновлённого Q-значения с их конкретными значениями в данном примере.
Состояние s , в котором находится агент.
Действие a , которое совершает агент, находясь в состоянии s
Состояние s′ , в котором агент будет находиться после совершения действия a
Qsa — Q-значение для действия a в состоянии s
rsa — награда, которую агент получит за совершение действия a в состоянии s ................................................................................................. +1 «Следующая клетка перед головой змейки пустая».
«Поворот направо и перемещение на одну клетку вперёд».
0,38 «Перед головой змейки тупик (граница поля или тело змейки)».
Состояние s: «Следующая клетка перед головой змейки пустая» Действие a: «Поворот направо и перемещение на одну клетку вперёд» Состояние s′: «Перед головой змейки тупик (граница поля или тело змейки)» Qsa: 0,38 rsa: +1
В данном примере:
Состояние s: «Следующая клетка перед головой змейки пустая»
Действие a: «Поворот направо и перемещение на одну клетку вперёд»
Состояние s′: «Перед головой змейки тупик (граница поля или тело змейки)»
Qsa: 0,38
rsa: +1