Сириус курсы, искусственный интеллект Сопоставьте элементы формулы вычисления обновлённого Q-значения с их конкретными значениями в данном примере.
Состояние s , в котором находится агент.
Действие a , которое совершает агент, находясь в состоянии s
Состояние s′ , в котором агент будет находиться после совершения действия a
Qsa — Q-значение для действия a в состоянии s
rsa — награда, которую агент получит за совершение действия a в состоянии s ................................................................................................ +1 «Следующая клетка перед головой змейки пустая».
«Поворот направо и перемещение на одну клетку вперёд».
0,38 «Перед головой змейки тупик (граница поля или тело змейки)».
Состояние s: «Следующая клетка перед головой змейки пустая Действие a: «Поворот направо и перемещение на одну клетку вперёд Состояние s′: «Перед головой змейки тупик (граница поля или тело змейки) Qsa: 0,3 rsa: +1
В данном примере:
Состояние s: «Следующая клетка перед головой змейки пустая
Действие a: «Поворот направо и перемещение на одну клетку вперёд
Состояние s′: «Перед головой змейки тупик (граница поля или тело змейки)
Qsa: 0,3
rsa: +1