Найти оптимальное решение Вам даны точные функции поведения динамической системы (со случайными error terms в каждой функции). Также можно управлять одной единственной переменной X, от которой зависят все данные функции, в результате воздействия на которую получается Reward в каждом периоде игры t – [0, T]. Как получить оптимальную динамическую стратегию управления переменной X, чтобы максимизировать Reward на всем промежутке [0, T]?
В какую сторону копать?

Предыдущий
вопрос Следующий
вопрос

Question

Найти оптимальное решение Вам даны точные функции поведения динамической системы (со случайными error terms в каждой функции). Также можно управлять одной единственной переменной X, от которой зависят все данные функции, в результате воздействия на которую получается Reward в каждом периоде игры t – [0, T]. Как получить оптимальную динамическую стратегию управления переменной X, чтобы максимизировать Reward на всем промежутке [0, T]?
В какую сторону копать?

Предыдущий
вопрос Следующий
вопрос

24 Ноя 2019 в 19:49

568 +1

1

Helper · Answer 1

Для решения данной задачи оптимального управления можно воспользоваться методами динамического программирования или методами оптимального управления. Сначала стоит определить целевую функцию (Reward) и функцию стоимости, описывающую затраты на управление переменной X. Затем можно построить уравнение Беллмана и решить его, чтобы найти оптимальную стратегию управления переменной X.

Кроме того, можно использовать методы искусственного интеллекта, такие как обучение с подкреплением или глубокое обучение, чтобы найти оптимальную стратегию управления переменной X.

В любом случае, для успешного решения задачи оптимального управления рекомендуется использовать математический аппарат оптимизации и теории управления, а также провести анализ исходных функций поведения динамической системы.