Найти оптимальное решение Вам даны точные функции поведения динамической системы (со случайными error terms в каждой функции). Также можно управлять одной единственной переменной X, от которой зависят все данные функции, в результате воздействия на которую получается Reward в каждом периоде игры t – [0, T]. Как получить оптимальную динамическую стратегию управления переменной X, чтобы максимизировать Reward на всем промежутке [0, T]?
В какую сторону копать?

24 Ноя 2019 в 19:49
568 +1
1
Ответы
1

Для решения данной задачи оптимального управления можно воспользоваться методами динамического программирования или методами оптимального управления. Сначала стоит определить целевую функцию (Reward) и функцию стоимости, описывающую затраты на управление переменной X. Затем можно построить уравнение Беллмана и решить его, чтобы найти оптимальную стратегию управления переменной X.

Кроме того, можно использовать методы искусственного интеллекта, такие как обучение с подкреплением или глубокое обучение, чтобы найти оптимальную стратегию управления переменной X.

В любом случае, для успешного решения задачи оптимального управления рекомендуется использовать математический аппарат оптимизации и теории управления, а также провести анализ исходных функций поведения динамической системы.

19 Апр в 00:57
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Название заказа не должно быть пустым
Введите email
Бесплатные доработки
Гарантированные бесплатные доработки
Быстрое выполнение
Быстрое выполнение от 2 часов
Проверка работы
Проверка работы на плагиат
Интересные статьи из справочника
Поможем написать учебную работу
Название заказа не должно быть пустым
Введите email
Доверьте свою работу экспертам
Разместите заказ
Наша система отправит ваш заказ на оценку 92 588 авторам
Первые отклики появятся уже в течение 10 минут
Прямой эфир