03.07.23 в 13:06

Основные термины Reinforcement Learning

Machine Learning → Полезные материалы по Machine Learning

Теги: обучение с подкреплением, reinforcement learning, rl

Reinforcement Learning -- это обучение с подкреплением и ML-метод, при использовании которого система обучается посредством проб и ошибок. Рассмотрим основную идею и термины.

Основная идея Reinforcement Learning (RL) заключается в том, что обучение системы происходит параллельно со взаимодействием со средой, при этом применяется способ положительной награды в случае правильного действия и отрицательной реакции при действии неправильном. В результате система (ее называют агентом) программируется на поиск максимального вознаграждения, то есть учится избегать негативных результатов.

Работа с RL предполагает знание ряда терминов:

Агент (agent): система, выполняющая действия.
Среда (environment, e): сценарий/окружение, с которым/в котором работает агент.
Награда (reward, R): немедленный положительный или отрицательный возврат, который получает агент после выполнения действия/задачи.
Состояние (state, s): относится к текущему положению, возвращаемому средой.
Политика (policy, π): речь идет о стратегии, применяемой агентом при принятии решения о следующем действии на основании текущего состояния.
Стоимость (value, V): награда, ожидаемая в долгосрочной перспективе. Если сравнивать с краткосрочным вознаграждением, принимается во внимание скидка (discount).
Значение Функции (value function): значение определяет размер переменной, формирующей общую сумму награды.
Модель среды (Model of the environment): имитатор поведения среды (демо-версия вашей модели). Позволяет понять, как будет вести себя среда.
Значение Q/значение действия (Q): очень похоже на value (V) с той лишь разницей, что Q принимает в качестве текущего действия дополнительный параметр.

Хотите знать про Reinforcement Learning больше? Обратите внимание на следующий курс в Otus!

По материалам https://proglib.io.

Системный и бизнес-анализ

Основные термины Reinforcement Learning