Основные термины Reinforcement Learning
Reinforcement Learning -- это обучение с подкреплением и ML-метод, при использовании которого система обучается посредством проб и ошибок. Рассмотрим основную идею и термины.
Основная идея Reinforcement Learning (RL) заключается в том, что обучение системы происходит параллельно со взаимодействием со средой, при этом применяется способ положительной награды в случае правильного действия и отрицательной реакции при действии неправильном. В результате система (ее называют агентом) программируется на поиск максимального вознаграждения, то есть учится избегать негативных результатов.
Работа с RL предполагает знание ряда терминов:
- Агент (agent): система, выполняющая действия.
- Среда (environment, e): сценарий/окружение, с которым/в котором работает агент.
- Награда (reward, R): немедленный положительный или отрицательный возврат, который получает агент после выполнения действия/задачи.
- Состояние (state, s): относится к текущему положению, возвращаемому средой.
- Политика (policy, π): речь идет о стратегии, применяемой агентом при принятии решения о следующем действии на основании текущего состояния.
- Стоимость (value, V): награда, ожидаемая в долгосрочной перспективе. Если сравнивать с краткосрочным вознаграждением, принимается во внимание скидка (discount).
- Значение Функции (value function): значение определяет размер переменной, формирующей общую сумму награды.
- Модель среды (Model of the environment): имитатор поведения среды (демо-версия вашей модели). Позволяет понять, как будет вести себя среда.
- Значение Q/значение действия (Q): очень похоже на value (V) с той лишь разницей, что Q принимает в качестве текущего действия дополнительный параметр.
Хотите знать про Reinforcement Learning больше? Обратите внимание на следующий курс в Otus!
По материалам https://proglib.io.