Основные термины Reinforcement Learning | OTUS >

Основные термины Reinforcement Learning

Reinforcement Learning -- это обучение с подкреплением и ML-метод, при использовании которого система обучается посредством проб и ошибок. Рассмотрим основную идею и термины.

b7fcafaa16c843345cae5ea96dbb640d_3_1-20219-1ecdda.jpg

Основная идея Reinforcement Learning (RL) заключается в том, что обучение системы происходит параллельно со взаимодействием со средой, при этом применяется способ положительной награды в случае правильного действия и отрицательной реакции при действии неправильном. В результате система (ее называют агентом) программируется на поиск максимального вознаграждения, то есть учится избегать негативных результатов.

Работа с RL предполагает знание ряда терминов:

  1. Агент (agent): система, выполняющая действия.
  2. Среда (environment, e): сценарий/окружение, с которым/в котором работает агент.
  3. Награда (reward, R): немедленный положительный или отрицательный возврат, который получает агент после выполнения действия/задачи.
  4. Состояние (state, s): относится к текущему положению, возвращаемому средой.
  5. Политика (policy, π): речь идет о стратегии, применяемой агентом при принятии решения о следующем действии на основании текущего состояния.
  6. Стоимость (value, V): награда, ожидаемая в долгосрочной перспективе. Если сравнивать с краткосрочным вознаграждением, принимается во внимание скидка (discount).
  7. Значение Функции (value function): значение определяет размер переменной, формирующей общую сумму награды.
  8. Модель среды (Model of the environment): имитатор поведения среды (демо-версия вашей модели). Позволяет понять, как будет вести себя среда.
  9. Значение Q/значение действия (Q): очень похоже на value (V) с той лишь разницей, что Q принимает в качестве текущего действия дополнительный параметр.

Хотите знать про Reinforcement Learning больше? Обратите внимание на следующий курс в Otus!

Screenshot_1-20219-4a8bd7.png

По материалам https://proglib.io.

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться
Популярное
Сегодня тут пусто