Научим внедрять RL-алгоритмы на практике в играх, робототехнике, энергетике и финансах

В октябре

Advanced

3 месяца

Онлайн

Вт/Пт 20:00 Мск

Для кого этот курс?

Для ML-инженеров, которые хотят научиться внедрять RL в продакшн: оптимизация систем, алгоритмический трейдинг, управление ресурсами. А также стремятся к эффективному развертыванию и масштабированию RL-моделей
Для специалистов по Data Science, которые используют RL для задач, где классический ML неэффективен — адаптивные системы, динамические среды. А также интересуются комбинацией RL с NLP, рекомендательными системами
Для Fullstack-разработчиков, которые хотят освоить RL для создания интеллектуальных приложений — от игровых AI до автоматизации процессов или перейти в ML-направление
Для системных аналитиков, которые изучают RL, чтобы проектировать AI-решения для бизнеса: автоматизация процессов, логистика, финансы. А также хотят понимать возможности и ограничения RL для принятия решений
Для Deep Learning инженеров, которые работают с Deep RL в сложных доменах — робототехника, игровые AI, компьютерное зрение, и нацелены на research и передовые гибридные архитектуры

Необходимые знания:

базовое знакомство с Python
базовые знания линейной алгебры (матрицы, векторы, градиентный спуск)
базовые навыки работы с ML (pandas, sklearn, линейная регрессия, логистическая регрессия)

Что такое Reinforcement Learning?

Reinforcement Learning — это одна из трех основных парадигм машинного обучения, в котором агент учится взаимодействовать с окружающей средой методом проб и ошибок. Reinforcement Learning можно использовать в разных областях:

В играх, чтобы создавать ботов, которые могут победить даже лучших игроков.
В робототехнике, чтобы роботы могли учиться и улучшать свои навыки без постоянного программирования.
В финансах, чтобы создавать алгоритмы, которые могут сами покупать и продавать активы и приносить прибыль.
В электронной коммерции, чтобы создавать системы, которые предлагают товары, которые нравятся покупателям.
В промышленности, чтобы оптимизировать работу заводов и снизить расход энергии.

Что вам даст этот курс?

Вы научитесь:

Понимать, как работает обучение с подкреплением, и применять классические алгоритмы типа Q-learning, SARSA и Monte Carlo.
Создавать модели окружения и обучать агентов RL для решения задач в ваших условиях.
Использовать нейронные сети в RL и применять алгоритмы Deep RL, от самых простых, таких как DeepQ-Network (DQN) до самых сложных, таких как Proximal policy optimization (PPO).
Использовать продвинутые методы RL, такие как оптимальное управление, обучение со скользящим горизонтом и Model-based RL, для сложных задач.
Решать конкретные задачи с помощью RL и понимать, как это работает на практике.

Вы сможете:

Создавать ботов и NPC для игр, которые будут обучаться и подстраиваться под игрока, делая игру интереснее и неожиданнее.
Делать роботов, которые смогут сами ориентироваться в пространстве, двигать предметы и выполнять задачи в разных условиях.
Создавать алгоритмы, которые будут автоматически торговать на финансовых рынках, анализируя данные и принимая решения о покупке и продаже, чтобы заработать побольше и не рисковать.
Делать персонализированные рекомендации, которые будут учитывать вкусы пользователей и предлагать им подходящие товары, услуги или контент.
Решать разные задачи по оптимизации и управлению в разных сферах: от производства до энергопотребления. RL поможет автоматизировать процессы и сделать их эффективнее.

NOTE! По итогу большинства вебинаров вы получаете Jupyter Notebook с разбором практического кейса по материалам занятий.

Почему стоит освоить?

RL находит применение в совершенно разных областях: беспилотниках, автоматизации на производстве, трейдинге и финансах, в здравоохранении, в новостных лентах и для инженерных разработок.

Процесс обучения

Обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в Telegram, сдача домашних работ и получение обратной связи от преподавателя.

Вебинары проводятся 2 раза в неделю по 2 ак. часа и сохраняются в записи в личном кабинете. Вы можете посмотреть их в любое удобное для вас время.

В ходе обучения вы будете выполнять домашние задания. Каждое из них посвящено одному из компонентов вашего выпускного проекта.

После выполнения всех домашних заданий вы получите готовый выпускной проект.

Оптимальная нагрузка

Возможность совмещать учебу с работой.

Эксперты

Преподаватели из разных сфер, каждый со своим уникальным опытом.

Перспективы

Получите знания, которые помогут повысить вашу востребованность и доход.

Формат обучения

Интерактивные вебинары

2 занятия по 2 ак.часа в неделю.
Доступ к записям и материалам остается навсегда.

Обратная связь

Домашние задания с поддержкой и обратной связью наших преподавателей помогут освоить изучаемые технологии.

Активное комьюнити

Чат в Telegram для общения преподавателей и студентов.

Программа

Введение в Reinforcement Learning

Модуль начинается с общего введения, охватывает ключевые особенности обучения с подкреплением, основные алгоритмы. Вы рассмотрите, как построить модель окружения и агента, и примените свои знания на простых сценариях.

Тема 1: Знакомство с Reinforcement Learning

Тема 2: Ключевые понятия RL: агент, среда, награда, политика. Построение среды

Тема 3: Основные алгоритмы RL: Value based

Тема 4: Основные алгоритмы RL: Policy based

Deep Reinforcement Learning

В этом модуле вы рассмотрите введение в глубокое обучение с подкреплением, которое объясняет значимость глубоких Q-сетей, представляет алгоритмы на основе политик. Затем объединяет методы на основе политик и значений с использованием алгоритма Actor-Critic. И, наконец, охватывает то, как нейронные сети могут использоваться для аппроксимации функций вознаграждения и политик.

Тема 1: Введение в Deep Reinforcement Learning

Тема 2: Deep Q-Network (DQN) алгоритм

Тема 3: Deep Policy Gradient (PG) алгоритм

Тема 4: Actor-Critic алгоритм

Тема 5: TRPO -> PPO

Тема 6: DDPG -> TD3 -> LSTM-TD3

Advanced Reinforcement Learning

Модуль содержит более сложные темы и глубже раскрывает пройденный материал. Здесь рассматривается применение алгоритмов к более сложным ситуациям, например наличие фиксированных правил (model-based) или взаимодействие нескольких агентов между собой для достижения общей темы.

Тема 1: Обучение с использованием модели среды (model-based rl)

Тема 2: Model-based, часть 2

Тема 3: Иерархическое обучение с подкреплением

Тема 4: Выбор темы и организация проектной работы

Тема 5: Многоагентное обучение и кооперация агентов

Тема 6: Трансформеры в RL: decision transformers и action transformers

Применение RL в реальных задачах

Модуль посвящен обзору практических примеров применения RL. Вы познакомитесь с игровой индустрией и рассмотрите какие задачи здесь можно решать с помощью RL. Поговорите о робототехнике, поймете какое применение RL находит в рекомендательных системах и более подробно рассмотрите финансовые модели на примере задачи балансировки портфеля активов и задачи кредитного скоринга.

Тема 1: Применение RL в игровой индустрии

Тема 2: Применение RL в робототехнике

Тема 3: RL в рекомендательных системах

Тема 4: RL в задаче скоринга

Тема 5: Применение RL в управлении финансовым портфелем

Проектная работа

Заключительный месяц курса посвящен проектной работе. Свой проект — это то, над чем интересно поработать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.

Тема 1: Консультация по проектам и домашним заданиям

Тема 2: Предзащита

Тема 3: Защита проектных работ. Подведение итогов курса

Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит

Проектная работа

Последний месяц отводится для проектной работы. Студенты могут выбрать одну из сфер, где будут реализовывать алгоритмы обучения с подкреплением:

игровая индустрия
робототехника
управление энергетическими системами
управление финансовым портфелем
Построение RecSys на основе алгоритмов машинного обучения с подкреплением (YouTube)

Преподаватели

Игорь Стурейко

(к.ф.-м.н.) Teamlead, главный инженер

FinTech

Анатолий Чудаков

Team Lead

Онлайн-кинотеатр Wink

Сергей Доронин

Ведущий инженер-программист

ЗАО Астраханские Цифровые Технологии

Андрей Канашов

Senior Data Scientist

Самолет

Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания

Прошедшие
мероприятия

Игорь Стурейко

Открытый вебинар

RL - учимся обыгрывать человека

Игорь Стурейко

Открытый вебинар

Алгоритм DQN — учим нейросети принимать решения

Оставьте заявку, чтобы получить доступ ко всем записям прошедших мероприятий. Записи всех мероприятий появятся в этом блоке

Корпоративное обучение для ваших сотрудников

OTUS помогает развивать высокотехнологичные команды. Почему нам удаётся это делать успешно:

Курсы OTUS верифицированы крупными игроками ИТ-рынка и предлагают инструменты и практики, актуальные на данный момент
Студенты работают в группах, могут получить консультации не только преподавателей, но и профессионального сообщества
OTUS проверяет знания студентов перед стартом обучения и после его завершения
Простой и удобный личный кабинет компании, в котором можно видеть статистику по обучению сотрудников
Сертификат нашего выпускника за 5 лет стал гарантом качества знаний в обществе
OTUS создал в IT более 120 курсов по 7 направлениям, линейка которых расширяется по 40-50 курсов в год

Отзывы

Дмитрий Волобуев

06.05.2025

На момент начала курса у меня было 6 лет опыта в области DS и ML. Сейчас работаю лидом команды ML в ride-hailing компании и занимаюсь задачами в разных направлениях: от классического ML и рекомендательных систем до компьютерного зрения и NLP. На курс Reinforcement Learning пришёл для того, чтобы расширить круг профессиональных компетенций и глубже погрузиться в область, которая активно используется в близкой мне сфере: рекомендации, ценообразование, оптимизация маршрутов, матчинг и т.д. Это уже мой третий курс в Otus (до этого проходил MLOps и Data Engineer), и в очередной раз хочу отметить высокий уровень преподавания. Особенно нравится формат живых вебинаров — никаких предзаписанных лекций, все вопросы можно обсудить с преподавателями и сокурсниками в прямом эфире. Домашние задания тщательно проверялись, фидбэк подробный и по делу. Программа курса хорошо структурирована: подробно разбираются фундаментальные вещи и основные RL-алгоритмы как в теории, так и на практике. Много кода, примеров и домашних заданий, которые позволяют закрепить материал. Особенно ценным было то, что в финальном проекте даётся полная свобода — можно выбрать задачу, близкую к своей сфере, и попробовать применить RL на практике. Обучение дало мне чёткое понимание, как формулировать бизнес-задачи на языке RL, проектировать среды и подбирать алгоритмы под конкретные цели. Единственное, чего бы хотелось — больше внимания аспектам эксплуатации RL-систем в продакшене: архитектура, пайплайны, интеграция с другими системами. Также было бы полезно расширить блок с реальными кейсами — особенно в таких областях, как робототехника, где не всегда хватает примеров готовых проектов. Обучение получилось увлекательным, глубоким и практически ориентированным. Спасибо авторам курса и преподавателям за структурный подход, вовлечённость и готовность делиться опытом.

Антон Дождиков

29.04.2025

По образованию я историк, кандидат политических наук, машинное обучение изучал в ИТМО (профессиональная переподготовка). Занимаюсь исследованиями и научными разработками в сфере образования и науки. Есть более 45 научных статей и принимал участие в более чем 100 научных и аналитических проектах. Учился в отусе параллельно с курсом NLP. Курс очень тяжелый, с разбором "под капотом" и математики моделей. Курс нужен для освоения навыков моделирования социально-экономических и политических процессов с помощью обучения с подкреплением. Планирую работать над диссертацией доктора политических наук. Разрабатываю тематику "политическая система как модель машинного обучения" Довольно комфортная и приятная среда обучения. Конечно, "непосильная" для хронического гуманитария математика. В разработке есть пара научных статей. Надеюсь присоединиться к действующим исследовательским и проектным коллективам работающим в сфере экономики, финансов, управления и моделирования сложных процессов - от социальных до киберфизических и финансовых. Хотелось бы добавить больше практики. Курс очень насыщенный, но домашних заданий для набивания руки очень мало. Было бы неплохо для студентов арендовать GPU чтобы учить модельки в облаке на мощных графических процессорах.

Александр

05.02.2025

Образование — инженер-электромеханик. До обучения успел поработать преподавателем в ВУЗе, ИТ, энергетике, проектировании, АСУТП. В магистратуре выпускной проект был некоторым образом связан с применением нейросетей (использовал для классификации изображений в сортировочной линии), после этого появился интерес в использовании ML в управлении оборудованием. RL в этом отношении показался перспективным, принял решение освоить эту область более системно. Курс, в целом, оправдал ожидания. Получил базу для дальнейшего изучения, практические подходы к использованию. Применять планирую в рамках основной работы.

Мария

19.11.2024

Я более 10 лет работаю в Data Science в финансовой сфере. Я выбрала курс на тему Reinforcement Learning потому, что хотела развить свои навыки в части оптимизации обучения моделей и попробовать новые методы, помимо классического Machine Learning, а также потому, что тематика курса охватывает задачи, родственные тем, которыми я занимаюсь в своей текущей работе. Обучение в OTUS понравилось тем, что сочетается теория и практика, а также тем, что преподаватели всегда на связи, дают развернутые комментарии по домашним заданиям и проектной работе. Также очень удобно, что все материалы, включая видео с уроков, доступны оперативно и неограниченное время, в т.ч. после окончания курса. Обучение мне дало глубокое понимание развития и текущего состояния RL и практику применения метода в задаче, близкой к реальной рабочей. Уверена, что смогу применить полученные значения в своей текущей работе, что даст мне преимущества в качестве решения стоящих передо мной задач.

Анна Ширшова

15.11.2024

Коллеги-преподаватели, спасибо за интересный курс, профессионализм, отзывчивость и готовность помогать и раскрывать темы, которые даже непосредственно с предметом курса и не связаны! Было полезно. Полезный курс, под каждую тему выдаются рабочие ноутбуки (не нужно писать полностью с нуля для выполнения дз — можно использовать в качестве заготовок), отзывчивые преподаватели, готовые ответить на любые вопросы по теме и даже не по теме курса (и специально изучают доп.топики). Много полезных советов по подготовке инфраструктуры, среды. Есть как овервью для общего понимания применимости методов RL, так и технические, практические детали.

Айрат Шайхулов

07.08.2024

Работаю в Акбф, создаю алгоритмические портфели. Курс выбрал, потому что RL —интересные методы, которые можно применять в алготрейдинге. Благодаря обучению узнал много нового, получил знания, которые можно применять в трейдинге. И уже успешно применяю их в своей работе

Руслан Сихамов

05.08.2024

Работаю Data Scientist. Курс “Reinforcement Learning” выбрал из-за его актуальности и потенциальной необходимости на текущей работе. Понравились домашние задания, так как вынуждают студента самостоятельно писать код и копаться в неочевидных мелочах, что помогает разобраться и закрепить материал. Благодаря курсу я вооружился новыми инструментами для ML и расширил кругозор

Татьяна Воронич

27.03.2024

Обучение с подкрепление – это сложно понять, а еще сложнее объяснить. Подход подачи, основанный на прикладном использовании - самый подходящий формат для понимания, особенно такого направления как обучение с подкреплением. Авторы курса попытались собрать направления использования обучения с подкреплением и при этом последовательно и логично погружали в тематику. Для меня большой ценностью оказался модуль Advanced, раскрытие продвинутых методов, хотя практики не хватило. На этот курс лучше приходить немного подготовленным, и иметь представление об обучение с подкреплением в целом, и тогда материал будет легче усваиваться. Авторам и организаторам спасибо за путешествие с Reinforcement Learning!

Денис Успенский

25.03.2024

До курса я уже имел некоторый опыт в данной области (проходил в OTUS «Advanced ML»). Поэтому изначальной целью было именно систематизация и углубление уже имеющихся знаний, а также знакомство с продвинутыми темами RL. Считаю, что задачу по углублению знаний выполнить удалось. Первые три модуля курса, где рассматривается базовый RL, проработаны достаточно полно и всесторонне. Обучение выстроено логично, от базовых понятий и определений к более сложным алгоритмам. Четвертый модуль, по продвинутому RL, хотелось бы существенно расширить, внеся в него больше тем и практических занятий востребованных современной индустрией. Для специалистов, которые незнакомы или малознакомы с данной областью ML, курс можно рекомендовать к прохождению. Преподавательский состав очень хороший, особенно Игорь и Артем, которые всегда находили время что-то прокомментировать и ответить на вопросы. Материал выстроен последовательно и логично. Желаю всем будущим участникам удачи в прохождении!

Роман Скоромный

25.03.2024

Курс был хороший. Ориентированность на практику и активная поддержка в чате — одни из главных плюсов для меня.

Ivan Priz

22.03.2024

Курс выбрал, потому что было интересно узнать, как я могу применить RL для решения задач в играх - цель достиг. Узнал также, какие алгоритмы RL существуют и в каком случае какой применять. Все преподаватели компетентные, но особо запомнились Игорь и Артем. В целом, курсом доволен.

Dennis Piskovatskov

15.03.2024

Много раз я пытался разобраться в обучении с подкреплением, но не мог освоить его. Благодаря преподавателям этого курса я, наконец, преодолел этот барьер непонимания! Было бы замечательно видеть продолжение курса! А также применение машинного обучения на финансовых рынках! Спасибо!

Антон Дорогов

24.11.2023

Курс хороший, преподаватели компетентные. Было бы хорошо, если в курс добавили бы актуальные обертки среды выполнения, версии библиотек, работающие в разных ОС. Прохожу в OTUS уже третью программу, здесь хороший состав преподавателей.

Сергей Ковальчук

02.11.2023

Впечатление от курса в целом хорошие. Узнал очень много нового о возможностях и прикладных применениях RL. Курс помог мне расширить кругозор в этой сфере ML и начать собственные разработки в контексте ML agents для Unity и в области финансового анализа. Считаю, что нужно больше практических занятий на курсе. Возможно что-то вроде парного программирования. Отдельно хочется отметить Андрея Маргерта, видно, что он был очень вовлечен в процесс обучения. Также очень доходчиво объясняли материал Игорь Стурейко и Сергей Доронин.

Подтверждение знаний и навыков

OTUS осуществляет лицензированную образовательную деятельность. Вы получите сертификат о прохождении обучения, а также можете получить удостоверение о повышении квалификации.

После обучения вы:

Удостоверение о повышении квалификации: если вы успешно защитили выпускной проект и готовы предоставить копию документа о высшем или среднем профессиональном образовании
Доступ к учебным материалам курса
Ваш личный проект, который поможет проходить собеседования

Reinforcement Learning

Полная

В рассрочку

Полная стоимость

78 000 ₽

Доступные способы оплаты.
Стоимость указана для оплаты физическими лицами

Верните с помощью налогового
вычета до 13% стоимости обучения. Оставьте заявку и менеджер вас проконсультирует

Есть вопросы? Позвоните!
+7 499 938-92-02 бесплатно

Запишитесь сегодня

Старт занятий в октябре

Оплачиваете как юридическое лицо?

Частые вопросы

Почему стоит выбрать именно этот курс среди других?

Программа курса Reinforcement Learning уникальна и разработана была на базе успешно выполненных задач данным методом (разработчиком программы выступили Андрей Маргерт и Игорь Стурейко).

Обязательно ли выполнять и защищать выпускной проект?

Для получения сертификата OTUS и УПК (удостоверение повышения квалификации государственного образца) необходимо сдать проект. Кроме того, проект необязательно защищать перед аудиторией, а можно сдать в чате с преподавателем. Для получения УПК также понадобится предъявить документ об образовании.

Обязательно ли выполнять все домашние задания?

Нет, не обязательно. Но выполнение домашних заданий поможет вам разобраться в материале курса, поэтому хотя бы часть домашних заданий стоит выполнить. При выполнении или сдаче домашнего задания, вы можете задать вопрос преподавателям, если где-то возник вопрос.

Смогу ли я совмещать учебу с работой?

Да, программа курса рассчитана на то, что студент имеет ограниченный временной ресурс. 1 раз в модуль будут выдаваться домашние задания, а лекции 2 раза в неделю, которые вы всегда можете посмотреть в записи.

Что, если в середине курса я не смогу продолжать обучение?

У вас есть право одного бесплатного трансфера в другую группу. И лекции курса в любом случае у вас останутся в личном кабинете навсегда. Также есть отдельные опции по сдаче домашних заданий даже после окончания программы курса.

Может ли мой работодатель оплатить курс?

Конечно, мы работаем с юр. лицами. При общении с менеджером уточните, что оплачивать будет ваш работодатель.

Почему стоит выбрать учебу в Otus?

Образовательная экспертиза Otus доказана более 6 лет успешной специализации на обучении в IT. Наша фишка — продвинутые программы для специалистов с опытом и быстрый запуск курсов по новым набирающим популярность технологиям. Мы уже обучили более 20 000 студентов, и будем рады помочь освоить вам новые навыки.

Остались вопросы?

Оставляйте заявку и задавайте вопросы менеджеру, команда курса с ним на связи и постарается дать вам дать исчерпывающую информацию.

Reinforcement Learning

Для кого этот курс?

Необходимые знания:

Что такое Reinforcement Learning?

Что вам даст этот курс?

Вы научитесь:

Вы сможете:

Почему стоит освоить?

Процесс обучения

Оптимальная нагрузка

Эксперты

Перспективы

Формат обучения

Интерактивные вебинары

Обратная связь

Активное комьюнити

Программа

Введение в Reinforcement Learning

Deep Reinforcement Learning

Advanced Reinforcement Learning

Применение RL в реальных задачах

Проектная работа

Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит

Проектная работа

Преподаватели

Прошедшие мероприятия

Корпоративное обучение для ваших сотрудников

Отзывы

Подтверждение знаний и навыков

После обучения вы:

Reinforcement Learning

Частые вопросы

Почему стоит выбрать именно этот курс среди других?

Обязательно ли выполнять и защищать выпускной проект?

Обязательно ли выполнять все домашние задания?

Смогу ли я совмещать учебу с работой?

Что, если в середине курса я не смогу продолжать обучение?

Может ли мой работодатель оплатить курс?

Почему стоит выбрать учебу в Otus?

Остались вопросы?

Прошедшие
мероприятия