Машинное обучение: последние статьи в блоге OTUS на Хабр

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Моим датасетом стало собрание картин Музея современного искусства (MoMA), Нью-Йорк. В нем представлено описание работ 20 956 авторов. Набор данных произведений искусства содержит 130 262 записи.

Мне очень хотелось поработать именно с этим датасетом. Этому способствовали три обстоятельства. Первое — на меня произвело неизгладимое впечатление то, что исследователи Музея MoMA изучают легитимность владения произведениями, созданными до 1946 года и/или приобретенными после 1932 года, которые могли находиться в Европе при нацизме, чтобы выявить любые незаконные приобретения в коллекции Музея.

Читать далее


Предсказание остановок оборудования с использованием LSTM и Байесовского подхода

Исследование выполнено в рамках выпускного проекта на курсе Machine Learning Advanced в OTUS. 

В проекте развиты и реализованы в коде идеи Давида Пагано (Davide Pagano) из статьи A predictive maintenance model using Long Short-Term Memory Neural Networks and Bayesian inference, опубликованные в Decision Analytics Journal в марте 2023. Из-за соглашения о неразглашении никакие подробности о компании, а также ее данные и какой-либо код для иллюстрации исследования автором в статье предоставлены не были.

Для предсказания внеплановых остановок оборудования используется комбинация нейронных сетей с долгосрочной краткосрочной памятью (LSTM) и Байесовский подход. LSTM и Байесовская модель обучаются на периодах, когда оборудование находилось в хорошем рабочем состоянии (эталонные периоды).

Читать далее


Алгоритмы быстрого возведения в степень

В настоящее время мы уже так привыкли пользоваться готовыми решениями, что при написании высокоуровневого кода, даже не задумываемся над тем, а как вообще реализованы те или иные инструменты. И уж конечно, при возведении чисел в степень, мы никогда не задумываемся о том, а как вообще все это реализовано. И какие существуют алгоритмы для этого?

Возведение числа в степень является одной из основных операций в математике. Что вообще такое возведение в степень? Как нам известно еще со школы — это многократное умножение числа на себя. Но проблема кроется в том, что при возведении больших чисел в очень большие степени вычисления могут занять много времени.

Читать далее


Обучение с подкреплением: 10 вариантов применения

В системе обучения с подкреплением (Reinforcement Learning) агенты обучаются с помощью механизма вознаграждений и наказаний (или регресса). Агент получает вознаграждение за правильные действия и наказание за неправильные. При этом агент старается минимизировать неправильные ходы и максимизировать правильные.

В этой статье мы с вами рассмотрим некоторые из реальных применений обучения с подкреплением.

Читать далее


Компромисс смещения и дисперсии в машинном обучении

В этой статье мы рассмотрим такое понятие в машинном обучении, как компромисс смещения и дисперсии (bias-variance Tradeoff). Так как понимание того, что можно изменить в процессе обучения нашего алгоритма обучения, приведет нас к созданию более точных моделей.

Читать далее


Применение архитектурных шаблонов в машинном обучении: разбор Gradient Boosting

Архитектурные шаблоны в машинном обучении представляют собой общие структуры и методологии, которые позволяют разработчикам более эффективно решать задачи. Они представляют собой набор bewährte Lösungen, то есть «проверенных решений», которые могут быть адаптированы к конкретным задачам и данным. Использование архитектурных шаблонов позволяет сэкономить время и ресурсы при разработке моделей машинного обучения.

Читать далее


Архитектуры RL: DDPG иPPO

В RL существует множество алгоритмов, каждый из которых имеет свои преимущества и недостатки.

DDPG (Deep Deterministic Policy Gradients) — это алгоритм, объединяющий в себе идеи из двух областей: DPG (Deterministic Policy Gradients) и DQN (Deep Q-Network). DDPG подходит для задач с непрерывным действием, и он стал основой к примеру для управления роботами и автономному вождению.

PPO (Proximal Policy Optimization) — это алгоритм, который сосредотачивается на обучении стратегии (policy) с учетом границ для обновлений. PPO стал популярным выбором благодаря своей стабильности и хорошей производительности в различных средах. Он также широко используется в научном обучение, ИИ героев в играх и в других областях.

Читать далее


Введение в архитектуру MLOps

MLOps, или Machine Learning Operations, это практика объединения машинного обучения и операционных процессов. Она направлена на упрощение и ускорение цикла разработки, тестирования, развертывания и мониторинга моделей машинного обучения. В MLOps применяются принципы DevOps, такие как автоматизация, непрерывная интеграция и доставка, для создания более эффективных и масштабируемых решений в области машинного обучения.

Объемы данных растут экспоненциально, способность быстро и эффективно обрабатывать эти данные становится ключевой для успеха. MLOps позволяет не просто создавать модели машинного обучения, но и быстро адаптироваться к изменениям, обновлять модели и поддерживать их работоспосоность на высоком уровне. Это важно, поскольку модель, которая работала хорошо вчера, может устареть сегодня из-за изменения данных или условий окружающей среды.

Читать далее


Что такое аналитический инжиниринг?

Будучи единственным аналитиком в быстрорастущем сиднейском стартапе, Клэр испытала на себе все тяготы традиционного рабочего процесса аналитика — застревание в «хомячьем колесе», постоянно растущий бэклог и цифры, которые никогда не сходились. Поэтому она освоила dbt, командную строку, контроль версий и привнесла в свою команду всю скрупулезность аналитического инжиниринга. Попутно она так полюбила dbt, что в итоге собрала вещи и переехала в США, чтобы возглавить активно развивающееся сообщество dbt.

Инженеры-аналитики предоставляют конечным пользователям чистые наборы данных, моделируя их таким образом, чтобы конечные пользователи могли сами отвечать на свои вопросы. Сегодня мы с вами поговорим о тенденциях рынка, которые привели к появлению этой новой роли в современных командах по работе с данными.

Читать далее


LIME и SHAP

Модели МО часто сравнивают с «черными ящиками» из-за их неспособности ясно объяснить свои решения. Проблема «черного ящика» возникает, когда внутренняя работа модели настолько сложна или неясна, что даже ее создатели не могут точно понять, как был получен тот или иной результат. Это создает серьезные проблемы, особенно в ситуациях, требующих строгой подотчетности и прозрачности.

Методы к LIME (Local Interpretable Model-agnostic Explanations) и SHAP (SHapley Additive exPlanations), позволяют получить понимание решений, принятых сложными моделями.

Читать далее

Машинное обучение: последние статьи в блоге OTUS на Хабр