Блог Machine Learning | OTUS
Посты
Смартап — что это?

Смартап представляет собой мультимодальное приложение, с помощью которого пользователь получает красивый интерфейс и множество способов взаимодействия с этим интерфейсом: касанием, голосом, пультом, текстовым вводом и даже виртуальным геймпадом. Давайте посмотрим, где и как запускаются смартапы.

Прямой и обратный отбор в ML

Прямой отбор в машинном обучении представляет собой технику, которая заключается в использовании пошаговой регрессии. При этом построение модели в данном случае начинается с полного нуля, то есть речь идет о пустой модели, к которой каждая последующая итерация добавляет переменную, вносящую улучшение в создаваемую модель.

Рекурсивное исключение признаков

Recursive Feature Elimination (RFE) — широко известная и популярная техника, предназначенная для выбора точного количества значимых признаков. Давайте уделим ей немного своего внимания.

Регуляризация в Machine Learning

Регуляризация используется в машинном обучении в целях контроля баланса между bias (предвзятостью) и variance (отклонением). Предвзятость нужна, чтобы показать, насколько модель переобучилась на тренировочном наборе данных, а отклонение — насколько предсказания между тренировочным датасетами и тестовым датасетами отличались. Давайте посмотрим, какие существуют техники регуляризации.

Восстанавливаем данные с помощью k-NN

В одной из предыдущих статей мы рассматривали процесс импутации данных с помощью глубокого обучения. Однако восстановить значения в неполном наборе данных можно и с помощью алгоритма k-Nearest Neighbour. Давайте посмотрим, как это работает.

Импутация данных с помощью Deep Learning

Иногда бывает, что реальные наборы данных неполны. Это случается по техническим причинам либо если датасет собирают из нескольких источников с различными наборами параметров. В такой ситуации в таблице находятся пустые ячейки или заглушки — NaN. Если заглушек слишком много,— тренировка на этих данных значительно ухудшит качество модели. Что же делать? Один из вариантов — импутация данных.

Решаем проблему кластеризации методом k-средних

Метод k-средних представляет собой алгоритм неконтролируемой классификации обучения, который часто используется при решении проблемы кластеризации. В данном случае k обозначает число кластеров, введенных пользователем.

Метод главных компонент в Machine learning

Principal Component Analysis (PCA) — это алгоритм сокращения размерности, который бывает весьма полезным для аналитиков. Основное тут то, что этот алгоритм способен существенно снизить размерность данных в процессе работы с сотнями и даже тысячами разных функций.

Реализация алгоритма «Случайный лес»

«Случайный лес» (Random forest) — это довольно популярный алгоритм контролируемого машинного обучения, который заключается в применении комитета (можно сказать, «Ансамбля») решающих деревьев. Давайте посмотрим, как выглядит его реализация на Python.

Машинное обучение: метод k-ближайших соседей

KNN или K-Nearest Neighbors — это контролируемый алгоритм обучения, используемый преимущественно при решении задач классификации. Этот алгоритм обеспечивает наблюдение за различными центрами (центроидами), сравнивая расстояние между ними, причем для этого используются разные функции (как правило, речь идет о евклидовом расстоянии).

Популярное
Сегодня тут пусто