Блог Machine Learning | OTUS
Посты
Рекурсивное исключение признаков

Recursive Feature Elimination (RFE) — широко известная и популярная техника, предназначенная для выбора точного количества значимых признаков. Давайте уделим ей немного своего внимания.

Регуляризация в Machine Learning

Регуляризация используется в машинном обучении в целях контроля баланса между bias (предвзятостью) и variance (отклонением). Предвзятость нужна, чтобы показать, насколько модель переобучилась на тренировочном наборе данных, а отклонение — насколько предсказания между тренировочным датасетами и тестовым датасетами отличались. Давайте посмотрим, какие существуют техники регуляризации.

Восстанавливаем данные с помощью k-NN

В одной из предыдущих статей мы рассматривали процесс импутации данных с помощью глубокого обучения. Однако восстановить значения в неполном наборе данных можно и с помощью алгоритма k-Nearest Neighbour. Давайте посмотрим, как это работает.

Импутация данных с помощью Deep Learning

Иногда бывает, что реальные наборы данных неполны. Это случается по техническим причинам либо если датасет собирают из нескольких источников с различными наборами параметров. В такой ситуации в таблице находятся пустые ячейки или заглушки — NaN. Если заглушек слишком много,— тренировка на этих данных значительно ухудшит качество модели. Что же делать? Один из вариантов — импутация данных.

Решаем проблему кластеризации методом k-средних

Метод k-средних представляет собой алгоритм неконтролируемой классификации обучения, который часто используется при решении проблемы кластеризации. В данном случае k обозначает число кластеров, введенных пользователем.

Метод главных компонент в Machine learning

Principal Component Analysis (PCA) — это алгоритм сокращения размерности, который бывает весьма полезным для аналитиков. Основное тут то, что этот алгоритм способен существенно снизить размерность данных в процессе работы с сотнями и даже тысячами разных функций.

Реализация алгоритма «Случайный лес»

«Случайный лес» (Random forest) — это довольно популярный алгоритм контролируемого машинного обучения, который заключается в применении комитета (можно сказать, «Ансамбля») решающих деревьев. Давайте посмотрим, как выглядит его реализация на Python.

Машинное обучение: метод k-ближайших соседей

KNN или K-Nearest Neighbors — это контролируемый алгоритм обучения, используемый преимущественно при решении задач классификации. Этот алгоритм обеспечивает наблюдение за различными центрами (центроидами), сравнивая расстояние между ними, причем для этого используются разные функции (как правило, речь идет о евклидовом расстоянии).

Deep learning в системах CV

Глубокое обучение бывает особенно полезно в таких CV-задачах, когда базовый элемент не несет в себе большого смыслового значения, зато комбинация таких элементов это полезное значение имеет. При этом, говоря о базовом элементе, мы имеем в виду отдельный пиксель изображения, одну частоту сигнала, одну букву или слово.

Event2Mind для русского языка. Обучаем модель читать между строк

Умение модели распознавать намерения собеседника, то есть понимать зачем человек совершил то или иное действие, применимо в большом числе прикладных NLP-задач. К примеру, чат-ботам, голосовым помощникам и другим диалоговые системам это позволит эмоционально реагировать на высказывания собеседника, проявлять понимание, сочувствие и другие эмоции. Кроме того, задача распознавания намерения – это еще один шаг на пути к пониманию человеческой речи (human understanding).