Recursive Feature Elimination (RFE) — широко известная и популярная техника, предназначенная для выбора точного количества значимых признаков. Давайте уделим ей немного своего внимания.
Recursive Feature Elimination (RFE) — широко известная и популярная техника, предназначенная для выбора точного количества значимых признаков. Давайте уделим ей немного своего внимания.
Регуляризация используется в машинном обучении в целях контроля баланса между bias (предвзятостью) и variance (отклонением). Предвзятость нужна, чтобы показать, насколько модель переобучилась на тренировочном наборе данных, а отклонение — насколько предсказания между тренировочным датасетами и тестовым датасетами отличались. Давайте посмотрим, какие существуют техники регуляризации.
В одной из предыдущих статей мы рассматривали процесс импутации данных с помощью глубокого обучения. Однако восстановить значения в неполном наборе данных можно и с помощью алгоритма k-Nearest Neighbour. Давайте посмотрим, как это работает.
Иногда бывает, что реальные наборы данных неполны. Это случается по техническим причинам либо если датасет собирают из нескольких источников с различными наборами параметров. В такой ситуации в таблице находятся пустые ячейки или заглушки — NaN. Если заглушек слишком много,— тренировка на этих данных значительно ухудшит качество модели. Что же делать? Один из вариантов — импутация данных.
Метод k-средних представляет собой алгоритм неконтролируемой классификации обучения, который часто используется при решении проблемы кластеризации. В данном случае k обозначает число кластеров, введенных пользователем.
Principal Component Analysis (PCA) — это алгоритм сокращения размерности, который бывает весьма полезным для аналитиков. Основное тут то, что этот алгоритм способен существенно снизить размерность данных в процессе работы с сотнями и даже тысячами разных функций.
«Случайный лес» (Random forest) — это довольно популярный алгоритм контролируемого машинного обучения, который заключается в применении комитета (можно сказать, «Ансамбля») решающих деревьев. Давайте посмотрим, как выглядит его реализация на Python.
KNN или K-Nearest Neighbors — это контролируемый алгоритм обучения, используемый преимущественно при решении задач классификации. Этот алгоритм обеспечивает наблюдение за различными центрами (центроидами), сравнивая расстояние между ними, причем для этого используются разные функции (как правило, речь идет о евклидовом расстоянии).
Глубокое обучение бывает особенно полезно в таких CV-задачах, когда базовый элемент не несет в себе большого смыслового значения, зато комбинация таких элементов это полезное значение имеет. При этом, говоря о базовом элементе, мы имеем в виду отдельный пиксель изображения, одну частоту сигнала, одну букву или слово.
Умение модели распознавать намерения собеседника, то есть понимать зачем человек совершил то или иное действие, применимо в большом числе прикладных NLP-задач. К примеру, чат-ботам, голосовым помощникам и другим диалоговые системам это позволит эмоционально реагировать на высказывания собеседника, проявлять понимание, сочувствие и другие эмоции. Кроме того, задача распознавания намерения – это еще один шаг на пути к пониманию человеческой речи (human understanding).