20.02.20 в 18:18

Машинное обучение: алгоритмы, виды, задачи, функции

Machine Learning → Полезные материалы по Machine Learning

Теги: машинное обучение, machine learning, алгоритмы, algoritms

Эта статья представляет собой вводный материал по машинному обучению (Machine Learning). Вы узнаете про основные задачи, виды и функции обучения на моделях, ознакомитесь с некоторыми алгоритмами (algorithms) и особенностями моделирования (modelling). Статья сможет дать ответы и на многие другие вопросы.

Сегодня ML (Machine Learning) решает множество задач, упрощая многим жизнь. Достаточно заложить в ПК алгоритм (algorithm) нахождения решений, чтобы получить возможность комплексно использовать статистические данные и выводить различные закономерности, делать прогнозы.

Технология machines-обучения появилась в середине прошлого века, когда стали появляться первые программы игры в шашки. С годами суть мало изменилась. Но изменились вычислительные мощности наших компьютеров, в результате усложнились закономерности и прогнозы, увеличилось число задач и решаемых проблем.

Чтобы процесс обучения был запущен, нужно загрузить исходные данные, называемые датасетом. Если хотите, пусть это будут изображения животных с метками. Именно на них алгоритм станет обучаться обработке запросов. Когда обучение закончится, модель сможет самостоятельно распознавать нужные изображения, а метки больше не понадобятся. Но обучение на этом не прекратится совсем, а будет продолжаться и дальше по мере использования программы. Чем больше данных будет в итоге проанализировано, тем точнее будет распознавание.

Сегодня ML распознаёт и рисунки, и лица, и пейзажи, и числа, и буквы, и предметы. Та же функция машинного обучения по проверке грамматики есть почти в каждом текстовом редакторе. И учитывает эта функция как орфографию, так и другие моменты, включая лексические сочетания, жаргонизмы и прочие тонкости «великого и могучего». Есть и программы, которые сами генерируют новостные тексты — даже участие человека не требуется (копирайтеры, задумайтесь!)

Задачи машинного обучения

Решаемые задачи можно классифицировать на несколько категорий:

1) регрессия – речь идёт о прогнозе на основании выборки объектов с разными признаками;

2) классификация – тут мы получаем конкретный ответ на основании набора признаков («да» либо «нет»);

3) кластеризация – под этим термином понимается распределение данных на некоторые группы (пример — уровень платёжеспособности клиента);

4) уменьшение размерности – большое количество признаков сводится к меньшему, чтобы было удобнее в последующем их визуализировать;

5) выявление аномалий – аномалии отделяются от обычных (стандартных) случаев. Аномалия может совпадать с задачей классификации, но лишь на первоначальный взгляд. Реальный пример — мошенничество с банковскими картами.

Виды машинного обучения

Большинство методов машинного обучения относят к обучению с учителем (supervised learning) и без учителя (unsupervised learning). «Учитель» здесь – это не конкретный человек, а сам факт вмешательства в процесс обработки данных. Чем различаются эти методы? Тем, что в первом случае у нас существует ряд гипотез, и их нужно либо опровергнуть, либо подтвердить.

С учителем

В идеальном случае у нас есть исходные данные, т. е. правильные ответы для системы. Представьте, что нужно проанализировать тысячи квартир Санкт-Петербурга, зная все параметры: цену, район, этаж, площадь, наличие инфраструктуры. С помощью модели машинного обучения мы предскажем рыночную стоимость, т. е. решается регрессионная задача.

Или надо узнать, есть или нет рак у пациента, имея в наличии его медицинские показатели. Или понять, входящее эл. письмо — это спам или нет. Всё это задачи на классификацию.

Без учителя

Здесь готовых ответов нет, но менее интересно не становится, даже наоборот. Представьте, что мы знаем рост и вес большой группы людей, в соответствии с чем нужно пошить одежду трёх видов. Это кластеризация (строгого и единственно верного деления тут нет).

Или у нас каждый из объектов выборки имеет сотни разных признаков. Отобразить графически такую выборку будет очень сложно, поэтому мы уменьшим число признаков, скажем, до 3-х. Это уменьшение размерности.

Примеры машинного обучения в контексте решения реальных проблем

Пример 1. Диагностируем заболевания

Пациенты — это объекты, признаки — это симптомы, результаты анализов, анамнез, история болезни. Порядковый признак — оценка тяжести состояния, количественные признаки в данном случае являются объектами, а признаками – объём лекарства, уровень гемоглобина, параметры давления и пульса, вес и возраст.

Таким образом, собирается информация о состоянии человека и загружается в компьютер. В результате мы: • выполняем диагностику болезни; • выбираем оптимальное лечение; • прогнозируем развитие болезни, длительность, исход; • прогнозируем осложнения; • выявляем сопутствующие синдромы.

Что может дать машинное обучение здесь? Прежде всего, выигрыш в скорости, ведь даже опытный доктор не сможет мгновенно обработать всю информацию по каждому пациенту, обобщив вдобавок другие истории, а потом выдав результат.

Пример 2. Ищем полезные ископаемые

Признаки — данные геологоразведки. Для обучающей выборки берут два типа прецедентов: места, где 100 % есть месторождения, и места со схожими параметрами. Да, у месторождений тоже есть свои «синдромы».

Здесь машинное обучение может дать выигрыш в точности обнаружения ископаемых, поэтому можно говорить о большом научном интересе со стороны как геофизиков, так и геологов.

Пример 3. Оцениваем надёжность и платёжеспособность кредитополучателей

Что может дать ML здесь, долго думать не надо — экономится не только время, но и реальные деньги финансовых учреждений. Стоит вспомнить Сбербанк, который уже давно уволил много сотрудников, которые этим занимались. Да, машин становится больше, а автоматизация этого процесса — обычное явление.

В этом примере машинного обучения кандидаты на получение кредита — это объекты, а признаки формируются из анкеты клиента (признаки будут другими, если в банк обращается юрицо).

С помощью машинного обучения делается выборка, включающая в себя «хорошие» кредитные истории и «плохие». В итоге клиенты делятся на классы, и принимается решение о выдаче или отказе.

Среди усложнённых алгоритмов машинного обучения — тот же кредитный скоринг (каждый клиент получает баллы за некоторые признаки). Есть и алгоритм и на основе прецедентов.

ML-направление, machines и нейронные сети сегодня очень популярны, и эта популярность растёт, поэтому освоить это направление — значит гарантировать свою востребованность на рынке трудоустройства. Но дать актуальные знания по ML способны только эксперты. Если интересуют действительно профессиональные курсы, не тратьте времени на поиск, обращайтесь в OTUS!

Технический директор / CTO

Технический директор / CTO

Машинное обучение: алгоритмы, виды, задачи, функции

Задачи машинного обучения

Виды машинного обучения

С учителем

Без учителя

Популярные алгоритмы моделей машинного обучения

1. Дерево принятия решений

2. Наивная байесовская классификация

3. Метод наименьших квадратов

4. Логистическая регрессия

5. Метод опорных векторов (SVM)

6. Метод ансамблей

7. Алгоритмы кластеризации

8. PCA — метод главных компонент

9. Сингулярное разложение

10. ICA — анализ независимых компонент

Примеры машинного обучения в контексте решения реальных проблем

Пример 1. Диагностируем заболевания

Пример 2. Ищем полезные ископаемые

Пример 3. Оцениваем надёжность и платёжеспособность кредитополучателей