Решаем проблему кластеризации методом k-средних

Метод k-средних представляет собой алгоритм неконтролируемой классификации обучения, который часто используется при решении проблемы кластеризации. В данном случае k обозначает число кластеров, введенных пользователем. Этот популярный алгоритм начинается со случайного выбора точек, после чего он оптимизирует кластеры посредством функций (евклидово расстояние и пр.), что позволяет в итоге найти самую лучшую группировку точек данных. В результате специалистам по Big Data требуется выбрать правильное значение k. Если хотите получить более подробную информацию и изучить картину целиком, посмотрите видео по следующей ссылке: https://www.youtube.com/watch?v=_aWzGGNrcic.

Итак, общую информацию о кластеризации k-средних мы рассказали, теперь пришло время реализовать этот алгоритм на языке программирования Python.

Начало

Реализация

Визуализация

На этом все, следите за обновлениями блога!

По материалам «The Hitchhiker’s Guide to Machine Learning in Python»: https://medium.freecodecamp.org/the-hitchhikers-guide-to-machine-learning-algorithms-in-python-bfad66adb378.