Продолжим разговор о майнинге и обработке данных. Первую часть статьи читайте здесь.
Маркетинг и торговля
Data Mining в маркетинге встречается повсеместно. Позволяет понять, что будет лучше продаваться, каким образом, а также какой целевой аудитории.
При торговле розничного характера применяются различные алгоритмы:
- поиск ассоциаций;
- временные последовательности;
- классификации;
- кластеризация.
Вследствие получается определить группы и категории клиентов, которые будут чаще приобретать продукцию или пользоваться предлагаемым спектром услуг. За счет майнинга получается выяснить, какой запас товара хранить на складе, каким образом лучше организовывать закупки и размещение оного.
Фондовые рынки
Рассматриваемый метод обработки информации в области фондовых рынков позволяет решать следующие задачи:
- прогноз будущих значений фининструментов;
- гипотезы относительно тренда и его силы;
- выделение кластерных структур рынков, секторов, а также отраслей по тем или иным характеристикам;
- управление портфелями в динамике;
- оценивание возможных рисков;
- выдвижение предположений относительно волатильности (дисперсии);
- расчет предполагаемого кризиса и его дальнейшего развития;
- помощь при выборе активов.
Также в бизнесе соответствующий алгоритм применяется, когда требуется изучить и проанализировать данные при условии накапливания некоторого объема ретроспективных данных.
В CRM
Наиболее перспективным направлением Data Mining является применение технологии при аналитическом CRM. Это – управление отношениями, формирующихся с клиентурой. Если задействовать сразу два метода, удастся не только получить необходимый спектр знаний, но и «добыть деньги» из соответствующих материалов.
Ключевые аспекты при работе подобным приемом:
- формирование целостного представления о клиентах;
- наличие данных об особенностях потребителей;
- характеристики и структура клиентской базы уже имеется в должном объеме.
CRM предусматривает профилирование посетителей. За счет этого получается сложить наиболее полное представление о клиентах.
Профилирование включает в себя:
- сегментацию;
- прибыльность каждого посетителя;
- методы удержания «публики»;
- анализирование реакций потребителей.
Все это весьма успешно реализовывается через майнинг. Анализ совокупности добытых знаний позволяет уточнить те данные, которые «просто так» выяснить не представляется возможным.
Государственное и научное применение
Трудно представить, но Data Mining активно внедряется в правительственные системы. За счет них осуществляется автоматизация некоторых важных процессов.
Направления, в которых задействован рассматриваемый алгоритм:
- разработка средств по борьбе с мошенниками и террористами;
- поиск неплательщиков налогов;
- обнаружение должников по иных государственным платежам.
И это – только начало. DataMining активно применяется не только в налогах, но и в других областях. Пример – Пенсионные Фонды. Там удается предположить, сколько и когда, а также каких именно пенсионеров получится в «отчетном периоде».
В веб-делах
Говоря о WebMining, можно перевести этот термин как «добыча информации в веб-пространстве». Искусственный интеллект готов к тому, чтобы стремительно внедряться и продвигаться в электронной коммерции и бизнесе в Сети. Возможности определения интересов и предпочтений каждого посетителя портала путем наблюдения за поведением на страничках – серьезное и критичное преимущество. Оно позволяет вести конкурентоспособную борьбу.
Веб-майнинг отвечает на многие вопросы. Примеры:
- кто из посетивших сайт – потенциальный клиент;
- какая группа потребителей способна принести наибольшую прибыль;
- определение спектра интересов конкретного пользователя или группы лиц.
В веб-задачах основными направлениями служат поисковые машины и всевозможные счетчики.
Методы майнинга
Data Mining предусматривает различные методы реализации. Условно их можно разделить на две крупные категории:
- статистические – основываются на усредненном накопленном опыте, который отражается в ретроспективных данных;
- кибернетические – те, что включают в себя множество математических подходов разного рода.
Данное разделение имеет как плюсы, так и минусы. К недостаткам относят то, что алгоритмы в качестве точки опоры используют сопоставление статистической «практики» с результатами мониторинга происходящей на соответствующий момент картины. Сильная сторона – удобное представление.
Статистические приемы
Алгоритмы Data Mining, относящиеся к статистической категории, включают несколько связанных между собой разделов. А именно:
- Предварительный анализ природы информации. Сюда включена проверка гипотез о стационарности, нормальности, независимости и однородности. Также предусматривается оценка функций распределения, ее параметров и свойств.
- Обнаружение связей и существующих закономерностей.
- Многомерный статистический анализ данных.
- Выстраивание динамических моделей с последующим прогнозом, опирающимся на временные ряды.
Статистические методы предусматривают:
- дескриптивный анализ с описанием исходных данных;
- анализирование связей;
- многомерный статистический анализ;
- анализ временных рядов.
Реализация не слишком сложная, если за дело берется грамотный аналитик. Без его помощи добиться желаемых результатов проблематично.
Кибернетические методы
Второй направление, в котором «работает» майнинг – множество подходов, которые объединены идеей компьютерной математики. Задействуют в ходе реализации искусственный интеллект и его теории.
Сюда можно отнести следующие методы изучения и анализа:
- искусственные нейронные сети;
- эволюционное программирование;
- ассоциативная память;
- генетические алгоритмы;
- нечеткая логика;
- древа решений;
- системы обработки экспертных знаний.
Далее некоторые (основополагающие) методы Data Mining будут рассмотрены более подробно. Это необходимо для лучшего понимания темы.
Кластерный анализ
Целью служит поиск существующих структур. Это – описательная процедура, которая не позволяет сделать статистические выводы. С ее помощью осуществляется разведочный анализ.
К характеристикам кластера относят:
- внутреннюю однородность;
- внешнюю изолированность.
Кластеризация в основном применяется в антропологии, биологии, психологии. Для экономических решений долгое время этот вариант редко задействовался из-за специфики получаемых материалов и явлений. Кластеры бывают непересекающимися (эксклюзивными) или пересекающимися.
Разнообразные методы способны стремиться к созданию кластеров определенных масштабов, либо предполагать в наборе данных наличие оных. Некоторые алгоритмы кластерного анализа чувствительны к выбросам и шумам. В итоге аналитик рискует получать разные данные вследствие проводимых «тестов». Это – особенность работы выбираемых алгоритмов.
Методы, основанные на разделении данных:
- дробление на k-кластеров;
- итеративное перераспределение для улучшения кластеризации;
- иерархические методики;
- агломерация – когда каждый объект представлен кластером.
На концентрации объектов работают методы, основанные на возможности соединения объектов. Они игнорируют шумы. Также есть грид-метод – квантование в грид-структуры.
Методы кластерного анализа – итеративный подход
Стоит обратить внимание на то, что при большом количестве наблюдений иерархические походы в Data Mining с применением кластеризации не пригодны для применения на практике. В этом случае в ход идут неиерархические приемы. Они основываются на разделении. Представлены итеративным дроблением первоначальной совокупности. Вследствие этого осуществляется формирование новых кластеров до тех пор, пока не будет выполнено правило остановки.
Подобные неиерархические приемы заключаются в разделении набора данных на конкретное количество «блоков». Здесь имеют место два подхода. Первый позволяет определить границы кластеров в качестве наиболее плотных участков в многомерном пространстве исходных материалов. Происходит определение кластера там, где большая «концентрация точек». Второй метод минимизирует меры различия задействованных объектов.
K-средние
Называется быстрым кластерным анализом. Строит k-кластеров, которые расположены максимально отдаленно друг от друга. Основным типом задач, которые решает соответствующий прием – наличие гипотез относительно числа кластеров, когда они обязательно предельно различаются друг от друга. Число k базируется на:
- результатах, полученных вследствие прошлых исследований;
- теоретических данных;
- интуиции.
Общая идея – заданное фиксированное число k-кластеров наблюдения сопоставляются кластерам так, чтобы средние в них предельно отличались друг от друга.
Проводится соответствующий процесс следующим образом:
- Выбирается число k. Это – центр кластеров.
- Каждый «блок» получает единственный «центр».
- Осуществляется выбор k-наблюдений для того, чтобы максимизировать первоначальное расстояние.
- Выбирается k-наблюдения. Это проводится случайно.
- Отбираются первые k-наблюдения.
В итоге каждый объект относят к определенному кластеру.
Преимущества и недостатки приема
Алгоритм k-средних имеет следующие сильные стороны:
- простое применение на практике;
- быстрая скорость обработки данных;
- понятность;
- прозрачность метода.
Недостаток всего один – это чувствительность к выбросам, которые способны искажать средние показатели. В целях устранения соответствующего недостатка используют модификацию. Она называется алгоритмом k-медианы.
Также прием при внедрении в крупные базы данных может работать не слишком быстро. Для устранения подобной особенности рекомендуется осуществлять предварительную выборку информации.
Сети байесовского типа
Это – графические структуры, которые используются для представления вероятностных отношений между огромным количеством переменных. Также позволяют осуществлять вероятностных вывод, опираясь на полученные «значения». Байесовской (или наивной) классификации присущ понятный и прозрачный метод классификации. Второе название данный вариант Data Mining получил из-за того, что он исходит из предположения о том, что признаки являются взаимно независимыми.
К свойствам этой классификации относят:
- задействование сразу всех переменных;
- определение взаимосвязей, которые могут быть между «составляющими»;
- наличие двух предположений относительно используемых объектов – все «элементы» одинаково важны, а также статистически независимы.
Байесовские сети используются по двум ключевым сценариям:
- Описательный анализ. Предметная область представлена графом, узлы в котором – это понятия, а направленные дуги со стрелками – непосредственные зависимости. Связи между элементами означают, что значение первого помогает формировать более понятное и обоснованное предположение о значении второго. Если связь отсутствует, значит имеет место условная независимость при наборе известных значений. Пример – размер обуви ребенка связан с возрастом малыша.
- Классификация и составление прогнозов. Это – довольно распространенная метода Data Mining. В байесовских сетях удается уменьшить количество параметров совместного распределения. За счет этого удается делать доверительную оценку, базирующуюся на объемах уже представленных данных. Так, из 10 переменных, каждая из которых может принимать одно из 10 значений, число параметров распределения будет находиться на уровне 10 миллиардов -1.
Как и в прошлом случае, байесовские сети имеют плюсы и минусы в методе Data Mining. К сильным сторонам относят:
- возможность определения в модели зависимостей между всеми переменными – как следствие, становится доступна легкая и простая обработка ситуации, в которой переменные неизвестны;
- простоту интерпретации;
- возможность на этапе моделирования строить теории по принципу «что, если…»;
- естественное совмещение закономерностей;
- исключение проблем переучивания.
Недостатки выделяют следующие:
- не всегда перемножение условных вероятностей является корректным;
- невозможность непосредственной обработки непрерывных переменных;
- влияние исключительно индивидуальных значений входных элементов на результаты классификации.
Подобный вариант на практике встречается достаточно часто. Но в современных технологиях и мире IT на передовые позиции потихоньку выходит иной вариант развития событий.
Нейронные искусственные сети
Нейронные сети в Data Mining бывают синхронными и асинхронными. К первой категории относят ситуации, при которых в каждый момент времени состояние меняет только один нейрон. Ко второй – когда состояние меняется непосредственно у всей группы нейронов (слоя).
Архитектуры нейронных сетей предусматривают два варианта:
- слоистые;
- полносвязные.
Слой – это один или несколько нейронов, на входы которых подается одинаковый сигнал. В слоистых сетях все «элементы» разбиты на группы так, чтобы информация могла обрабатываться послойно. Они бывают многослойными и однослойными.
Полносвязные сети в Data Mining предусматривают ситуации, при которых каждый нейрон передает собственный выходной сигнал остальным нейронам. И самому себе тоже. Выходными сигналами выступают все или некоторые выходные сигналы нейронов после нескольких тактов функционирования всей сети.
Как освоить майнинг
Пользователь, который решил заниматься майнингом, должен грамотно подготовиться к соответствующему процессу. На основании всего вышесказанного следует вывод о том, что данной направление не только перспективное, но и весьма сложное.
Чтобы освоить Data Mining, можно:
- Отправиться в ВУЗ для обучения IT-технологиям, работе с «большими данными» и нейронными сетями. В России соответствующие области пока не слишком популярны.
- Попытаться разобраться во всем самостоятельно. На первых порах этого достаточно для анализа информации.
- Пройти специализированные курсы. Это – наиболее быстрое и эффективное решение. В течение некоторого времени (от пары месяцев до года) удастся разобраться в выбранном направлении. По окончании курса выдается сертификат установленной формы.
При помощи информационных технологий и интернета сейчас обучиться основам майнинга можно не только очно, но и дистанционно.
Хотите стать профессионалом в сфере обработки данных? Добро пожаловать на курсы в Otus: