Информационные технологии стремительно развиваются. Вместе с тем совершенствуются методы обработки электронных материалов. Это помогает аналитикам и IT-специалистам быстрее и лучше применять получаемые сведения на практике для тех или иных целей.
Некоторые понятия, которые еще вчера были неизвестны, сегодня – обыденное дело. Пример – data mining. На соответствующей технологии будет заострено внимание в данной статье. Все это из-за того, что выбранное направление в условиях современности является весьма перспективным и продвинутым. Но освоить его не так-то просто.
Типы информации
Перед тем, как изучать методы, согласно которым ведется обработка данных, важно разобраться в особенностях самой информации. Она бывает нескольких видов:
- численной;
- интервальной;
- ранговой;
- номинальной.
К первой категории относят числа (стоимость), ко второй – доли (рынка компании в качестве примера). В качестве ранговых материалов используют получаемые данные о продукции и потребителях. Пример – лояльность публики. Номинальными сведениями могут выступать профессии и навыки человека.
Все перечисленные материалы могут быть структурированы, собраны воедино, а затем проанализированы посредством специальных формальных методов.
Анализ – это
Слово «анализ» произошло от древнегреческого сочетания ana + luo. В переводе на русский – «освобождать» или «распутать». Это – скрытый смысл рассматриваемого термина, независимо от выбранного метода реализации.
Анализ – изучение предоставленных сведений с последующим преобразованием в выводы. На основе оных в будущем принимаются те или иные решения, а также строятся планы и алгоритмы действий.
Реализацией поставленной задачи занимаются специально обученные люди. Их называют аналитиками. Соответствующие лица хорошо разбираются в видах анализа данных, а также в построении выводов на основе полученных материалов.
Виды анализа
Ученые давно научились классифицировать виды анализирования информации. Джеффри Лик смог выделить 6 типов реализации поставленной задачи:
- описательный;
- разведочный;
- индуктивный;
- прогностический;
- казуальный;
- механический.
Последний имеет большее отношение к IT, но и другие варианты достойны внимания. В предложенной классификации методы изучения данных представлены от самого простого к наиболее сложному.
Описательный метод
Является наиболее простым. Называется также «дескриптивным». Отвечает за количественное описание набора предоставляемых материалов. Относится к выборке данных, относительно которых проводится анализ. Совокупность, из которой взяты сведения, вследствие реализации не подлежат описанию. Помогает формировать информацию, представленную в дашбордах.
Яркий пример – размещение новых заказов на веб-портале с самого начала отчетного периода. Сюда же можно отнести то, сколько новых пользователей посетили сервис в Сети за прошедшую неделю.
Разведочный
Описательный метод – это только начало, хоть и очень важное. «Голых» цифр недостаточно для того, чтобы сделать не или иные выводы. Числа, полученные аналитиком, могут распределяться совершенно по-разному. Чтобы найти оптимальное решение, на помощь приходит разведочный метод.
При нем соблюдаются следующие правила и принципы:
- графики – приблизительные, а числовые данные – точные;
- статистические материалы предусматривают один набор вычислений;
- сложные расчеты – наиболее верное решение для получения результатов.
Методы анализа, опирающиеся на «голое» изучение данных, способны ввести в заблуждение. Разведочный метод дает возможность подтверждения или опровержения ранее сделанных выводов и полученных сведений.
Индуктивный метод
Предыдущие два варианта – это то, что выступает под широкой зонтичной структурой. Они описывают характеристики предполагаемых наборов данных. Но без статистических исследований добиться желаемых результатов проблематично.
Индуктивный метод анализа в своей основе содержит логическое извлечение материалов. Позволяет проводить тестирование гипотез.
Статистические выводы позволяют отвечать на следующие вопросы:
- стандартная ошибка;
- доверительный интервал;
- статистическая погрешность;
- математическое ожидание по предоставленной выборке;
- разница средних значений по двум выборкам;
- определение размера выборки и анализ мощности статистического характера%
- распределение данных;
- регрессия;
- определение критериев соответствия и ассоциированности.
Вследствие применения данного алгоритма человек получает уникальную возможность – строить гипотезы и проверять их, снижая ложноположительные результаты по максимуму.
Прогностический метод
Опирается на индуктивный анализ. Цель – изучение взаимосвязей между переменными на основе имеющихся наборов сведений, а также разработать статистическую модель. При помощи последней человек должен получить возможность прогнозировать значения для новых, неполных или будущих точек данных.
Часто используется в следующих областях:
- утилиты для знакомств;
- приложения для игр на биржах и фондовых рынках;
- спам-фильтры;
- выдача рекомендаций по контенту;
- социальные сети;
- кросс-продажи;
- объявления рекламного характера/купоны;
- прогнозы пользовательской активности;
- политические кампании.
Прогностический анализ служит мощным инструментом в арсенале каждой корпорации. За счет него управление данными производится в несколько раз проще и быстрее.
Причинно-следственное изучение
Позволяет обнаруживать причинно-следственные связи, на основании которых аналитики в будущем строят собственные гипотезы. Иногда данный прием предусматривает внедрение НЛП-технологий в целях повышения эффективности работы бизнеса.
Основная идея: провести эксперимент (или их серию) с корректировкой параметров и контролем предельного количества остальных составляющих. Пример – эксперимент с электронной почтовой рассылкой клиентам по разным продуктам.
Методы анализирования и обработки информации
На сегодняшний день в мире существуют различные методы обработки данных. Все они предусматривают свои нюансы и особенности.
К соответствующим алгоритмам относят:
- анализ кластерного типа;
- факторный анализ;
- нейронные сети;
- древа решений;
- регрессионный анализ;
- дискриминантное изучение;
- корреляционный анализ.
Отдельно современность выделяет интеллектуальный анализ. Сюда относят так называемый майнинг. Он выходит на передовые позиции у всех аналитиков, позволяя получать полезные данные и эффективно проводить разработку стратегий поведения на рынках.
Майнинг – это
Data Mining с иностранного языка дословно переводится как «раскопка/добыча данных». Это – интеллектуальный метод изучения информации. Появился термин в 90-х годах, когда началось стремительное развитие информационных технологий и IT. Объем материалов электронного характера активно растет, его требуется не только хранить, но и использовать с пользой.
Стоит запомнить следующие определения:
- это – способ обнаружения в базах данных нетривиальных и полезных на практике закономерностей;
- процесс выделения, моделирования, а также исследования биг даты в целях обнаружения неизвестных ранее структур;
- целью майнинга служит обнаружение новых значимых корреляций, образов, тенденций вследствие просеивания Big Data посредством статистических и математических методов;
- майнингом называют изучение и обнаружение алгоритмами («машинами», искусственным интеллектом) в сырых данных скрытых ранее знаний нетривиального характера, являющихся полезными практически, доступными для понимания человеком.
Mining – своеобразный процесс, помогающий обнаруживать «в общей массе» информации полезные знания о бизнесе и предпринимательской деятельности.
Свойства
Данные, которые обнаруживаются при помощи такого метода, как майнинг, обладают определенными свойствами. А именно:
- Неизвестность. Информация должна быть ранее неизвестной, новой. Усилия и ресурсы, потраченные да получение оных, никак не окупаются. Соответственно, ценность имеют только новшества.
- Нетривиальность. Результаты проводимого анализа отражают то, что неочевидно, неожиданно, хоть и закономерно. Майнинг должен предоставлять ранее скрытые знания. Если полученные результаты могли быть получены более простыми методами, mining является неоправданным. Он требует существенных затрат от предприятия.
- Полезность.
- Доступность для человеческого понимания. Знания, которые получает аналитик, должны быть обязательно объяснимы логически. Иначе можно предположить, что соответствующие результаты – чистая случайность.
Для того, чтобы представить публике полученную информацию, используются разнообразные модели. Их разновидности напрямую зависят от методов создания. Самые распространенные — это: правила, деревья решений, математические функции, а также всевозможные кластеры.
Задачи майнинга
В основе рассматриваемого приема лежит шаблонная концепция, которая представлена теми или иными закономерностями. Когда обнаруживаются скрытые данные, происходит решение DataMining.
Пока нет единого мнения относительно того, какие именно задачи относятся к майнингу. В основной массе источников указаны следующие варианты:
- кластеризация;
- анализ связей;
- ассоциация;
- визуализация отклонений;
- прогнозирование;
- подведение конкретных итогов.
Это – наиболее распространенные цели, которым отвечает метод работы с информацией, обозначенный как mining. Далее каждый вариант будет рассмотрен более детально.
Классификация
Одна из самых важных задач майнинга. Применяется при:
- оценке кредитоспособности населения;
- получения информации о лояльности клиентуры;
- распознавании образов;
- медицинской диагностике.
Когда аналитик знает свойства объектов каждого класса, новые наблюдения относятся к определенному «типу», данные свойства автоматически на него распространяются.
Если классов два, имеет место так называемая бинарная классификация. К ней сводятся более сложные задачи. Пример – вместо степеней риска кредитного характера вывести информацию о возможности выдачи займа – «да» или «нет».
При классификации используются разнообразные модели:
- нейронные сети;
- машинные опорные векторы;
- древа решений;
- метод k-ближайших соседей;
- алгоритм покрытия.
Вследствие рассматриваемой задачи пространство признаков разбивается на области. В каждом «блоке» многомерные векторы рассматриваются под видом идентичных. Так, если объект отнесли к области пространства, ассоциированную с конкретным классом, он будет относиться к оному.
Кластеризация
Это – логическое продолжение идеи классификации. Более сложный процесс, так как изначально class информации не предопределен. Результат – это разбиение полученных материалов на различные группы.
Ассоциация
Поиск закономерностей между связанными событиями в наборе данных. Отличается тем, что реализация поставленной задачи осуществляется между несколькими событиями. Они должны произойти одновременно.
Самый известный алгоритм ассоциаций – Apriori.
Последовательная ассоциация
Обнаружение временных закономерностей между несколькими транзакциями. Вариант похож на ассоциации, но с другой целью. А именно – установить закономерности между событиями, которые связаны не случайно, а во времени.
Правило последовательности: после события А через определенный промежуток времени обязательно произойдет событие Б.
Регрессия и прогнозирование
При прогнозировании оцениваются пропущенные или будущие значения целевых численных данных. Чтобы реализовать соответствующие задачи, используют:
- математическую статистику;
- нейронные сети.
При воплощении задумки в жизнь учитываются нюансы исторических материалов.
Дополнительные задачи
Data Mining имеет несколько дополнительных задач. К ним относят:
- определение отклонений и выбросов;
- оценивание;
- анализ связей;
- визуализация;
- подытоживание;
- свободный поиск (автоматическое исследование и открытие);
- объяснение и описание.
Сейчас майнинг встречается повсеместно. Его используют в самых разных направлениях человеческой деятельности.
Сферы применения
Чаще всего DataMining встречается при решении различных бизнес-задач. Именно в этой области эффективности задействования инструментария достигает максимума. А еще удается быстро окупить стоимость понесенных расходов на воплощение метода в жизнь.
В основном майнинг применяется в:
- науке;
- бизнесе;
- правительственных исследованиях;
- веб-направлениях.
Это – четыре основные области, в которых без рассматриваемой методики стало крайне трудно добиться эффективности и принимать грамотные решения.
Бизнес-задачи
Основном «работает» в направлениях:
- банковская деятельность;
- финансы;
- услуги по страхованию;
- телекоммуникации;
- электронная коммерция;
- маркетинг;
- фондовые рынки;
- производство;
- CRM.
При помощи майнинга удается не только распознать мошенников по кредитным картам, но и привлечь новых клиентов, а также провести сегментацию рынков.
Электронная коммерция и производство
Используется Data Mining для того, чтобы сформировать рекомендательные системы и решения задач классификации посетителей веб-страничек. За счет этого удается делить «клиентов» на группы, а затем осуществлять маркетинг, который будет предельно отвечать потребностям, интересам и нуждам клиентуры.
В промышленном производстве соответствующее направление отвечает за решение следующих задач:
- анализ производственных ситуаций;
- составление прогнозов по развитию производства (краткосрочного и долгосрочного характера);
- разработка оптимизационных решений;
- составление прогнозов относительно качества изделий в зависимости от тех или иных параметров технологических процессов;
- выявление скрытых перспектив и закономерностей развития производства;
- получение данных о скрытых факторах влияния;
- выявление сред взаимодействия производственных процессов и выдвижение гипотез по корректировке их параметров;
- выработка оптимизационных рекомендации по отношению управления производством;
- визуализация проведенных анализов;
- составление отчетов и проектов по допустимым решениям.
За счет всего этого удается минимизировать затраты на создание продукции, которая максимально точно будет удовлетворять все запросы и потребности клиентов.
Продолжение статьи читайте здесь.
Хотите стать профессионалом в сфере обработки данных? Добро пожаловать на курсы в Otus: