Big Data от А до Я OTUS

Содержание

Большие данные (или Big Data) – это то, что обсуждается в мире достаточно активно. Соответствующий термин появился относительно недавно, он широко используется в мире IT. Сегодня предстоит познакомиться с Биг Дата поближе.

Предстоит выяснить, что это вообще такое и какие особенности имеет соответствующий «объект». Также необходимо разобраться в областях его применения, примерах и составе. Предложенная информация пригодится как IT-специалисту, так и обычному пользователю.

Определение

Большие данные – это наборы разнообразной информации огромного объема. Они представляют собой комбинации структурированных, неструктурированных и полуструктурированных данных, собранных компаниями. Такая информация может быть извлечена и использована в программах машинного обучения, а также иных передовых аналитических приложениях.

Работа с большими данными осуществляется мощными компьютерами – обычные ПК не справятся с ними. Информация в Big Data хранится в совершенно разных форматах и быстро накапливается.

Считать большие данные обычной информационной базой не совсем правильно. Это касается даже самых крупных баз данных (БД). Вот таблица, которая популярно объяснит разницу между Big Data и обычными БД:

Обычные данные	Big Data
База записей о работниках той или иной компании. Данные в таком хранилище обладают заранее известными свойствами и параметрами. Они могут быть представлены в виде таблиц.	Журнал действий, выполненных сотрудниками. Примером могут послужить все данные, которые создаются в процессе работы компании.
Информация об именах, семейном положении и возрасте всех пользователей той или иной социальной сети. Все эти сведения – огромная база данных и не более того.	Переходы по ссылкам, отправленные и полученные сообщения, репосты и лайки в социальных сетях. Сюда же можно отнести движения мышки и касания экранов смартфонов (тапы) пользователей.
Записи с городских камер видеонаблюдения, сформированные в единый архив.	Информация систем видеофиксации нарушений правил дорожного движения со сведениями о дорожной ситуации и номерах автомобилей нарушителей. Сюда также относятся данные о пассажирах метро, полученные при помощи систем распознавания лиц , а также о том, кто из соответствующих личностей находится в розыске.

Информационный объем в мире увеличивается ежесекундно. То, что десятилетия назад можно было считать большими данными, теперь помещается на обычном диске или флеш-памяти.

Еще 60 лет назад жесткий диск на 5 Мб был в несколько раз больше обычного холодильника, а весил порядка тонны. Современное такое устройство помещается в любом компьютере или ноутбуке. Оно может включать в себя более полутора десятков терабайт (1 ТБ = 1 миллион Мб). Его размеры обычно составляют меньше печатной книги.

С 2021 года большие данные начали измеряться в петабайтах. 1 Пт = 1 миллион Гб. Весь Youtube на текущий момент весит 5 Тб, а трехчасовой фильтр в формате 4К в среднем составляет 60-90 Гб. 1 миллион Пт = 1 Зт (зеттабайт).

Ключевые характеристики

Большие данные могут быть охарактеризованы несколькими V:

большой объем информации во многих средах (volume);
разнообразие типов данных, часто хранящихся в системах Big Data (variety);
скорость генерации большей части данных, их сбора и обработки (velocity).

Соответствующие параметры появились в 2001 году. Их определил Дуг Лейни. Недавно к характеристикам Big Data начали добавлять достоверность (veracity), ценность (value) и изменчивость (variability).

Источники сбора данных: классификация

Можно разделить все источники сбора больших данных для дальнейшей работы на три типа:

социальные;
транзакционные;
машинные.

Социальные Big Data – это все, что пользователь делает в Сети. Сюда можно отнести отправку фото и писем, создание виртуальных анкет и многое другое. Ежесекундно каждый человек совершает вклад в большие данные в среднем на 1,7 Мб.

Также к социальным источникам Big Data можно отнести:

регистрацию смертей и рождений;
медицинские записи;
информацию о перемещении людей;
статистические данные городов и стран.

Если данные огромных объемов генерируются машинами, датчиками и «Интернетом вещей», они будут являться машинными. Сведения передаются людям от умных колонок, лампочек, систем «Умный дом», камер на улицах, метеоспутников, смартфонов, планшетов.

Транзакционные данные получаются в процессе совершения покупок, денежных переводов, товарных поставок, а также операциях с банкоматами.

Примеры

Для работы с большими данными сначала необходимо рассмотреть несколько их наглядных примеров. Сюда можно отнести:

клиентские базы компаний;
медицинские журналы;
различные документы;
почтовые письма (e-mail);
журналы кликов в Интернете;
социальные сети;
мобильные и компьютерные приложения.

Ими могут выступать как сведения, сгенерированные машинами, так и файлы журналов сети и сервера, показания с датчиков на производственном и промышленном оборудовании.

Часто среды BigData включают в себя внешние показатели о финансовых рынках, потребителях, погодных и дорожных условиях, научных исследованиях и так далее. Изображения, аудиозаписи и видео – это тоже некие формы больших данных. Некоторые приложения включают в себя потоковую информацию, которая обрабатывается и собирается на постоянной основе.

Принципы обработки

Операции с большими данными в простом Excel не ведутся. Это связано с нехваткой мощностей у обычных компьютеров. Для работы с BigData используется специальное программное обеспечение – горизонтально масштабируемое. Такие программы распределяют задачи между несколькими компьютерами, одновременно обрабатывающими данные. Чем больше машин задействовано в работе, тем лучше окажется итоговая производительность процесса.

Программное обеспечение для обработки BigData базируется на модели параллельных вычислений – MapReduce. Она функционирует так:

Имеющаяся информация фильтруется по условиям, заданным исследователем. Она сортируется и распределяется между отдельными компьютерами (узлами).
Узлы параллельно считывают свои информационные блоки.
Результат вычислений передается на последующую итерацию.

MapReduce – это не конкретное приложение, а алгоритм, с помощью которого получается решить большую часть задач при работе с большими данными.

Приложения на MapReduce

Вот несколько примеров программного обеспечения, базирующегося на модели MapReduce:

Hadoop. Представляет собой набор программ с открытым исходным кодом. Используется для хранения документов, планирования и организации совместной работы с различной информацией. Hadoop разработана так, чтобы при системных сбоях в одном из узлов нагрузка сразу перераспределялась на другие. Вычисления в этом случае не прерываются.
Apache Spark – набор библиотек для вычислений в оперативной памяти и многократного возвращения к ним. Соответствующее программное обеспечение применяется для решения огромного количества задач: от простой обработки и фильтрации информации до машинного обучения.

Специалисты по Big Data пользуются обоими инструментами: Hadoop применяется в процессе создания информационной инфраструктуры, а Spark – для непосредственной обработки потоковых данных в режиме реального времени.

Области применения

Большие данные применимы повсеместно. Чаще всего они имеют ценность для маркетинга, перевозок, авиастроения и здравоохранения, науки, сельского хозяйства и бизнеса. В остальных сферах деятельности, где возможны сбор и обработка тех или иных информационных массивов, соответствующая технология тоже применяется.

Бизнесу большие данные пригодятся для:

Оптимизации различных процессов. Сюда можно отнести крупные банки, использующие Big Data для обучения чат-ботов. Так называется программа, заменяющая живого сотрудника по простым клиентским вопросам. Наглядным примером может послужить чат-бот в Сбербанк Онлайн. При его запуске предстоит общаться не с живым оператором, а с виртуальной машиной. На сотрудника компании можно переключиться в случае необходимости или личного пользовательского желания.
Прогнозирования. За счет анализа больших данных о продажах, организации смогут предсказать клиентское поведение и покупательский спорт на товары в зависимости от времени года и ситуации, сложившейся в мире.
Построения моделей. При помощи анализа данных о прибыли и издержках организации могут формировать модели прогнозирования выручки и иных сведений.

Анализ больших данных позволяет бизнесу систематизировать имеющуюся информацию, а также выявлять неочевидные причинно-следственные связи.

Кто работает с Big Data

При работе с Big Data можно выделить несколько ключевых специалистов (и профессий):

Дата-сайентисты. Это люди, специализирующиеся на анализе больших данных. Они будут искать различные закономерности, строить модели и на их основе прогнозировать будущие события. Таким специалистам необходимо хорошо разбираться в основе математического анализа, знать языки программирования (R или Python), а также обучиться работе с SQL-базами.
Аналитики данных. Пользуются теми же инструментами, что и дата-сайентисты, но для совершенно других целей. В задачи информационного аналитика входит формирование описательного анализа, интерпретация и представление сведений в удобной для восприятия людьми форме. Специалисты соответствующего направления обрабатывают информацию, а затем выдают те или иные результаты путем формирования аналитических отчетов, статистики и прогнозов.
Дата-инженеры. Это специалисты по большим данным, которые занимаются технической стороной вопроса. Они первые работают с информацией: организовывают ее сбор, хранение, а также первоначальную обработку. Дата-инженеры будут помогать исследователям путем создания алгоритмов и программ для автоматизации задач. Без них невозможно обработать большие информационные объемы. Для осваивания соответствующей профессии предстоит выучить Python и SQL, а также научиться работать со специализированными фреймворками, в число которых входит Spark.

Специалисты других областей деятельности тоже могут использовать большие данные для своих целей. Сюда относят дизайнеров интерфейсов, NLP-инженеров, а также маркетологов-аналитиков, программистов и инженеров.

Проблемы, возникающие при работе с Big Data

Рассматриваемые технологии призваны для улучшения качества информации и упрощения аналитических алгоритмов. Несмотря на это, анализ больших данных не является идеальным. При его проведении могут возникать различные проблемы, решить которые пока невозможно:

несовершенство организуемой аналитики;
поспешное технологическое развитие;
дефицит экспертов;
техно-неопределенность;
негативное социальное воздействие.

Существуют некоторые советы, которые помогут лучше организовать работу с Big Data.

Советы для эффективной работы

Создание эффективной стратегии больших данных требует, чтобы специалисты понимали бизнес-цели и информацию, доступную для использования. Специалисты, работающие с Big Data, должны также грамотно оценивать необходимость в дополнительной информации для достижения поставленных целей.

Чтобы стратегия обработки больших данных демонстрировала максимальную эффективность, необходимо:

определить приоритеты запланированных вариантов использования имеющихся приложений;
определить новые системы и инструменты для работы;
создать дорожную карту развертывания;
оценить внутренние навыки для понимания необходимости и целесообразности переподготовки специалистов или найма новых людей в коллектив.

Чтобы большие данные оказались чистыми, согласованными и используемыми должным образом, необходимо, чтобы программы и процессы управления информационным качеством оказались приоритетными. Иные методы управления и анализа Big Data требуют сосредоточиться на бизнес-потребностях в данных с использованием различных доступных технологий, а также визуализации для более простого поиска и анализа.

Перспективы

Что такое большие данные, понятно. Перспективы Big Data во всем мире благоприятны – эта «технология» активно используется для самых разных целей. Большие данные помогают при решении некоторых глобальных проблем: борьба с пандемиями, обнаружение лекарств от рака, а также предотвращение экологического кризиса.

Это идеальное решение для формирования умных городов и разрешения транспортных вопросов. Большие данные помогают экономить ресурсы даже на государственном уровне.

Скоро Big Data станут ключевым инструментов для принятия самых разных решений – от сетевого бизнеса до государственных и международных организаций. Навыки оперирования большими данными – ключ к успешной карьере в 21 веке. Освоить одну из соответствующих профессий помогут дистанционные компьютерные курсы, рассчитанные на срок от нескольких месяцев до года. В процессе обучения пользователей научат работать с большими данными и другими выбранными технологиями, помогут сформировать первое портфолио, а также иногда – еще и подберут работодателей для построения карьеры. В конце каждого успешно завершенного курса человеку вручат электронный сертификат, подтверждающий приобретенные знания и навыки в выбранном направлении.

Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в Otus!

Также, возможно, вам будут интересны следующие курсы:

Определение

Ключевые характеристики

Источники сбора данных: классификация

Примеры

Принципы обработки

Приложения на MapReduce

Области применения

Кто работает с Big Data

Проблемы, возникающие при работе с Big Data

Советы для эффективной работы

Перспективы

Виды компьютерной графики и их особенности

Рефакторинг приложений

Читать ещё

Как работает искусственный интеллект и где его применяют

Информационная безопасность: подборка статей из блога Otus на Хабр

Мобильная разработка: подборка статей из блога Otus на Хабр