Блог BigData → Полезные материалы по BigData | OTUS
⚡ Подписка на курсы OTUS!
Интенсивная прокачка навыков для IT-специалистов!
Подробнее

Курсы

Программирование
C++ Developer. Professional JavaScript Developer. Professional Android Developer. Professional Microservice Architecture React.js Developer JavaScript Developer. Basic PostgreSQL Программист С C++ Developer. Basic Team Lead PHP Developer. Professional Подготовка к сертификации Oracle Java Programmer (OCAJP) Алгоритмы и структуры данных Разработчик IoT C# Developer. Basic Unreal Engine Technical Game Design C# ASP.NET Core разработчик Python Developer. Basic Базы данных Node.js Developer iOS Developer. Professional Cloud Solution Architecture Kotlin Backend Developer Agile Project Manager Scala-разработчик Symfony Framework iOS Developer. Basic Супер-интенсив Azure Специализация Python Developer
Инфраструктура
Экспресс-курс по управлению миграциями (DBVC) Экспресс-курс «IaC Ansible» Microservice Architecture Разработчик программных роботов (RPA) на базе UiPath и PIX Внедрение и работа в DevSecOps NoSQL Специализация Administrator Linux
-24%
Разработчик IoT Мониторинг и логирование: Zabbix, Prometheus, ELK MongoDB
-37%
DevOps практики и инструменты MS SQL Server Developer SRE практики и инструменты Administrator Linux. Advanced Infrastructure as a code Супер-интенсив "Tarantool" Специализация Network engineer
Корпоративные курсы
Экспресс-курс по управлению миграциями (DBVC) Экспресс-курс «IaC Ansible» Разработчик программных роботов (RPA) на базе UiPath и PIX Внедрение и работа в DevSecOps NoSQL Spark Developer Экспресс-курс «CI/CD или Непрерывная поставка с Docker и Kubernetes» Game QA Engineer DevOps практики и инструменты Enterprise Architect Node.js Developer Cloud Solution Architecture Agile Project Manager Супер-практикум по работе с протоколом BGP Infrastructure as a code Промышленный ML на больших данных Супер-интенсив Azure Руководитель поддержки пользователей в IT
Специализации Курсы в разработке Подготовительные курсы Подписка
+7 499 938-92-02
Как DWH-решения помогают бизнес-аналитике?

Благодаря DWH, бизнес-аналитики могут перевести управление компанией из искусства в науку. И это неудивительно, ведь наличие под рукой результатов измерений по сотням показателей дает возможность выдвигать различные гипотезы и ставить эксперименты. При этом правильность решений убедительно подтверждается объективными цифрами, которые получают бизнес-аналитики из DWH.

Кто такой Data Analyst?

Неверно принятые решения в процессе разработки нового продукта, функции либо сервиса могут стать причиной потери денег и даже репутации. Чтобы этого избежать, бизнес обращается к аналитику данных. Data Analyst выполняет сбор, обработку, изучение и интерпретацию данных, что в совокупности позволяет понять, как клиенты отреагируют на новшества. Профит очевиден — риски бизнеса снижаются, пользователи становятся счастливее, а компания получает больше прибыли.

Форматы файлов в Big Data: ORC

Optimized Row Columnar (ORC) — это оптимизированный строково-столбчатый файловый формат, предлагающий эффективный способ хранения данных. Целью его разработки было преодоление ограничения других форматов. ORC хранит данные в максимально компактном виде, пропуская ненужные детали. При этом формат не требует построения сложных и больших индексов, обслуживаемых вручную.

Обработка данных в пакетном режиме

При пакетной обработке данных массив информации, которая сходна по смыслу либо формату, помещают в контейнер, а потом выполняют над информацией какое-нибудь действие. К примеру, вносят изменения либо отбирают интересующие файлы по заданным характеристикам. При этом выбранное действие всегда применяется сразу ко всем записям, файлам или байтам, находящимся в пакете.

Форматы файлов в больших данных: Avro

Для сериализации больших данных сегодня широко используют Avro — формат хранения данных в Hadoop, основанный на строках. Он позволяет хранить схему в JSON, что облегчает как ее чтение, так и ее интерпретацию любой программой. При этом сами данные размещаются в двоичном формате, что обеспечивает компактность и эффективность.

Шаблоны и компоновка кластеров в Hadoop MCS

Для удобства развертывания и использования сервиса Hadoop MCS (Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:

Аналитическая информационная система. OLAP

Чтобы данные приносили пользу, их анализируют и применяют в работе: выстраивают прогнозы, формируют отчеты, учитывают при принятии решений. На практике аналитическая обработка данных предполагает использование аналитических информационных систем — речь идет о комплексах ПО, собирающих и обрабатывающих данные. Как же устроены такие системы, и что они могут?

Озера данных vs обычные БД

Data lake — огромное хранилище, где данные хранятся в неупорядоченном и необработанном виде. Данные в Data lake можно сравнить с рыбой в озере, которая приплыла из реки. Вы не можете точно сказать, какая рыба в озере есть и где конкретно она находится. А чтобы ее приготовить (обработать данные), эту рыбу еще нужно поймать.

Vanilla Hadoop и Apache Bigtop

Как известно, бинарные версии Hadoop-компонентов доступны на веб-сайте каждого из проектов экосистемы. При этом вы можете загрузить их и начать инсталляцию, правда, у вас будет отсутствовать уверенность в том, что загруженные версии компонентов совместимы друг с другом. И вот здесь может помочь Apache Bigtop.