Блог BigData → Полезные материалы по BigData | OTUS
🚀 OTUS Fest 2021
Бесплатная образовательная онлайн-конференция для IT-специалистов.
Подробнее

Курсы

Программирование
Backend-разработчик на PHP
-9%
Алгоритмы и структуры данных
-9%
Team Lead
-6%
Архитектура и шаблоны проектирования Разработчик IoT
-13%
C# Developer. Professional
-9%
HTML/CSS
-11%
C# ASP.NET Core разработчик
-5%
Kotlin Backend Developer
-8%
iOS Developer. Professional
-8%
Java Developer. Basic C++ Developer. Professional Web-разработчик на Python MS SQL Server Developer Android Developer. Basic Разработчик программных роботов (RPA) на базе UiPath и PIX Microservice Architecture Unity Game Developer. Basic Разработчик голосовых ассистентов и чат-ботов React.js Developer Node.js Developer Интенсив «Оптимизация в Java» Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes JavaScript Developer. Basic Unity Game Developer. Professional Супер-интенсив Azure
Инфраструктура
Экспресс-курс «IaC Ansible»
-10%
Administrator Linux.Basic
-10%
Мониторинг и логирование: Zabbix, Prometheus, ELK
-10%
Экспресс-курс «CI/CD или Непрерывная поставка с Docker и Kubernetes»
-30%
Administrator Linux. Professional
-6%
Дизайн сетей ЦОД
-13%
NoSQL Основы Windows Server MS SQL Server Developer Инфраструктурная платформа на основе Kubernetes Cloud Solution Architecture Highload Architect Разработчик голосовых ассистентов и чат-ботов VOIP инженер Супер-практикум по работе с протоколом BGP Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes Супер-интенсив "Tarantool"
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02
Шаблоны и компоновка кластеров в Hadoop MCS

Для удобства развертывания и использования сервиса Hadoop MCS (Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:

Аналитическая информационная система. OLAP

Чтобы данные приносили пользу, их анализируют и применяют в работе: выстраивают прогнозы, формируют отчеты, учитывают при принятии решений. На практике аналитическая обработка данных предполагает использование аналитических информационных систем — речь идет о комплексах ПО, собирающих и обрабатывающих данные. Как же устроены такие системы, и что они могут?

Озера данных vs обычные БД

Data lake — огромное хранилище, где данные хранятся в неупорядоченном и необработанном виде. Данные в Data lake можно сравнить с рыбой в озере, которая приплыла из реки. Вы не можете точно сказать, какая рыба в озере есть и где конкретно она находится. А чтобы ее приготовить (обработать данные), эту рыбу еще нужно поймать.

Vanilla Hadoop и Apache Bigtop

Как известно, бинарные версии Hadoop-компонентов доступны на веб-сайте каждого из проектов экосистемы. При этом вы можете загрузить их и начать инсталляцию, правда, у вас будет отсутствовать уверенность в том, что загруженные версии компонентов совместимы друг с другом. И вот здесь может помочь Apache Bigtop.

Data Platform как тренд

Большие данные появляются тогда, когда дешевле хранить информацию, чем выбросить её. К тому же, современный человек склонен к накоплению данных. Но информацию надо не только хранить, а ещё и обрабатывать, получая полезный результат. Сегодня в это инвестируют, что помогает оптимизировать процессы и повышать эффективность бизнеса. Так как же оптимизировать обработку Big Data?

Архитектура Hadoop

Hadoop представляет собой свободно распространяемый фреймворк, а также набор утилит и библиотек. Он используется при разработке и выполнении распределённых программ, функционирующих на кластерах из множества узлов (сотен и даже тысяч). По сути, речь идёт о технологиях, предназначенных для хранения и обработки больших данных.

Как генерируются, хранятся и обрабатываются Big Data?

Большие данные в наше время берутся из различных источников. Самый простой пример — рекламные и социальные сети. Но даже если ваша компания невелика и не предоставляет свои услуги миллионам пользователей, вы всё равно сможете работать с Big Data. Собрать данные можно, например, посредством веб-скрапинга. Кроме этого, существуют сервисы, предоставляющие API для доступа к своим данным.

Роль Apache Kafka в системах обработки данных

На сегодняшний момент почти в каждой компании, которая серьезно подходит к вопросам сбора и обработки данных, есть какой-либо брокер сообщений. Это может быть AWS Kinesis, Google PubSub или какой-то еще сервис. Но если мы говорим о компаниях, размещающих сервисы не в облаке, а на своей инфраструктуре, то в качестве брокера чаще всего выступает Apache Kafka.