Блог BigData | OTUS >
Скидка 5% на курсы февраля
Предложение действует до 22 февраля включительно.
Выбрать курс
Посты
Как облака способны усилить Apache Spark?

Чтобы обрабатывать Big Data, крайне важна горизонтальная масштабируемость. То есть чем больше мы имеем узлов в кластере, тем быстрее происходит обработка этих самых данных. Spark исключением не является.

Greenplum: аналитическая БД для Big Data-проектов

Greenplum — система управления данными, предназначенная для больших проектов из мира Big Data. Давайте рассмотрим, как устроена эта система, в чем ее особенности, кому она подойдет.

Сравниваем форматы файлов для больших данных

Как известно, обработка больших данных повышает нагрузку на подсистему хранения. Кроме дисков, нагружается сеть, процессор, система ввода-вывода. Чем быстрее растет объем данных, тем быстрее повышается цена их хранения и обработки. Чтобы решить эти проблемы, в Hadoop существуют разные форматы файлов. Выбрав нужный формат, можно получить следующие преимущества:

Форматы файлов в больших данных: Parquet

Parquet представляет собой Open source-формат для Hadoop, который может хранить вложенные структуры данных в виде плоского столбчатого формата. Если сравнивать с обычным строчным подходом, то Parquet является более эффективным в плане хранения и производительности.

ETL в Data-инжиниринге

Среди многих навыков современного Data-инженера можно выделить один из самых важных — это способность разрабатывать/строить/поддерживать хранилища данных. Ведь если качественной инфраструктуры по хранению данных нет, то любая активность, которая будет связана с анализом данных, окажется или слишком дорогой, или просто немасштабируемой. И вот здесь будет вполне уместно вспомнить ETL.

Структура DWH

Data Warehouse представляет собой единое корпоративное хранилище архивных данных из различных источников (департаментов, систем и т. д.). Цель такого хранилища — предоставить возможность принимать верные решения по управлению бизнесом, основываясь на целостной информационной картине. То есть в описываемом нами случае данные из различных систем хранятся не разрозненно, а целиком, что, по сути, консолидирует наиболее важную бизнес-информацию, плюс позволяет подготавливать качественные отчеты в автоматическом режиме.

Тенденции развития рынка DWH

DWA_970x70-1801-9858da.jpg

Ряд специалистов утверждает, что к 2025 году рынок хранилищ данных (Data Warehouse) превысит $30 млрд. Такой рост объясняют не только повсеместным внедрением DWH в целях управления большими данными, но и увеличением объемов инвестиций в облачные платформы. Но причем здесь облачные технологии, и какие еще тенденции характерны для BigData? Давайте разбираться.

Как DWH-решения помогают бизнес-аналитике?

Благодаря DWH, бизнес-аналитики могут перевести управление компанией из искусства в науку. И это неудивительно, ведь наличие под рукой результатов измерений по сотням показателей дает возможность выдвигать различные гипотезы и ставить эксперименты. При этом правильность решений убедительно подтверждается объективными цифрами, которые получают бизнес-аналитики из DWH.

Кто такой Data Analyst?

DWA_970x70-1801-9858da.jpg

Неверно принятые решения в процессе разработки нового продукта, функции либо сервиса могут стать причиной потери денег и даже репутации. Чтобы этого избежать, бизнес обращается к аналитику данных. Data Analyst выполняет сбор, обработку, изучение и интерпретацию данных, что в совокупности позволяет понять, как клиенты отреагируют на новшества. Профит очевиден — риски бизнеса снижаются, пользователи становятся счастливее, а компания получает больше прибыли.

Популярное
Сегодня тут пусто