Блог BigData | OTUS
Посты
Как облака способны усилить Apache Spark?

Чтобы обрабатывать Big Data, крайне важна горизонтальная масштабируемость. То есть чем больше мы имеем узлов в кластере, тем быстрее происходит обработка этих самых данных. Spark исключением не является.

Greenplum: аналитическая БД для Big Data-проектов

Greenplum — система управления данными, предназначенная для больших проектов из мира Big Data. Давайте рассмотрим, как устроена эта система, в чем ее особенности, кому она подойдет.

Сравниваем форматы файлов для больших данных

Как известно, обработка больших данных повышает нагрузку на подсистему хранения. Кроме дисков, нагружается сеть, процессор, система ввода-вывода. Чем быстрее растет объем данных, тем быстрее повышается цена их хранения и обработки. Чтобы решить эти проблемы, в Hadoop существуют разные форматы файлов. Выбрав нужный формат, можно получить следующие преимущества:

Форматы файлов в больших данных: Parquet

Parquet представляет собой Open source-формат для Hadoop, который может хранить вложенные структуры данных в виде плоского столбчатого формата. Если сравнивать с обычным строчным подходом, то Parquet является более эффективным в плане хранения и производительности.

ETL в Data-инжиниринге

Среди многих навыков современного Data-инженера можно выделить один из самых важных — это способность разрабатывать/строить/поддерживать хранилища данных. Ведь если качественной инфраструктуры по хранению данных нет, то любая активность, которая будет связана с анализом данных, окажется или слишком дорогой, или просто немасштабируемой. И вот здесь будет вполне уместно вспомнить ETL.

Структура DWH

Data Warehouse представляет собой единое корпоративное хранилище архивных данных из различных источников (департаментов, систем и т. д.). Цель такого хранилища — предоставить возможность принимать верные решения по управлению бизнесом, основываясь на целостной информационной картине. То есть в описываемом нами случае данные из различных систем хранятся не разрозненно, а целиком, что, по сути, консолидирует наиболее важную бизнес-информацию, плюс позволяет подготавливать качественные отчеты в автоматическом режиме.

Тенденции развития рынка DWH

DWA_970x70-1801-9858da.jpg

Ряд специалистов утверждает, что к 2025 году рынок хранилищ данных (Data Warehouse) превысит $30 млрд. Такой рост объясняют не только повсеместным внедрением DWH в целях управления большими данными, но и увеличением объемов инвестиций в облачные платформы. Но причем здесь облачные технологии, и какие еще тенденции характерны для BigData? Давайте разбираться.

Как DWH-решения помогают бизнес-аналитике?

Благодаря DWH, бизнес-аналитики могут перевести управление компанией из искусства в науку. И это неудивительно, ведь наличие под рукой результатов измерений по сотням показателей дает возможность выдвигать различные гипотезы и ставить эксперименты. При этом правильность решений убедительно подтверждается объективными цифрами, которые получают бизнес-аналитики из DWH.

Кто такой Data Analyst?

DWA_970x70-1801-9858da.jpg

Неверно принятые решения в процессе разработки нового продукта, функции либо сервиса могут стать причиной потери денег и даже репутации. Чтобы этого избежать, бизнес обращается к аналитику данных. Data Analyst выполняет сбор, обработку, изучение и интерпретацию данных, что в совокупности позволяет понять, как клиенты отреагируют на новшества. Профит очевиден — риски бизнеса снижаются, пользователи становятся счастливее, а компания получает больше прибыли.

Популярное
Сегодня тут пусто