Чтобы обрабатывать Big Data, крайне важна горизонтальная масштабируемость. То есть чем больше мы имеем узлов в кластере, тем быстрее происходит обработка этих самых данных. Spark исключением не является.
Чтобы обрабатывать Big Data, крайне важна горизонтальная масштабируемость. То есть чем больше мы имеем узлов в кластере, тем быстрее происходит обработка этих самых данных. Spark исключением не является.
Greenplum — система управления данными, предназначенная для больших проектов из мира Big Data. Давайте рассмотрим, как устроена эта система, в чем ее особенности, кому она подойдет.
Как известно, обработка больших данных повышает нагрузку на подсистему хранения. Кроме дисков, нагружается сеть, процессор, система ввода-вывода. Чем быстрее растет объем данных, тем быстрее повышается цена их хранения и обработки. Чтобы решить эти проблемы, в Hadoop существуют разные форматы файлов. Выбрав нужный формат, можно получить следующие преимущества:
Parquet представляет собой Open source-формат для Hadoop, который может хранить вложенные структуры данных в виде плоского столбчатого формата. Если сравнивать с обычным строчным подходом, то Parquet является более эффективным в плане хранения и производительности.
Среди многих навыков современного Data-инженера можно выделить один из самых важных — это способность разрабатывать/строить/поддерживать хранилища данных. Ведь если качественной инфраструктуры по хранению данных нет, то любая активность, которая будет связана с анализом данных, окажется или слишком дорогой, или просто немасштабируемой. И вот здесь будет вполне уместно вспомнить ETL.
Data Warehouse представляет собой единое корпоративное хранилище архивных данных из различных источников (департаментов, систем и т. д.). Цель такого хранилища — предоставить возможность принимать верные решения по управлению бизнесом, основываясь на целостной информационной картине. То есть в описываемом нами случае данные из различных систем хранятся не разрозненно, а целиком, что, по сути, консолидирует наиболее важную бизнес-информацию, плюс позволяет подготавливать качественные отчеты в автоматическом режиме.
Ряд специалистов утверждает, что к 2025 году рынок хранилищ данных (Data Warehouse) превысит $30 млрд. Такой рост объясняют не только повсеместным внедрением DWH в целях управления большими данными, но и увеличением объемов инвестиций в облачные платформы. Но причем здесь облачные технологии, и какие еще тенденции характерны для BigData? Давайте разбираться.
Благодаря DWH, бизнес-аналитики могут перевести управление компанией из искусства в науку. И это неудивительно, ведь наличие под рукой результатов измерений по сотням показателей дает возможность выдвигать различные гипотезы и ставить эксперименты. При этом правильность решений убедительно подтверждается объективными цифрами, которые получают бизнес-аналитики из DWH.
Неверно принятые решения в процессе разработки нового продукта, функции либо сервиса могут стать причиной потери денег и даже репутации. Чтобы этого избежать, бизнес обращается к аналитику данных. Data Analyst выполняет сбор, обработку, изучение и интерпретацию данных, что в совокупности позволяет понять, как клиенты отреагируют на новшества. Профит очевиден — риски бизнеса снижаются, пользователи становятся счастливее, а компания получает больше прибыли.
Многим из нас периодически приходилось слышать три магические буквы DWH. Давайте посмотрим, что это такое и чем отличается DWH от обычных баз данных.