Блог BigData

13.09.22 в 19:32

Как облака способны усилить Apache Spark?

Чтобы обрабатывать Big Data, крайне важна горизонтальная масштабируемость. То есть чем больше мы имеем узлов в кластере, тем быстрее происходит обработка этих самых данных. Spark исключением не является.

0

2

Андрей Павленко

05.08.22 в 19:28

Greenplum: аналитическая БД для Big Data-проектов

BigData → Полезные материалы по BigData

Greenplum — система управления данными, предназначенная для больших проектов из мира Big Data. Давайте рассмотрим, как устроена эта система, в чем ее особенности, кому она подойдет.

0

59

Андрей Павленко

01.08.22 в 16:59

Сравниваем форматы файлов для больших данных

BigData → Полезные материалы по BigData

Как известно, обработка больших данных повышает нагрузку на подсистему хранения. Кроме дисков, нагружается сеть, процессор, система ввода-вывода. Чем быстрее растет объем данных, тем быстрее повышается цена их хранения и обработки. Чтобы решить эти проблемы, в Hadoop существуют разные форматы файлов. Выбрав нужный формат, можно получить следующие преимущества:

0

23

Андрей Павленко

12.05.22 в 19:49

Форматы файлов в больших данных: Parquet

BigData → Полезные материалы по BigData

Parquet представляет собой Open source-формат для Hadoop, который может хранить вложенные структуры данных в виде плоского столбчатого формата. Если сравнивать с обычным строчным подходом, то Parquet является более эффективным в плане хранения и производительности.

0

38

Андрей Павленко

29.03.22 в 17:22

ETL в Data-инжиниринге

BigData → Полезные материалы по BigData

Среди многих навыков современного Data-инженера можно выделить один из самых важных — это способность разрабатывать/строить/поддерживать хранилища данных. Ведь если качественной инфраструктуры по хранению данных нет, то любая активность, которая будет связана с анализом данных, окажется или слишком дорогой, или просто немасштабируемой. И вот здесь будет вполне уместно вспомнить ETL.

0

13

Андрей Павленко

24.03.22 в 17:51

Структура DWH

BigData → Полезные материалы по BigData

Data Warehouse представляет собой единое корпоративное хранилище архивных данных из различных источников (департаментов, систем и т. д.). Цель такого хранилища — предоставить возможность принимать верные решения по управлению бизнесом, основываясь на целостной информационной картине. То есть в описываемом нами случае данные из различных систем хранятся не разрозненно, а целиком, что, по сути, консолидирует наиболее важную бизнес-информацию, плюс позволяет подготавливать качественные отчеты в автоматическом режиме.

0

58

Андрей Павленко

26.10.21 в 16:06

Тенденции развития рынка DWH

BigData → Полезные материалы по BigData

Ряд специалистов утверждает, что к 2025 году рынок хранилищ данных (Data Warehouse) превысит $30 млрд. Такой рост объясняют не только повсеместным внедрением DWH в целях управления большими данными, но и увеличением объемов инвестиций в облачные платформы. Но причем здесь облачные технологии, и какие еще тенденции характерны для BigData? Давайте разбираться.

0

5

Андрей Павленко

07.07.21 в 17:57

Как DWH-решения помогают бизнес-аналитике?

BigData → Полезные материалы по BigData

Благодаря DWH, бизнес-аналитики могут перевести управление компанией из искусства в науку. И это неудивительно, ведь наличие под рукой результатов измерений по сотням показателей дает возможность выдвигать различные гипотезы и ставить эксперименты. При этом правильность решений убедительно подтверждается объективными цифрами, которые получают бизнес-аналитики из DWH.

0

3

Андрей Павленко

30.06.21 в 16:22

Кто такой Data Analyst?

BigData → Полезные материалы по BigData

Неверно принятые решения в процессе разработки нового продукта, функции либо сервиса могут стать причиной потери денег и даже репутации. Чтобы этого избежать, бизнес обращается к аналитику данных. Data Analyst выполняет сбор, обработку, изучение и интерпретацию данных, что в совокупности позволяет понять, как клиенты отреагируют на новшества. Профит очевиден — риски бизнеса снижаются, пользователи становятся счастливее, а компания получает больше прибыли.

0

29

Андрей Павленко

19.06.21 в 16:27

Что такое DWH?

BigData → Полезные материалы по BigData

Многим из нас периодически приходилось слышать три магические буквы DWH. Давайте посмотрим, что это такое и чем отличается DWH от обычных баз данных.

0

34

Java-разработчик

Блог BigData