Блог BigData

27.04.21 в 19:42

Optimized Row Columnar (ORC) — это оптимизированный строково-столбчатый файловый формат, предлагающий эффективный способ хранения данных. Целью его разработки было преодоление ограничения других форматов. ORC хранит данные в максимально компактном виде, пропуская ненужные детали. При этом формат не требует построения сложных и больших индексов, обслуживаемых вручную.

0

10

Андрей Павленко

24.04.21 в 18:46

Обработка данных в пакетном режиме

BigData → Полезные материалы по BigData

При пакетной обработке данных массив информации, которая сходна по смыслу либо формату, помещают в контейнер, а потом выполняют над информацией какое-нибудь действие. К примеру, вносят изменения либо отбирают интересующие файлы по заданным характеристикам. При этом выбранное действие всегда применяется сразу ко всем записям, файлам или байтам, находящимся в пакете.

0

14

Андрей Павленко

24.04.21 в 18:18

Форматы файлов в больших данных: Avro

BigData → Полезные материалы по BigData

Для сериализации больших данных сегодня широко используют Avro — формат хранения данных в Hadoop, основанный на строках. Он позволяет хранить схему в JSON, что облегчает как ее чтение, так и ее интерпретацию любой программой. При этом сами данные размещаются в двоичном формате, что обеспечивает компактность и эффективность.

0

13

Андрей Павленко

09.02.21 в 09:30

Шаблоны и компоновка кластеров в Hadoop MCS

BigData → Полезные материалы по BigData

Для удобства развертывания и использования сервиса Hadoop MCS (Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:

1

0

8

Андрей Павленко

02.02.21 в 19:45

Аналитическая информационная система. OLAP

BigData → Полезные материалы по BigData

Чтобы данные приносили пользу, их анализируют и применяют в работе: выстраивают прогнозы, формируют отчеты, учитывают при принятии решений. На практике аналитическая обработка данных предполагает использование аналитических информационных систем — речь идет о комплексах ПО, собирающих и обрабатывающих данные. Как же устроены такие системы, и что они могут?

1

0

5

Андрей Павленко

01.02.21 в 15:26

Озера данных vs обычные БД

BigData → Полезные материалы по BigData

Data lake — огромное хранилище, где данные хранятся в неупорядоченном и необработанном виде. Данные в Data lake можно сравнить с рыбой в озере, которая приплыла из реки. Вы не можете точно сказать, какая рыба в озере есть и где конкретно она находится. А чтобы ее приготовить (обработать данные), эту рыбу еще нужно поймать.

1

0

11

Андрей Павленко

27.01.21 в 17:44

Vanilla Hadoop и Apache Bigtop

BigData → Полезные материалы по BigData

Как известно, бинарные версии Hadoop-компонентов доступны на веб-сайте каждого из проектов экосистемы. При этом вы можете загрузить их и начать инсталляцию, правда, у вас будет отсутствовать уверенность в том, что загруженные версии компонентов совместимы друг с другом. И вот здесь может помочь Apache Bigtop.

1

0

28

Андрей Павленко

25.01.21 в 13:33

Arenadata Hadoop

BigData → Полезные материалы по BigData

В этой статье мы коротко расскажем про дистрибутив Arenadata Hadoop. Он заслуживает внимание благодаря своей доступности, а также тем, что является импортозамещенным дистрибутивом Hadoop.

2

0

30

Андрей Павленко

12.11.20 в 20:19

Основные принципы Hadoop

BigData → Полезные материалы по BigData

Мы уже вкратце рассказывали об архитектуре Hadoop, и о том, что основными компонентами этой экосистемы являются HDFS и MapReduce. В этой статье поговорим о принципах работы Hadoop.

1

0

21

Андрей Павленко

05.11.20 в 17:19

Data Platform как тренд

BigData → Полезные материалы по BigData

Большие данные появляются тогда, когда дешевле хранить информацию, чем выбросить её. К тому же, современный человек склонен к накоплению данных. Но информацию надо не только хранить, а ещё и обрабатывать, получая полезный результат. Сегодня в это инвестируют, что помогает оптимизировать процессы и повышать эффективность бизнеса. Так как же оптимизировать обработку Big Data?

0

2

Product Marketing Manager в IT

Блог BigData