Блог BigData | OTUS
Посты
Форматы файлов в Big Data: ORC

Optimized Row Columnar (ORC) — это оптимизированный строково-столбчатый файловый формат, предлагающий эффективный способ хранения данных. Целью его разработки было преодоление ограничения других форматов. ORC хранит данные в максимально компактном виде, пропуская ненужные детали. При этом формат не требует построения сложных и больших индексов, обслуживаемых вручную.

Обработка данных в пакетном режиме

photo_2021_10_06_17_53_42-1801-8e2b15.jpg

При пакетной обработке данных массив информации, которая сходна по смыслу либо формату, помещают в контейнер, а потом выполняют над информацией какое-нибудь действие. К примеру, вносят изменения либо отбирают интересующие файлы по заданным характеристикам. При этом выбранное действие всегда применяется сразу ко всем записям, файлам или байтам, находящимся в пакете.

Форматы файлов в больших данных: Avro

Для сериализации больших данных сегодня широко используют Avro — формат хранения данных в Hadoop, основанный на строках. Он позволяет хранить схему в JSON, что облегчает как ее чтение, так и ее интерпретацию любой программой. При этом сами данные размещаются в двоичном формате, что обеспечивает компактность и эффективность.

Шаблоны и компоновка кластеров в Hadoop MCS

Для удобства развертывания и использования сервиса Hadoop MCS (Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:

Аналитическая информационная система. OLAP

Чтобы данные приносили пользу, их анализируют и применяют в работе: выстраивают прогнозы, формируют отчеты, учитывают при принятии решений. На практике аналитическая обработка данных предполагает использование аналитических информационных систем — речь идет о комплексах ПО, собирающих и обрабатывающих данные. Как же устроены такие системы, и что они могут?

Озера данных vs обычные БД

Data lake — огромное хранилище, где данные хранятся в неупорядоченном и необработанном виде. Данные в Data lake можно сравнить с рыбой в озере, которая приплыла из реки. Вы не можете точно сказать, какая рыба в озере есть и где конкретно она находится. А чтобы ее приготовить (обработать данные), эту рыбу еще нужно поймать.

Vanilla Hadoop и Apache Bigtop

Как известно, бинарные версии Hadoop-компонентов доступны на веб-сайте каждого из проектов экосистемы. При этом вы можете загрузить их и начать инсталляцию, правда, у вас будет отсутствовать уверенность в том, что загруженные версии компонентов совместимы друг с другом. И вот здесь может помочь Apache Bigtop.

Data Platform как тренд

Большие данные появляются тогда, когда дешевле хранить информацию, чем выбросить её. К тому же, современный человек склонен к накоплению данных. Но информацию надо не только хранить, а ещё и обрабатывать, получая полезный результат. Сегодня в это инвестируют, что помогает оптимизировать процессы и повышать эффективность бизнеса. Так как же оптимизировать обработку Big Data?