Шаблоны и компоновка кластеров в Hadoop MCS | OTUS

Шаблоны и компоновка кластеров в Hadoop MCS

Для удобства развертывания и использования сервиса Hadoop MCS (Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:

  1. Airflow. Набор библиотек, предназначенных для мониторинга и запуска задач, которые написаны на Python. Такие задачи должны обладать структурой направленного ацикличного графа. На кластере Airflow сразу настраивается на запуск задач на рабочих узлах — пользователю лишь надо самому разложить по узлам код задач. Кроме этого, Airflow можно также инсталлировать как компонент на кластерах Hadoop и Spark.
  2. Airflow-HDP-v31. Данный шаблон имеет лишь установленный компонент Airflow.
  3. Hadoop. Компоновка, обеспечивающая решение широкого спектра задач по обработке Big Data посредством технологии MapReduce. Предлагаемый шаблон, кстати, ориентирован на batch-обработку данных (пакетную обработку), когда допустимое время ожидания результата — 10 и более минут.
  4. Hadoop-HDP-v31. Это минимальная компоновка компонентов, необходимых для получения кластера Hadoop. Данный кластер может применять как HDFS-хранилище или же в целях запуска MapReduce-задач. Включены такие компоненты, как HDFS, YARN, MapReduce, Hive, ZooKeeper.
  5. Spark. Это компоновка, предназначенная для параллельной обработки Big Data в памяти. Данный шаблон ориентирован на быструю обработку данных, причем в режиме, максимально приближенном к реальному времени.
  6. Spark-HDP-v31. Это уже расширенная компоновка компонентов. Здесь дополнительно к Hadoop доступны Sqoop, Livy2, HBase, Spark, Oozie, Jupyter. Spark — инструмент обработки и хранения данных из условно 2-го поколения экосистемы Hadoop. Развитое профессиональное сообщество и большое число расширений и пользовательских возможностей сделали Spark, пожалуй, одним из наиболее популярных инструментов по обработке больших данных.
  7. DataFlow-HDF-v34. Шаблон кластера, который основан на Hortonworks Data Flow. Данный кластер выполняет 2 важные задачи: потоковый процессинг (аналитика) и управление потоками данных. После первичной инсталляции управление производится с помощью консоли Ambari.

Подробности читайте в официальной документации Hadoop MCS.

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться
Популярное
Сегодня тут пусто
🔥 Выгодные предложения!
Успейте начать обучение со скидкой до 10%. Акция до 31 июля →