Шаблоны и компоновка кластеров в Hadoop MCS
Для удобства развертывания и использования сервиса Hadoop MCS (Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:
- Airflow. Набор библиотек, предназначенных для мониторинга и запуска задач, которые написаны на Python. Такие задачи должны обладать структурой направленного ацикличного графа. На кластере Airflow сразу настраивается на запуск задач на рабочих узлах — пользователю лишь надо самому разложить по узлам код задач. Кроме этого, Airflow можно также инсталлировать как компонент на кластерах Hadoop и Spark.
- Airflow-HDP-v31. Данный шаблон имеет лишь установленный компонент Airflow.
- Hadoop. Компоновка, обеспечивающая решение широкого спектра задач по обработке Big Data посредством технологии MapReduce. Предлагаемый шаблон, кстати, ориентирован на batch-обработку данных (пакетную обработку), когда допустимое время ожидания результата — 10 и более минут.
- Hadoop-HDP-v31. Это минимальная компоновка компонентов, необходимых для получения кластера Hadoop. Данный кластер может применять как HDFS-хранилище или же в целях запуска MapReduce-задач. Включены такие компоненты, как HDFS, YARN, MapReduce, Hive, ZooKeeper.
- Spark. Это компоновка, предназначенная для параллельной обработки Big Data в памяти. Данный шаблон ориентирован на быструю обработку данных, причем в режиме, максимально приближенном к реальному времени.
- Spark-HDP-v31. Это уже расширенная компоновка компонентов. Здесь дополнительно к Hadoop доступны Sqoop, Livy2, HBase, Spark, Oozie, Jupyter. Spark — инструмент обработки и хранения данных из условно 2-го поколения экосистемы Hadoop. Развитое профессиональное сообщество и большое число расширений и пользовательских возможностей сделали Spark, пожалуй, одним из наиболее популярных инструментов по обработке больших данных.
- DataFlow-HDF-v34. Шаблон кластера, который основан на Hortonworks Data Flow. Данный кластер выполняет 2 важные задачи: потоковый процессинг (аналитика) и управление потоками данных. После первичной инсталляции управление производится с помощью консоли Ambari.
Подробности читайте в официальной документации Hadoop MCS.