Arenadata Hadoop
В этой статье мы коротко расскажем про дистрибутив Arenadata Hadoop. Он заслуживает внимание благодаря своей доступности, а также тем, что является импортозамещенным дистрибутивом Hadoop.
По сути, перед нами относительно новый дистрибутив отечественной разработки. Разработчики утверждают, что это полноценный дистрибутив, созданный на базе Apache Hadoop, который: — адаптирован для корпоративного использования, — предназначен для хранения и обработки слабоструктурированных и неструктурированных данных.
Предыстория вопроса
Появление Arenadata связано, как известно, с приобретением Hortonworks компанией Cloudera. В результате прекратилась поддержка бесплатной версии системы управления Ambari, а пользователям предложили перейти на коммерческий продукт Cloudera Data Platform.
Естественно, возникли желающие остаться на открытой версии Hadoop. Но выбор был невелик: — пользоваться текущей бесплатной версией (она поддерживается незначительным числом энтузиастов); — мигрировать на закрытую систему управления, предложенную Cloudera.
В этом плане разработчики Arenadata создали третий путь. По большему счету, они предложили универсальный оркестратор гибридного ландшафта — собственную систему управления ADCM (Arenadata Cluster Manager). Эта система позволяет устанавливать Hadoop-сервисы, управлять ими и on-premise, и в облаке.
В состав дистрибутива ADH включены последние актуальные версии самых популярных инструментов. Многие из них доработаны, причем значительно — заявляется, что это обеспечивает: — минимум ошибок ПО, — наибольшую полноту существующего функционала, — корректную интеграцию компонентов друг с другом.
Несколько слов об ADCM
Итак, Arenadata Hadoop имеет свою систему управления, развертывания и мониторинга — это Arenadata Cluster Manager. ADCM распространяется бесплатно, функционал расширяется благодаря добавлению в него бандлов, представляющих собой набор ansible-playbooks. Бандлы делятся на 2 вида: enterprise и community, причем последние можно бесплатно загрузить с веб-сайта Arenadata. Плюс ко всему, присутствует возможность разработать собственный бандл и потом подключить его к ADCM.
В общих чертах можно сказать, что дистрибутив выглядит весьма неплохо.
Плюсы и минусы
Какие ключевые преимущества заявляют разработчики:
Состав компонентов нынешней и будущей версий следующий:
Что касается минусов, то они такие же, как и для остальных дистрибутивов Hadoop: • «vendor lock-in». Всегда существует вероятность изменения политики компании. Далеко ходить не надо: достаточно вспомнить пример Cloudera и Hortonworks; • наблюдается существенное отставание от апстрима Apache.
Источники: • https://arenadata.tech/products/arenadata-hadoop/; • https://habr.com/ru/company/rostelecom/blog/499854/.