Архитектура Hadoop | OTUS
🔥 Начинаем BLACK FRIDAY!
Максимальная скидка -25% на всё. Успейте начать обучение по самой выгодной цене.
Выбрать курс

Курсы

Программирование
iOS Developer. Basic
-25%
Python Developer. Professional
-25%
Разработчик на Spring Framework
-25%
Golang Developer. Professional
-25%
Python Developer. Basic
-25%
iOS Developer. Professional
-25%
Highload Architect
-25%
JavaScript Developer. Basic
-25%
Kotlin Backend Developer
-25%
JavaScript Developer. Professional
-25%
Android Developer. Basic
-25%
Unity Game Developer. Basic
-25%
Разработчик C#
-25%
Программист С Web-разработчик на Python Алгоритмы и структуры данных Framework Laravel PostgreSQL Reverse-Engineering. Professional CI/CD Vue.js разработчик VOIP инженер Программист 1С Flutter Mobile Developer Супер - интенсив по Kubernetes Symfony Framework Advanced Fullstack JavaScript developer Супер-интенсив "Azure для разработчиков"
Инфраструктура
Мониторинг и логирование: Zabbix, Prometheus, ELK
-25%
DevOps практики и инструменты
-25%
Архитектор сетей
-25%
Инфраструктурная платформа на основе Kubernetes
-25%
Супер-интенсив «ELK»
-16%
Супер-интенсив «IaC Ansible»
-16%
Супер-интенсив "SQL для анализа данных"
-16%
Базы данных Сетевой инженер AWS для разработчиков Cloud Solution Architecture Разработчик голосовых ассистентов и чат-ботов Внедрение и работа в DevSecOps Администратор Linux. Виртуализация и кластеризация Нереляционные базы данных Супер-практикум по использованию и настройке GIT IoT-разработчик Супер-интенсив «СУБД в высоконагруженных системах»
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02

Архитектура Hadoop

Hadoop представляет собой свободно распространяемый фреймворк, а также набор утилит и библиотек. Он используется при разработке и выполнении распределённых программ, функционирующих на кластерах из множества узлов (сотен и даже тысяч). По сути, речь идёт о технологиях, предназначенных для хранения и обработки больших данных.

Из чего состоит Hadoop?

Проект разрабатывался на Java с учётом вычислительной парадигмы MapReduce (приложение делится на множество одинаковых элементарных заданий, выполняемых на распределённых компьютерах (нодах) кластера и сводимых в единый результат).

Архитектурная концепция Hadoop предполагает наличие четырёх модулей: 1. Hadoop Common – комплект инфраструктурных программных библиотек и утилит, используемых в других решениях и родственных проектах, в том числе и для управления распределёнными файлами, а также для создания нужной инфраструктуры. 2. HDFS (Hadoop Distributed File System) – распределённая файловая система. Это технология хранения файлов на разных серверах данных (узлах, DataNodes), причём их адреса располагаются на специальном сервере имён (мастере, NameNode). Благодаря репликации информационных блоков, HDFS-система обеспечивает надёжное хранение файлов больших размеров. Файлы распределены между узлами вычислительного кластера поблочно. 3. YARN (Yet Another Resource Negotiator) – система планирования заданий и управления кластером, называемая ещё MapReduce 2.0 (MRv2). Эта система представляет собой набор системных программ (демонов), которые обеспечивают совместное применение, масштабирование и надёжность работы распределённых приложений. По сути, YARN — это интерфейс между аппаратными ресурсами кластера и приложениями. 4. Hadoop MapReduce – платформа программирования и осуществления распределённых MapReduce-вычислений с применением большого количества компьютеров (nodes, узлов), которые образуют кластер.

h0_1-1801-17f956.png

Некоторые инструменты Hadoop: • HBase — NoSQL СУБД, которая эффективно поддерживает случайное чтение и запись; • Pig — среда выполнения и язык обработки; • SPARK — перечень инструментов по реализации распределённых вычислений; • Hive — хранилище данных с SQL-интерфейсом; • ZooKeeper — хранилище конфигурационной информации и прочие.

Разнообразие в экосистеме Hadoop делает «слонёнка» универсальным инструментом, изменяющимся с течением времени. При этом в настоящее время вокруг Hadoop сформировалась целая экосистема технологий и связанных проектов, используемых для интеллектуального анализа больших данных (Data Mining), в том числе и посредством машинного обучения (Machine Learning).

Hadoop_Ecosystem_1-1801-939241.jpg

Кем и где используется Hadoop?

Hadoop используют разные компании, включая крупные и хорошо известные: eBay, Facebook, Amazon, IBM, AliExpress, Yahoo! и пр. При этом не существует единой схемы работы с данными для любой компании, так как работа всех сервисов специфична. Также на основную функциональность накладываются дополнительные фичи, которые специально разработаны для конкретных компаний.

Основные области применения Hadoop: • контекстные и поисковые механизмы высоконагруженных интернет-магазинов и web-сайтов; • хранение и сортировка больших объёмов данных, разбор содержимого огромных файлов; • быстрая обработка графических данных.

Если интересуют подробности об этой экосистеме, добро пожаловать на наш курс! Он рассчитан на Data-инженеров, которые желают поглубже изучить Spark, Hadoop, Hive.

Источники: • https://ru.wikipedia.org/wiki/Hadoop; • https://m.habr.com/ru/post/240405/; • https://www.ibm.com/developerworks/ru/library/bd-hadoopyarn/index.html; • https://www.ibm.com/developerworks/ru/library/l-hadoop/index.html.

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться
🎁 Максимальная скидка!
Черная пятница уже в OTUS! Скидка -25% на всё!