5 фактов про Spark
Spark -- известный open source-фреймворк из экосистемы Hadoop-проектов, позволяющий выполнять распределенную обработку как неструктурированных, так и слабоструктурированных данных. Рассмотрим несколько фактов, которые стали причиной популярности фреймворка.
Факты про Spark:
- Во-первых, Apache Spark является фреймворком для обработки данных в области Big Data. А так как он работает в оперативной памяти и обращается к диску редко, то и обработка данных осуществляется очень быстро, что не может не радовать.
- Во-вторых, ранее стандартом для обработки данных был Hadoop MapReduce. Однако он известен двумя существенными недостатками: повышенная сложность разработки и низкая производительность. В Spark в этом плане все интереснее.
- В-третьих, закономерным результатом предыдущего утверждения стало то, что сегодня стандартом, по сути, стал Apache Spark. Этот фреймворк создавался для решения двух задач: устранение минусов MapReduce при сохранении его преимуществ.
- В-четвертых, Apache Spark и прочие Big Data-технологии сегодня активно используются в облаках. В результате это дает возможность еще и получать все преимущества современных облачных сервисов.
- В-пятых, Spark эффективно используется в Kubernetes, что позволяет активно использовать технологии контейнеризации, причем о конкретных преимуществах этого мы уже писали.
Таким образом, можно сделать однозначный вывод: Spark достоин того, чтобы его изучать. Сделать это можно на курсах Otus. Не пропустите!