2 способа запуска Spark в Kubernetes
Как известно, запускать Spark в Kubernetes можно уже, начиная с версии 2.3, которая была выпущена в 2018 году. При этом до недавнего времени эта возможность была, скажем так, универсальной. Теперь все изменилось.
Произошло это с выходом версии Spark 3.1.1, где эту возможность наконец-то довели до production-ready. Что это значит на практике? Да хотя бы то, что Spark теперь абсолютно готов к запуску в Kubernetes. Сделать это можно двумя способами.
Способ № раз
Это Spark-submit, он же Spark-Native путь. Применяя spark-submit, вы задаете, как и обычно, все параметры, причем в роли менеджера ресурсов указываете Kubernetes. В результате в момент spark-submit внутри Kuber’а создастся под, причем на нем сначала будет размещен Driver. Потом этот Driver напрямую взаимодействует с API Kubernetes и создает Executor по указанным вами параметрам. При этом сам по себе Kubernetes не будет «знать и понимать», что внутри него функционирует именно Spark, — для Kubernetes это будет всего лишь очередное приложение. Как то так.
Способ № два
Kubernetes Operator for Spark, представляющий собой Kubernetes-Native путь. В данном случае Kubernetes уже «понимает», что внутри функционирует Spark. Мало того, при такой реализации вы получите более удобный доступ: — к логам; — статусу приложения; — текущему состоянию Job.
Пожалуй, второй способ — это то, что стоит порекомендовать в первую очередь, уж простите за каламбур.
По материалам https://mcs.mail.ru/blog/.