Проектирование Data Pipelines в Apache Airflow

Эта статья посвящена краткому введению в Airflow и шагов по созданию и настройке конвейеров данных (Data Pipelines). Сначала мы установим и сконфигурируем Airflow. Затем рассмотрим практический пример создания и запуска DAG в Airflow. Нашей целью является практическое понимание развертывания Airflow и базовой разработки DAG.


Как обрабатывать объекты Avro с помощью датасетов Spark 3.2 & Scala 2.12

Разберем, как обрабатывать объекты JVM, сгенерированные из схем Avro, в датасетах Spark. Вместе с этим рассмотрим, как организовать код при помощи шаблона функционального программирования «класс типов» (type class) на языке Scala.


DevOps + Data: Синергия двух миров = DataOps

В этой заметке рассмотрим:

  1. Почему появилась потребность в DataOps;
  2. Три простых идеи, на которых фокусируется DataOps:
    • Работа с данными должна быть воспроизводимой;
    • Аналитика как код;
      (Кажется, что это логически вытекает из п.1., но не все так просто);
    • Думайте о данных как о платформе.

Платформа данных как услуга

Когда мы проектируем и создаем платформу данных, то работаем над обеспечением возможностей и инструментов, которые необходимы другим командам для развития их проектов. Читать далее.


Смотрите записи открытых уроков курса «DataOps Engineer»