DataOps Engineering: читаем на Хабр OTUS

Содержание

Проектирование Data Pipelines в Apache Airflow

Эта статья посвящена краткому введению в Airflow и шагов по созданию и настройке конвейеров данных (Data Pipelines). Сначала мы установим и сконфигурируем Airflow. Затем рассмотрим практический пример создания и запуска DAG в Airflow. Нашей целью является практическое понимание развертывания Airflow и базовой разработки DAG.

Как обрабатывать объекты Avro с помощью датасетов Spark 3.2 & Scala 2.12

Разберем, как обрабатывать объекты JVM, сгенерированные из схем Avro, в датасетах Spark. Вместе с этим рассмотрим, как организовать код при помощи шаблона функционального программирования «класс типов» (type class) на языке Scala.

DevOps + Data: Синергия двух миров = DataOps

В этой заметке рассмотрим:

Почему появилась потребность в DataOps;
Три простых идеи, на которых фокусируется DataOps:
- Работа с данными должна быть воспроизводимой;
- Аналитика как код;
  (Кажется, что это логически вытекает из п.1., но не все так просто);
- Думайте о данных как о платформе.

Платформа данных как услуга

Когда мы проектируем и создаем платформу данных, то работаем над обеспечением возможностей и инструментов, которые необходимы другим командам для развития их проектов. Читать далее.

Смотрите записи открытых уроков курса «DataOps Engineer»

Читать ещё