Проектирование Data Pipelines в Apache Airflow
Эта статья посвящена краткому введению в Airflow и шагов по созданию и настройке конвейеров данных (Data Pipelines). Сначала мы установим и сконфигурируем Airflow. Затем рассмотрим практический пример создания и запуска DAG в Airflow. Нашей целью является практическое понимание развертывания Airflow и базовой разработки DAG.
Как обрабатывать объекты Avro с помощью датасетов Spark 3.2 & Scala 2.12
Разберем, как обрабатывать объекты JVM, сгенерированные из схем Avro, в датасетах Spark. Вместе с этим рассмотрим, как организовать код при помощи шаблона функционального программирования «класс типов» (type class) на языке Scala.
DevOps + Data: Синергия двух миров = DataOps
В этой заметке рассмотрим:
- Почему появилась потребность в DataOps;
- Три простых идеи, на которых фокусируется DataOps:
- Работа с данными должна быть воспроизводимой;
- Аналитика как код;
(Кажется, что это логически вытекает из п.1., но не все так просто); - Думайте о данных как о платформе.
Платформа данных как услуга
Когда мы проектируем и создаем платформу данных, то работаем над обеспечением возможностей и инструментов, которые необходимы другим командам для развития их проектов. Читать далее.