Data Build Tool (DBT) для построения модели Хранилища Данных | OTUS
🔥 Начинаем BLACK FRIDAY!
Максимальная скидка -25% на всё. Успейте начать обучение по самой выгодной цене.
Выбрать курс

Курсы

Программирование
iOS Developer. Basic
-25%
Python Developer. Professional
-25%
Разработчик на Spring Framework
-25%
Golang Developer. Professional
-25%
Python Developer. Basic
-25%
iOS Developer. Professional
-25%
Highload Architect
-25%
JavaScript Developer. Basic
-25%
Kotlin Backend Developer
-25%
JavaScript Developer. Professional
-25%
Android Developer. Basic
-25%
Unity Game Developer. Basic
-25%
Разработчик C#
-25%
Программист С Web-разработчик на Python Алгоритмы и структуры данных Framework Laravel PostgreSQL Reverse-Engineering. Professional CI/CD Vue.js разработчик VOIP инженер Программист 1С Flutter Mobile Developer Супер - интенсив по Kubernetes Symfony Framework Advanced Fullstack JavaScript developer Супер-интенсив "Azure для разработчиков"
Инфраструктура
Мониторинг и логирование: Zabbix, Prometheus, ELK
-25%
DevOps практики и инструменты
-25%
Архитектор сетей
-25%
Инфраструктурная платформа на основе Kubernetes
-25%
Супер-интенсив «ELK»
-16%
Супер-интенсив «IaC Ansible»
-16%
Супер-интенсив "SQL для анализа данных"
-16%
Базы данных Сетевой инженер AWS для разработчиков Cloud Solution Architecture Разработчик голосовых ассистентов и чат-ботов Внедрение и работа в DevSecOps Администратор Linux. Виртуализация и кластеризация Нереляционные базы данных Супер-практикум по использованию и настройке GIT IoT-разработчик Супер-интенсив «СУБД в высоконагруженных системах»
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02

Data Build Tool (DBT) для построения модели Хранилища Данных

Data_Engineer_Deep_5.5-5020-cdb819.png

1. Что такое Data Build Tool

DBT — это многофункциональный фреймворк для создания модели Хранилища Данных. В акрониме ELT (Extract, Load, Transform) DBT занимает этап T. Это инструмент для работы с данными, которые уже загружены в ваше хранилище, но над ними нужно произвести ряд преобразований, чтобы подготовить к использованию.

1-20219-b52ab6.png

DBT позволяет максимально удобно и быстро описать необходимые трансформации и наполнить витрины данными. Почти всё, что от вас потребуется, — определить SELECT-запросами требуемые структуры данных. Всем остальным (выстраиванием цепочек зависимостей, физической материализацией, тестированием изменений) фреймворк займётся сам.

2. Как использовать DBT

Создать DBT-проект

Проект DBT минимально состоит из директории с набором .sql и .yml файлов: ● модели: .sql-файл с select-выражением, описывающим либо готовую витрину, либо промежуточный шаг:

2-20219-33db89.png

3-20219-5bdba8.png

● конфигурация проекта: dbt_project.yml: — имя проекта; — профиль (например, DEV, TEST, PROD); — пути к файлам моделей; — конфигурации моделей.

4-20219-4f7070.png

Задать подключение к хранилищу

Есть возможность задать несколько профилей подключений, например, для разных сред.

Также есть возможность использовать различные алгоритмы аутентификации: password-based, Private Key, SSO, oauth, IAM (AWS).

5-20219-708875.png

Выполнять команды

Есть возможность выполнять команды через CLI-интерфейс либо через DBT Cloud (веб-интерфейс).

Примеры команд: ● debug: проверить конфигурации проекта и подключений; ● init: инициализировать новый проект; ● run: запустить расчет моделей; ● test: запустить тесты.

6-20219-249b4d.png

3. Возможности DBT

Поддерживаемые СУБД

16-20219-a7684e.png

Компилятор и планировщик заданий

DBT компилирует код для каждой созданной модели, чтобы реализовать необходимые преобразования, выполнить материализацию модели (либо как table, либо как view), при этом возможен инкрементальный расчет витрины.

Каждое действие выполняется таким образом, чтобы при ошибке никакие данные не были потеряны.

Если запрос на создание витрины выполняется успешно, новая таблица просто заменит старую, а старая будет удалена.

Шаблоны Jinja

DBT позволяет использовать богатые возможности языка шаблонов Jinja: ● ссылки на другие модели (выстраивание цепочек зависимостей); ● управляющие конструкции: конструкции if, циклы for;

8-20219-ee6085.png

● использование переменных;

9-20219-96a359.png

● изменение методов расчета моделей в зависимости от профиля конфигурации; ● переиспользуемые SQL-макросы.

10-20219-68f0a2.png

Граф зависимостей (DAG)

Ссылки на другие модели автоматически выстраивает ациклический направленный граф (DAG) зависимостей между моделями.

11-20219-067d6a.png 12-20219-75ad1e.png

4. Что еще можно делать с DBT

Автоматическое тестирование

В DBT можно задать тесты для моделей и данных. Например, для использования в CI после доработок и добавления новых фичей.

Доступны следующие виды тестов: ● Not null; ● Unique; ● Relationships; ● Accepted values.

13-20219-c401c2.png

Документация

Хорошо задокументированный код — залог успеха. DBT позволяет оставлять комментарии к моделям и затем автоматически собирать их в формате Markdown или опубликовать на сайт с документацией.

14-20219-46a0d0.png 15-20219-371236.png

Узнать больше можно здесь: ● https://github.com/fishtown-analytics/dbt; ● https://docs.getdbt.com/docs/introduction; ● https://blog.getdbt.com/what--exactly--is-dbt-/; ● https://tutorial.getdbt.com/tutorial/setting-up/; ● https://medium.com/the-telegraph-engineering/dbt-a-new-way-to-handle-data-transformation-at-the-telegraph-868ce3964eb4; ● https://odignite.wpengine.com/post/my-journey-introducing-the-data-build-tool-dbt-in-projects-analytical-stacks/.

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться
🎁 Максимальная скидка!
Черная пятница уже в OTUS! Скидка -25% на всё!