Запись открытого занятия курса «Data Engineer»
На сегодняшний день инструменты Оркестрации — это отраслевой стандарт для организации получения, обработки и сохранения данных из сотен и даже тысяч разнородных источников с разнообразной частотой обновления и природой.
Сценарии использования платформ Оркестрации разнообразны: вы можете просто организовать регулярные select -> group by-> insert
из production базы данных в «холодную» реплику под аналитику, а можете написать целый сервис, который будет раз в час обновлять данные, дообучать ML-модель и поставлять актуальные прогнозные значения конечным пользователям.
Данная технология — неотъемлемый инструмент в арсенале современного Data Engineer и администратора вычислительного кластера.
На открытом уроке мы подробно разобрали, что такое платформы Оркестрации, какие решения есть сегодня на рынке и углубились в практический пример использования одной из самых распространенных платформ на сегодня: Apache Airflow.
Спикер: Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта и in-house лидера Data Engineering и Data Science-проектов
Читайте на Хабр:
Современный дата-стек: прошлое, настоящее и будущее
Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты
Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker