На вебинаре мы познакомились с Python и средой разработки Jupiter Notebook; а также узнали, какие бывают типы данных и виды арифметических операций.
На вебинаре научились выводить данные на графики, поработали с Jupyter Notebook и разобрали популярные Python-библиотеки для визуализации данных: Matplotlib, Seaborn, Plotly. Как итог — создадали понятный и полезный график с данными, чтобы закрепить полученные знания на практике.
На бесплатном двухдневном интенсиве обсудили: Extract-Load через SaaS решения. Возможности готовых сервисов, их надежность и ограничения; Extract-Load через API-вызовы, обращения к СУБД и CDC – оптимальные способы реализации; Автоматизация выгрузки, повторные попытки (retries), получение уведомлений в Slack (notifications) с помощью Airflow; Накопление истории выгрузок и организация Data Lake в S3 перед DWH.
На открытом уроке мы подробно разобрали, что такое платформы Оркестрации, какие решения есть сегодня на рынке и углубились в практический пример использования одной из самых распространенных платформ на сегодня: Apache Airflow.
На открытом уроке обсудили темы: поиск дубликатов в CV; постановка задачи поиска дубликатов; выбор метода векторизации в CV; анализ сущестующих методов поиска ближайших соседей: brute force, HNSW; оценка качества дедубликации и детали практической реализации.
Написать большое количество ML пайплайнов и скриптов — это еще полдела. Как это менеджерить? Как запускать с максимальным удобством? AifFlow легко решает эту проблему.