Блог BigData → Полезные материалы по BigData | OTUS

Курсы

Курсы в разработке Подготовительные курсы
Работа в компаниях Компаниям Блог +7 499 110-61-65
«Правильное» время в системах потоковой аналитики

Data_engineer_Deep_4.9-5020-b25165.png

Сегодня поговорим об одной концепции, которая распространена в разных фреймворках обработки данных и является очень важной для дата-инженеров, разрабатывающих системы потоковой аналитики.

В России не хватает инженеров данных

Data_Engineer_Deep_1.08_site-5020-d518bd.png

Машинное обучение и нейросети показали миру, насколько они эффективны во многих сферах. Однако алгоритмы сами по себе выдающийся результат не покажут. Это возможно лишь в том случае, если их обучить на большом количестве данных. И данные эти должны быть качественные.

Оптимизируем расчёты в распределённых хранилищах

Data_Engineer_Deep_20.5_site-5020-545b47.png

Рано или поздно вы столкнётесь с моментом, когда pipeline’ы начнут разваливаться, появятся ужасные bottleneck’и, пользователи начнут жаловаться на медленную работу, а витрины для CEO не будут рассчитаны к 9.00 утра. И лучше быть готовым к этому моменту.

Зачем дата-инженеру нужен оркестратор?

Data_Engineer_Deep_13.5_site-5020-c79aa0.png

Несмотря на быстрое развитие инструментов потоковой (streaming) аналитики, значительная часть расчётов по-прежнему выполняется в пакетном (batch) режиме. Это приводит к появлению большого числа повторяющихся задач, которые нужно запускать каждый час/день/месяц.

Популярное
Сегодня тут пусто