Блог BigData | OTUS
Посты
Доверяй, но проверяй: почему нужно проводить А/B-тестирование

ML_Deep_17.2-5020-dd37cc.png

«Матемаркетинг» — конференция по маркетинговой аналитике. В этом году Think with Google Russia — её информационный партнёр. Среди главных тем «Матемаркетинга»: анализ данных в digital-маркетинге, алгоритмический маркетинг и оптимизация маркетинговых задач. В прошлом году мне приходилось выступать на этой конференции в качестве Head of Data Science из Х5 Retail Group с докладом о методах А/B-тестирования. В этой статье представлены подробности выступления.

Устойчивость материальных систем

Math_Deep_14.1-5020-5150d6.png

Устойчивость – одна из важнейших характеристик материальных систем. Под устойчивостью понимают способность системы сохранять своё состояние в условиях возмущающего воздействия среды. Исследование устойчивого и неустойчивого поведения ряда осуществляться на основе анализа поведения системы во времени после воздействия какого-нибудь возмущения.

Алгоритм Грассбергера – Прокаччиа: вычисляем корреляционную размерность

Math_DS_Deep_30.12-5020-60a9b4.png Основой данного метода является восстановление иного, но «похожего» на исходный аттрактор последовательным сдвигом. Алгоритм Грассбергера – Прокаччиа состоит в следующем:

«Правильное» время в системах потоковой аналитики

Data_engineer_Deep_4.9-5020-b25165.png

Сегодня поговорим об одной концепции, которая распространена в разных фреймворках обработки данных и является очень важной для дата-инженеров, разрабатывающих системы потоковой аналитики.

В России не хватает инженеров данных

Data_Engineer_Deep_1.08_site-5020-d518bd.png

photo_2021_10_06_17_53_42-1801-8e2b15.jpg

Машинное обучение и нейросети показали миру, насколько они эффективны во многих сферах. Однако алгоритмы сами по себе выдающийся результат не покажут. Это возможно лишь в том случае, если их обучить на большом количестве данных. И данные эти должны быть качественные.

Лучшие способы убить производительность аналитической СУБД

Data_Engineer_Deep_31.10-5020-98bacd.png

В основе современных аналитических СУБД и распределённых систем обработки данных лежит ряд ключевых принципов. Если Инженер Данных сможет постичь их суть и успешно использовать, то он постигнет дзен, обретёт спокойствие и уверенность в завтрашнем дне.

Оптимизируем расчёты в распределённых хранилищах

Data_Engineer_Deep_8.11-5020-d3ac84.png

Рано или поздно вы столкнётесь с моментом, когда pipeline’ы начнут разваливаться, появятся ужасные bottleneck’и, пользователи начнут жаловаться на медленную работу, а витрины для CEO не будут рассчитаны к 9.00 утра. И лучше быть готовым к этому моменту.

Зачем дата-инженеру нужен оркестратор?

Data_Engineer_Deep_13.5_site-5020-c79aa0.png

photo_2021_10_06_17_53_42-1801-8e2b15.jpg

Несмотря на быстрое развитие инструментов потоковой (streaming) аналитики, значительная часть расчётов по-прежнему выполняется в пакетном (batch) режиме. Это приводит к появлению большого числа повторяющихся задач, которые нужно запускать каждый час/день/месяц.