Блог BigData | OTUS
👋 Канал OTUS в Telegram!
Посты от приглашенных гостей из IT-тусовки, полезные статьи, подборки вакансий от партнеров ➞
Подробнее

Курсы

Программирование
Разработчик игр на Unity
-40%
Vue.js разработчик
-40%
React.js разработчик
-40%
Архитектор программного обеспечения
-40%
Архитектура и шаблоны проектирования
-40%
Разработчик C++
-40%
Разработчик Node.js
-40%
Scala-разработчик
-30%
Backend-разработка на Kotlin
-30%
Программист 1С
-30%
Symfony Framework
-30%
Разработчик на Spring Framework
-20%
Разработчик Golang
-25%
C# ASP.NET Core разработчик
-25%
iOS-разработчик. Базовый курс
-25%
VOIP инженер Базы данных AWS для разработчиков Cloud Solution Architecture Agile Project Manager в IT Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02
Посты
Лучшие способы убить производительность аналитической СУБД

Data_Engineer_Deep_31.10-5020-98bacd.png

В основе современных аналитических СУБД и распределённых систем обработки данных лежит ряд ключевых принципов. Если Инженер Данных сможет постичь их суть и успешно использовать, то он постигнет дзен, обретёт спокойствие и уверенность в завтрашнем дне.

Оптимизируем расчёты в распределённых хранилищах

Data_Engineer_Deep_8.11-5020-d3ac84.png

Рано или поздно вы столкнётесь с моментом, когда pipeline’ы начнут разваливаться, появятся ужасные bottleneck’и, пользователи начнут жаловаться на медленную работу, а витрины для CEO не будут рассчитаны к 9.00 утра. И лучше быть готовым к этому моменту.

Зачем дата-инженеру нужен оркестратор?

Data_Engineer_Deep_13.5_site-5020-c79aa0.png

Несмотря на быстрое развитие инструментов потоковой (streaming) аналитики, значительная часть расчётов по-прежнему выполняется в пакетном (batch) режиме. Это приводит к появлению большого числа повторяющихся задач, которые нужно запускать каждый час/день/месяц.

Анализ и прогнозирование временных рядов

DS_Deep_14.12_site-5020-829ba6.png

Анализ временных рядов — тема, достойная отдельного освещения в рамках изучения Data Science. К сожалению, ей уделено мало места в стандартных программах ВУЗов, зато она повсеместно встречается на практике.

LogSumExp трюк

DS_Deep_8.08_site.png

Очень часто в задачах машинного обучения у нас следующая задача. Дан массив чисел: Снимок экрана 2018-08-01 в 16.11.16.pngНадо посчитать величину: Снимок экрана 2018-08-01 в 16.11.40.pngНеобходимость подсчёта такого выражения возникает например в EM-алгоритме на E-шаге, когда мы считаем апостериорное распределение на скрытые переменные.