Блог BigData → Полезные материалы по BigData | OTUS
⚡ Открываем подписку на курсы!
Проходите параллельно 3 онлайн-курса в месяц по цене одного.
Подробнее

Курсы

Программирование
Backend-разработчик на PHP Scala-разработчик Алгоритмы и структуры данных Backend-разработка на Kotlin Team Lead Разработчик Python. Базовый курс C# ASP.NET Core разработчик
-25%
iOS-разработчик. Базовый курс
-25%
Супер - интенсив по паттернам проектирования
-16%
Мобильная разработка на Flutter
-15%
React.js разработчик
-12%
MS SQL Server разработчик Нереляционные базы данных
-17%
VOIP инженер Базы данных Fullstack разработчик JavaScript AWS для разработчиков Cloud Solution Architecture Разработчик игр на Unity Архитектура и шаблоны проектирования Agile Project Manager в IT Интенсив «Оптимизация в Java» Супер - интенсив по Kubernetes
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02
Где применяются большие данные?

Сегодня термином Big Data описывают наборы данных большого объёма, которые растут с течением времени. Ценность Big Data стали понимать уже давно, поэтому многие компании, в том числе и отечественные, не жалеют денег на соответствующие проекты и специалистов. Big Data-инженеры владеют специальными инструментами для работы с большими данными, поэтому они способны собирать и обрабатывать огромные массивы информации, что необходимо для решения разнообразных прикладных задач. В этой статье мы рассмотрим, в каких именно областях сегодня востребовано популярное направление Big Data.

Elasticsearch — инструмент для сбора и анализа данных среднего объёма

Если бизнес предполагает выполнение анализа статистических данных, которые поступают из разных источников, то вам в любом случае потребуется эти данные не только собирать и хранить, но и индексировать, анализировать и даже преобразовывать в другие данные. Какое решение подойдёт лучше, если речь идёт о данных среднего объёма? Об этом — наша статья.

Типы нейронных сетей. Принцип их работы и сфера применения

Искусственный интеллект и искусственные нейронные сети становятся всё популярнее. В этой статье мы рассмотрим основные разновидности нейронных сетей и поговорим о том, как они работают и где применяются. Что включает в себя понятие нейронных сетей, как происходит развитие нейронной сети с точки зрения их эксплуатации в реальной жизни.

Простейшая нейронная сеть на Python

В этой статье мы рассмотрим, как создать собственную простейшую нейронную сеть с помощью языка программирования «Питон». Мы не только создадим нейронную сеть с нуля, но и не будем использовать никаких библиотек. И займёт это всё не более девяти строчек кода на «Питоне».

Data Build Tool (DBT) для построения модели Хранилища Данных

Data_Engineer_Deep_5.5-5020-cdb819.png

1. Что такое Data Build Tool

DBT — это многофункциональный фреймворк для создания модели Хранилища Данных. В акрониме ELT (Extract, Load, Transform) DBT занимает этап T. Это инструмент для работы с данными, которые уже загружены в ваше хранилище, но над ними нужно произвести ряд преобразований, чтобы подготовить к использованию.

Доверяй, но проверяй: почему нужно проводить А/B-тестирование

ML_Deep_17.2-5020-dd37cc.png

«Матемаркетинг» — конференция по маркетинговой аналитике. В этом году Think with Google Russia — её информационный партнёр. Среди главных тем «Матемаркетинга»: анализ данных в digital-маркетинге, алгоритмический маркетинг и оптимизация маркетинговых задач. В прошлом году мне приходилось выступать на этой конференции в качестве Head of Data Science из Х5 Retail Group с докладом о методах А/B-тестирования. В этой статье представлены подробности выступления.

Устойчивость материальных систем

Math_Deep_14.1-5020-5150d6.png

Устойчивость – одна из важнейших характеристик материальных систем. Под устойчивостью понимают способность системы сохранять своё состояние в условиях возмущающего воздействия среды. Исследование устойчивого и неустойчивого поведения ряда осуществляться на основе анализа поведения системы во времени после воздействия какого-нибудь возмущения.

Алгоритм Грассбергера – Прокаччиа: вычисляем корреляционную размерность

Math_DS_Deep_30.12-5020-60a9b4.png Основой данного метода является восстановление иного, но «похожего» на исходный аттрактор последовательным сдвигом. Алгоритм Грассбергера – Прокаччиа состоит в следующем:

«Правильное» время в системах потоковой аналитики

Data_engineer_Deep_4.9-5020-b25165.png

Сегодня поговорим об одной концепции, которая распространена в разных фреймворках обработки данных и является очень важной для дата-инженеров, разрабатывающих системы потоковой аналитики.