Что такое DWH?

Многим из нас периодически приходилось слышать три магические буквы DWH. Давайте посмотрим, что это такое и чем отличается DWH от обычных баз данных.

DWH расшифровывается как data warehouse, из чего легко догадаться, что аббревиатура имеет отношение к данным. Однако DWH отличается от простых баз данных. По сути, data warehouse — это склад данных, причем данных, которые нужны и важны для принятия решений в компании. Но, согласитесь, СУБД тоже содержат важные данные о клиентах, складских запасах, покупках и пр. Так где же граница между DWH и обычной БД?

Разница следующая:

  1. Типы хранимых данных. Простые СУБД хранят данные строго для конкретных подсистем. То есть БД склада хранит данные о складских запасах и ничего более. Если это БД отдела кадров, то тут хранятся данные по персоналу, но уж точно не данные о товарах и сделках. Что касается DWH, то тут обычно хранится информацию разных подразделений, то есть данные и по складу, и по товарам, и по сделкам, и по персоналу.
  2. Объемы данных. Простая база данных, которую ведут в рамках стандартной деятельности компании, включает в себя лишь актуальную информацию, то есть данные, нужные в текущий момент времени для функционирования конкретной системы. А вот в DWH пишут не столько копии актуальных состояний, сколько агрегированные значения и данные исторического характера. К примеру, это могут быть запасы различных категорий товаров за последние 5 лет. Или полные данные по сделкам и продажам. В общем все данные, имеющие критическое значение для бизнеса.
  3. Место в рабочих процессах. Как правило, поступающая информация сразу попадает в рабочие БД, а уже оттуда часть записей поступает в DWH. То есть склад данных, по большему счету, отражает состояние других баз данных и бизнес-процессов в компании, причем эти данные отражаются после того, как будут внесены изменения в рабочих БД.

Делаем вывод

Говоря простыми словами, DWH представляет собой систему данных, которая отделена от оперативной системы обработки данных в компании. То есть речь идет о корпоративных хранилищах, где хранятся архивные данные в удобном для анализа виде. Как было сказано выше, это могут быть данные из разных, порой даже очень разнородных источников. При этом данные перед сохранением предварительно обрабатываются. Из загрузка осуществляется вследствие ETL-процессов по извлечению, преобразованию и загрузке. Если же сказать совсем упрощенно, то решения ETL и DWH — это единая система, предназначенная для хранения корпоративной информации и работы с ней.

По материалам https://mcs.mail.ru/blog/.