Data Platform как тренд | OTUS
⚡ Подписка на курсы OTUS!
Интенсивная прокачка навыков для IT-специалистов!
Подробнее

Курсы

Программирование
Алгоритмы и структуры данных Team Lead Архитектура и шаблоны проектирования Разработчик IoT C# Developer. Professional PostgreSQL Разработчик на Spring Framework
-5%
Flutter Mobile Developer NoSQL iOS Developer. Basic
-10%
C++ Developer. Basic C++ Developer. Professional Android Developer. Professional Microservice Architecture Unity Game Developer. Professional Базы данных Node.js Developer React.js Developer Специализация Java-разработчик
-25%
Web-разработчик на Python Framework Laravel Cloud Solution Architecture Vue.js разработчик Интенсив «Оптимизация в Java» Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes Супер-интенсив "Tarantool" PHP Developer. Basic
Инфраструктура
Мониторинг и логирование: Zabbix, Prometheus, ELK Administrator Linux. Professional Дизайн сетей ЦОД Разработчик IoT PostgreSQL Экспресс-курс "Версионирование и командная работа с помощью Git"
-30%
Microservice Architecture Highload Architect Специализация Administrator Linux
-25%
Network engineer Cloud Solution Architecture Внедрение и работа в DevSecOps Супер-практикум по работе с протоколом BGP Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes Супер-интенсив «СУБД в высоконагруженных системах» Супер-интенсив "Tarantool" Network engineer. Basic
Корпоративные курсы
Безопасность веб-приложений IT-Recruiter Дизайн сетей ЦОД Компьютерное зрение Разработчик IoT Вебинар CERTIPORT Machine Learning. Professional
-6%
NoSQL Пентест. Практика тестирования на проникновение Java QA Engineer. Базовый курс Руководитель поддержки пользователей в IT
-8%
SRE практики и инструменты Cloud Solution Architecture Внедрение и работа в DevSecOps Супер-практикум по работе с протоколом BGP Infrastructure as a code Супер-практикум по использованию и настройке GIT Промышленный ML на больших данных Экспресс-курс «CI/CD или Непрерывная поставка с Docker и Kubernetes» BPMN: Моделирование бизнес-процессов Основы Windows Server
Специализации Курсы в разработке Подготовительные курсы Подписка
+7 499 938-92-02

Data Platform как тренд

Большие данные появляются тогда, когда дешевле хранить информацию, чем выбросить её. К тому же, современный человек склонен к накоплению данных. Но информацию надо не только хранить, а ещё и обрабатывать, получая полезный результат. Сегодня в это инвестируют, что помогает оптимизировать процессы и повышать эффективность бизнеса. Так как же оптимизировать обработку Big Data?

Решение № 1: DWH

Когда-то было принято складывать все имеющиеся данные в структурированные хранилища — data warehouse (DWH), а потом их анализировать. Что тут следует отметить: • бизнес-требования меняются сегодня очень быстро — быстрее, чем можно прогнозировать; • возникает сложность обработки неструктурированных данных (DWH для них – явно не лучшее решение); • хранение в DWH обходится дорого. Когда в хранилище помещается вся информация, мы и платим за всё, то есть мы платим даже за ненужную информацию. А некоторые специалисты утверждают, что лишь 20-35 % хранимой информации обладает реальной пользой. Таким образом мы имеем 65-80 % «паразитных» данных.

Решение № 2: Hadoop

Около десяти лет назад недостатки DWH были учтены, в результате чего появился Hadoop, а люди перешли к обработке неструктурированных данных посредством batch-процессинга. Это снизило расходы, но и принесло ряд минусов: • неэффективная обработка структурированных данных; • результат получается не сразу, да и стоит это недёшево.

Можно сказать, что если для задач очистки данных заметно дешевле Hadoop, то при построении enterprise data warehouse заметно дешевле DWH-решения.

Решение № 3: Data Lake

Озеро данных берёт лучшее из двух вышеописанных подходов. В этом случае данные предварительно обрабатываются (проходят фильтрацию) посредством Hadoop’ов, далее данные помещаются в DWH. Казалось бы, проблемы решены. Но на деле оказалось не так всё радужно: • слишком долго. Типичный data lake включает в себя множество компонентов, которые ещё надо уметь связать. На практике интеграция разрозненных компонентов занимает много времени, не говоря уже о разработке и построении таких кейсов; • плохой ROI — соответственно, требуются большие инвестиции; • недостаток экспертов по администрированию. Как известно, разработчики любят разрабатывать, но очень не любят администрировать. То же самое и со стеками big data: персонал, обслуживающий эти платформы, зачастую не имеет достаточной квалификации в конкретных нишевых стеках.

Фабрики по обработке данных

Трендовое решение – Data Platform/data fabrics. Компонентами такой фабрики могут быть Kafka и Hadoop Spark, а также хранилище данных и пакетная обработка, которые тесно интегрированы друг с другом. Именно таковой является концепция Data Platform. Концепция экономит время для достижения результата, позволяя получать готовый кейс (допустим, для обработки антиспама и логов). Таким образом, когда компания осуществляет внедрение подобных платформ, она получает не только и не столько технологию, сколько готовые рецепты.

Взаимодействие компонентов внутри Data Platform:

data_platform_2_1-1801-f11175.png

Итак, используя Data Platform компания получает готовые рецепты. Вот их перечень: • в области Big Data: поиск возможностей на рынке, предиктивная аналитика, ad-hoc data, mining; • в сфере бизнес-аналитики: анализ операционной деятельности, озёра данных, поддержка решений, data warehousing, ad-hoc-аналитика, ETL/ELT; • в машинном обучении: нейросети, Deep learning, искусственный интеллект, распознавание образов; • в области безопасности: выявление спама в комментариях и письмах, защита от злоумышленников, fraud detection; • в ритейле и e-commerce: анализ чеков, формирование специальных предложений, внешняя монетизация, управление поставками; • в телекоммуникациях: Customer 360, обработка CDR, оптимизация расходов, предиктивная аналитика неполадок; • в сфере финансов и банковского обслуживания: онлайн- и офлайн-скоринг, fraud detection, финансовый анализ.

Статья написана по материалам блога MCS.Mail.ru.

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться