Блог BigData | OTUS
Посты
Архитектура Hadoop

Hadoop представляет собой свободно распространяемый фреймворк, а также набор утилит и библиотек. Он используется при разработке и выполнении распределённых программ, функционирующих на кластерах из множества узлов (сотен и даже тысяч). По сути, речь идёт о технологиях, предназначенных для хранения и обработки больших данных.

Как генерируются, хранятся и обрабатываются Big Data?

Большие данные в наше время берутся из различных источников. Самый простой пример — рекламные и социальные сети. Но даже если ваша компания невелика и не предоставляет свои услуги миллионам пользователей, вы всё равно сможете работать с Big Data. Собрать данные можно, например, посредством веб-скрапинга. Кроме этого, существуют сервисы, предоставляющие API для доступа к своим данным.

Роль Apache Kafka в системах обработки данных

На сегодняшний момент почти в каждой компании, которая серьезно подходит к вопросам сбора и обработки данных, есть какой-либо брокер сообщений. Это может быть AWS Kinesis, Google PubSub или какой-то еще сервис. Но если мы говорим о компаниях, размещающих сервисы не в облаке, а на своей инфраструктуре, то в качестве брокера чаще всего выступает Apache Kafka.

Эффективное сжатие колоночных данных с помощью оптимальных алгоритмов кодирования

Основы

Amazon Redshift — это база данных, предназначенная, в первую очередь, для аналитики и запросов OLAP. Одна из ее ключевых функций — хранение данных в колоночном формате (columnar storage).

Где применяются большие данные?

Сегодня термином Big Data описывают наборы данных большого объёма, которые растут с течением времени. Ценность Big Data стали понимать уже давно, поэтому многие компании, в том числе и отечественные, не жалеют денег на соответствующие проекты и специалистов. Big Data-инженеры владеют специальными инструментами для работы с большими данными, поэтому они способны собирать и обрабатывать огромные массивы информации, что необходимо для решения разнообразных прикладных задач. В этой статье мы рассмотрим, в каких именно областях сегодня востребовано популярное направление Big Data.

Elasticsearch — инструмент для сбора и анализа данных среднего объёма

photo_2021_10_07_15_37_01-1801-136f82.jpg

Если бизнес предполагает выполнение анализа статистических данных, которые поступают из разных источников, то вам в любом случае потребуется эти данные не только собирать и хранить, но и индексировать, анализировать и даже преобразовывать в другие данные. Какое решение подойдёт лучше, если речь идёт о данных среднего объёма? Об этом — наша статья.

Типы нейронных сетей. Принцип их работы и сфера применения

Искусственный интеллект и искусственные нейронные сети становятся всё популярнее. В этой статье мы рассмотрим основные разновидности нейронных сетей и поговорим о том, как они работают и где применяются. Что включает в себя понятие нейронных сетей, как происходит развитие нейронной сети с точки зрения их эксплуатации в реальной жизни.

Простейшая нейронная сеть на Python

В этой статье мы рассмотрим, как создать собственную простейшую нейронную сеть с помощью языка программирования «Питон». Мы не только создадим нейронную сеть с нуля, но и не будем использовать никаких библиотек. И займёт это всё не более девяти строчек кода на «Питоне».

Data Build Tool (DBT) для построения модели Хранилища Данных

Data_Engineer_Deep_5.5-5020-cdb819.png

1. Что такое Data Build Tool

DBT — это многофункциональный фреймворк для создания модели Хранилища Данных. В акрониме ELT (Extract, Load, Transform) DBT занимает этап T. Это инструмент для работы с данными, которые уже загружены в ваше хранилище, но над ними нужно произвести ряд преобразований, чтобы подготовить к использованию.