Мы уже вкратце рассказывали об архитектуре Hadoop, и о том, что основными компонентами этой экосистемы являются HDFS и MapReduce. В этой статье поговорим о принципах работы Hadoop.
Мы уже вкратце рассказывали об архитектуре Hadoop, и о том, что основными компонентами этой экосистемы являются HDFS и MapReduce. В этой статье поговорим о принципах работы Hadoop.
Большие данные появляются тогда, когда дешевле хранить информацию, чем выбросить её. К тому же, современный человек склонен к накоплению данных. Но информацию надо не только хранить, а ещё и обрабатывать, получая полезный результат. Сегодня в это инвестируют, что помогает оптимизировать процессы и повышать эффективность бизнеса. Так как же оптимизировать обработку Big Data?
Hadoop представляет собой свободно распространяемый фреймворк, а также набор утилит и библиотек. Он используется при разработке и выполнении распределённых программ, функционирующих на кластерах из множества узлов (сотен и даже тысяч). По сути, речь идёт о технологиях, предназначенных для хранения и обработки больших данных.
Большие данные в наше время берутся из различных источников. Самый простой пример — рекламные и социальные сети. Но даже если ваша компания невелика и не предоставляет свои услуги миллионам пользователей, вы всё равно сможете работать с Big Data. Собрать данные можно, например, посредством веб-скрапинга. Кроме этого, существуют сервисы, предоставляющие API для доступа к своим данным.
На сегодняшний момент почти в каждой компании, которая серьезно подходит к вопросам сбора и обработки данных, есть какой-либо брокер сообщений. Это может быть AWS Kinesis, Google PubSub или какой-то еще сервис. Но если мы говорим о компаниях, размещающих сервисы не в облаке, а на своей инфраструктуре, то в качестве брокера чаще всего выступает Apache Kafka.
Amazon Redshift — это база данных, предназначенная, в первую очередь, для аналитики и запросов OLAP. Одна из ее ключевых функций — хранение данных в колоночном формате (columnar storage).
Сегодня термином Big Data описывают наборы данных большого объёма, которые растут с течением времени. Ценность Big Data стали понимать уже давно, поэтому многие компании, в том числе и отечественные, не жалеют денег на соответствующие проекты и специалистов. Big Data-инженеры владеют специальными инструментами для работы с большими данными, поэтому они способны собирать и обрабатывать огромные массивы информации, что необходимо для решения разнообразных прикладных задач. В этой статье мы рассмотрим, в каких именно областях сегодня востребовано популярное направление Big Data.
Если бизнес предполагает выполнение анализа статистических данных, которые поступают из разных источников, то вам в любом случае потребуется эти данные не только собирать и хранить, но и индексировать, анализировать и даже преобразовывать в другие данные. Какое решение подойдёт лучше, если речь идёт о данных среднего объёма? Об этом — наша статья.
Мы уже упоминали про показатель Херста. Однако существует и иной метод его вычисления — «метод нормированного размаха». О нём и поговорим.
Искусственный интеллект и искусственные нейронные сети становятся всё популярнее. В этой статье мы рассмотрим основные разновидности нейронных сетей и поговорим о том, как они работают и где применяются. Что включает в себя понятие нейронных сетей, как происходит развитие нейронной сети с точки зрения их эксплуатации в реальной жизни.