Какими технологиями должен владеть Data Engineer?
Как известно, Data Engineer является специалистом по загрузке, обработке и организации хранения больших данных. Давайте посмотрим, а с какими технологиями сегодня ассоциируется Big Data вообще? И какими навыками должен обладать человек, который решил стать дата-инженером.
Итак, в настоящее время при работе с большими данными используют широкий спектр технологий, которые можно условно разбить на три группы: 1) для сбора и хранения данных (БД, «облака»); 2) для анализа данных (проверка гипотез, A/B-тестирование и т. п.); 3) для визуального представления данных (графики, таблицы и т. д.).
Расскажем подробнее о некоторых наиболее важных технологиях.
1. Сбор и хранение данных:
— Apache Hadoop. Этот фреймворк хорошо известен всем, кто работает с Big Data. И это неудивительно, ведь «слонёнок» Hadoop обеспечивает работу распределённых программ на кластерах, состоящих из сотен и даже тысяч узлов; — Apache Ranger. Данный фреймворк обеспечивает безопасность данных в Hadoop; — базы данных NoSQL. Это HBase, Apache Cassandra и прочие БД, рассчитанные на создание надёжных и высокомасштабируемых и хранилищ огромных массивов данных; — Data Lakes (так называемые «озёра данных»). Речь идёт о неструктурированных хранилищах для большого количества «сырых» данных, которые не подвергались каким-нибудь изменениям перед сохранением; — базы данных In-memory. Это БД, использующие в качестве основного хранилища оперативную память компьютера.
2. Анализ данных:
— Apache Spark. Фреймворк, имеющий открытый исходный код. Используется для реализации распределённой обработки данных и входит в экосистему Hadoop; — Scikit-learn. Универсальная и бесплатная библиотека с открытым исходным кодом для анализа данных, написанная на Python; — Elasticsearch. Популярный открытый поисковый движок, который часто используется в процессе работы с большими данными.
3. Визуализация данных:
— Tableau. Система интерактивной аналитики, которая позволяет дата-инженеру быстро выполнять анализ больших массивов информации; — Google Chart. Многофункциональный набор инструментов, используемых для визуализации данных.
Освоить некоторые из вышеперечисленных инструментов, а также изучить многие другие, вы сможете на курсе «Data Engineer» в OTUS. Ждём вас на занятиях!