Какими технологиями должен владеть Data Engineer? | OTUS

Какими технологиями должен владеть Data Engineer?

Data_Engineer_Deep_28.4-5020-e80c40.png

photo_2021_10_06_17_53_42-1801-8e2b15.jpg

Как известно, Data Engineer является специалистом по загрузке, обработке и организации хранения больших данных. Давайте посмотрим, а с какими технологиями сегодня ассоциируется Big Data вообще? И какими навыками должен обладать человек, который решил стать дата-инженером.

Итак, в настоящее время при работе с большими данными используют широкий спектр технологий, которые можно условно разбить на три группы: 1) для сбора и хранения данных (БД, «облака»); 2) для анализа данных (проверка гипотез, A/B-тестирование и т. п.); 3) для визуального представления данных (графики, таблицы и т. д.).

Расскажем подробнее о некоторых наиболее важных технологиях.

1. Сбор и хранение данных:

Apache Hadoop. Этот фреймворк хорошо известен всем, кто работает с Big Data. И это неудивительно, ведь «слонёнок» Hadoop обеспечивает работу распределённых программ на кластерах, состоящих из сотен и даже тысяч узлов; — Apache Ranger. Данный фреймворк обеспечивает безопасность данных в Hadoop; — базы данных NoSQL. Это HBase, Apache Cassandra и прочие БД, рассчитанные на создание надёжных и высокомасштабируемых и хранилищ огромных массивов данных; — Data Lakes (так называемые «озёра данных»). Речь идёт о неструктурированных хранилищах для большого количества «сырых» данных, которые не подвергались каким-нибудь изменениям перед сохранением; — базы данных In-memory. Это БД, использующие в качестве основного хранилища оперативную память компьютера.

2. Анализ данных:

Apache Spark. Фреймворк, имеющий открытый исходный код. Используется для реализации распределённой обработки данных и входит в экосистему Hadoop; — Scikit-learn. Универсальная и бесплатная библиотека с открытым исходным кодом для анализа данных, написанная на Python; — Elasticsearch. Популярный открытый поисковый движок, который часто используется в процессе работы с большими данными.

3. Визуализация данных:

Tableau. Система интерактивной аналитики, которая позволяет дата-инженеру быстро выполнять анализ больших массивов информации; — Google Chart. Многофункциональный набор инструментов, используемых для визуализации данных.

Освоить некоторые из вышеперечисленных инструментов, а также изучить многие другие, вы сможете на курсе «Data Engineer» в OTUS. Ждём вас на занятиях!

photo_2021_10_06_17_53_42-1801-8e2b15.jpg

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться
Популярное
Сегодня тут пусто