В России не хватает инженеров данных
Машинное обучение и нейросети показали миру, насколько они эффективны во многих сферах. Однако алгоритмы сами по себе выдающийся результат не покажут. Это возможно лишь в том случае, если их обучить на большом количестве данных. И данные эти должны быть качественные.
Хороших инженеров данных сегодня мало
Data engineering появился в стране относительно недавно. Это были компании-лидеры отечественной Data Science (банки, ритейлеры, телеком, e-commerce). То есть те, кто генерирует на единицу времени больше всего данных. Например, в том же Сбербанке инженеры выполняют обработку данных из сотен хранилищ. В таких компаниях Data engineering — жизненная необходимость, особенно если говорить о внедрении моделей машинного обучения.
Специфика сегодняшнего российского Data engineering заключается в остром кадровом голоде, о чём всё чаще говорят рекрутеры крупнейших компаний. У нас просто катастрофически не хватает хороших Data engineers. Почему?
Есть как минимум 2 причины: 1. Качественную экспертизу в построении Big Data-инфраструктуры на рынке можно пересчитать по пальцам. Да что там говорить, большинство компаний просто не знают, каким образом должен выглядеть качественный пайплайн обработки данных. Раз не знают — не могут чётко обозначить требования к потенциальным инженерам. 2. Многие инженеры данных, увы, покидают Россию, уезжая в зарубежные компании. Впрочем, такова тенденция и для многих отечественных айтишников — молодой талант из региона сначала приезжает в Москву, а потом за рубеж. Тем более языковой барьер отсутствует. Что касается инженеров данных, то ситуация схожа. Причём уезжают не только проверенные эксперты, но и те, кто получил совсем незначительный опыт работы в этой области.
Можно ли обойтись Data scientists?
Нет, практика показывает, что одними лишь Data scientists не может обойтись ни одна крупная компания. Дело в том, что инженеры данных повышают эффективность работы Data scientists. Говоря о последних, можно вспомнить, что ещё несколько лет назад при поступлении на работу в качестве Data scientist можно было прочитать что-то вроде: «Будьте готовы уделять 80% своего времени сбору, обработке и очистке данных». То есть Data scientist тратит на свою основную деятельность лишь 20% времени, что нередко приводит к потере мотивации.
Также можно отметить, что чем больше Data scientist тратит времени на обработку данных, тем меньше у него остаётся времени на поиск взаимосвязей в данных, и тем меньше вероятность того, что получится действительно качественная модель. Тут уместно вспомнить и про принцип «garbage in — garbage out»: если моделям на вход подавать некачественные данные, не стоит ожидать качественного результата.
Слава богу, существование этой проблемы осознали, поэтому компании и начали активно искать инженеров данных, благодаря которым аналитик Data scientist будет своё свободное время посвящать именно построению моделей.
Вывод прост: сегодня ни одна серьёзная data-driven компания не сможет обойтись только Data scientists. Очень нужны также и люди, которые специализируются на организации процесса сбора данных, занимаются их предобработкой.
А теперь вывод номер два: без Data engineers модели Data scientists ценности для бизнеса не несут. Ведь в большинстве случаев результат работы Data scientist — скрипт с моделью, ценность которой сама по себе условна. И топ-менеджерам по большому счету всё равно, какой log loss получили на кросс-валидации. Гораздо важнее, какую прибыль принесёт продукт. На первом плане прибыль, а не модель, которая за всем стоит.
Таким образом, Data engineer — залог удовлетворения потребностей и руководства, и клиентов. Без дата-инженера компании очень сложно обеспечить качественный переход к data-driven бизнес-модели, ведь Data engineer отвечает и за инфраструктуру, и за внедрение моделей в production.
Да, в некоторых фирмах Data scientists по-прежнему работают end-to-end, занимаясь и обработкой данных, и построением моделей, и доведением их до стадии готового продукта. Но современная тенденция такова, что один супермен, который занимается всем, становится пережитком прошлого.
Материал подготовлен специально для OTUS на основании интервью Артёма Пичугина, руководителя программ по большим данным в Newprolab.