Статьи

Интервью с директором по Data Science GoodsForecast Евгением Голубятниковым

8 февраля в России стартовал Год науки и технологий, так как деятельность компании GoodsForecast тесно связана с математической школой, с Вычислительным центром РАН, мы решили поговорить с одним из наших коллег, директором по Data Science Евгением Голубятниковым о первых шагах в профессии и об участии в крупнейшем международном конкурсе по прогнозированию M5 Forecasting Competition.

Женя, привет, хотелось бы начать с самых основ. Как ты пришел в Data Science Есть ли у твоего прихода в профессию какая-то захватывающая история?

Привет!
Вообще говоря, по образованию я скорее программист, нежели математик или аналитик. Мое знакомство с областью «анализ данных» началось в первые годы обучения в аспирантуре. В рамках диссертации я исследовал различные методы математической статистики, и меня в большей степени интересовала их практическая применимость. Во время очередного обзора наткнулся на статьи Александра Дьяконова, и через его блог узнал о том, что существует платформа Kaggle и на ней соревнуются исследователи со всего мира в решении прикладных статистических задач, полезных для бизнеса. Звучало захватывающе. Это был 2013 год, и, кажется, термин «Data Science» тогда даже не употреблялся.
Чуть позже я прошел известный курс лекций К. В. Воронцова по машинному обучению, и понял, что хочу именно такими задачами заниматься на работе. Но вот где таких людей ищут я тогда не понимал, и просто решил узнать, а где же работает Константин Вячеславович. Оказалось, что работает он в группе компаний «Форексис», и я, недолго думая, отправил туда резюме. Пройдя пару собеседований, получил оффер в GoodsForecast на свою первую работу в качестве аналитика данных. В итоге получилось задержаться в компании надолго

Есть ли у тебя кумир в мире науки?

Я, пожалуй, не смогу выделить кумиров. Область машинного обучения взрывными темпами развивается в последние годы, и есть ряд исследователей, работы которых я стараюсь не пропускать.
Но, наверное, могу отметить несколько персоналий, за которыми я стараюсь следить не только с научной точки зрения. В первую очередь – это Андрей Карпатый и Ян Гудфеллоу. Являясь достаточно известными исследователями, можно даже сказать учеными, они серьезно преуспели и в практической применимости своих знаний и навыков. И сегодня занимают посты директоров по машинному обучению и искусственному интеллекту хорошо известных нам корпораций – Tesla и Apple соответственно. То, что сегодня в нашей области выходцы из науки могут занимать такие высокие позиции, да и еще в достаточно молодом возрасте, мне кажется очень крутым.

Еще хочется подробнее поговорить про M5, прошло уже полгода как завершился конкурс. Расскажи пожалуйста, как проходили этапы конкурса, насколько сильным было волнение, что вообще больше всего запомнилось за весь конкурс?

С удовольствием расскажу – это одно из ярких впечатлений прошлого года. И я очень благодарен руководству компании, которое предоставило нам возможность поучаствовать в этом замечательном конкурсе.
M5 Forecasting Competition – это соревнования по прогнозированию, которые проводятся с 1982 года. Основная их задача – понять, какие из современных методов прогнозирования позволяют наиболее точно решать поставленную задачу. M5 – это пятый по счету конкурс, который впервые проводился на Kaggle, что позволило привлечь несколько тысяч участников из 101 страны.
Задача состояла в прогнозировании продаж в гипермаркетах американской сети Walmart для примерно 40 тысяч временных рядов. Конкурс проводился в два этапа. На первом, предварительном этапе был доступен рейтинг и участники могли видеть оценку точности всех своих прогнозов, и сравнивать ее с точностью прогнозов своих коллег, понимая насколько они преуспевают в соревновании. Второй, основной, этап уже проходил «вслепую», мы не могли узнать качество своих прогнозов и прогнозов других ребят вплоть до объявления финальных результатов.
Запоминающимся было и само соревнование – мы три месяца соревновались с лучшими умами со всего мира, в постоянной и жесткой конкуренции. Но наибольшие впечатления мы получили после объявления победителей. Это происходило глубокой ночью, и об итогах мы с командой узнали только с утра – были очень приятно удивлены . Нам удалось занять второе место в одном из треков, и десятое – в другом.

Что глобально и локально показал конкурс M5?

Организаторы конкурса задавались вопросом – какие методы сегодня лучше всего решают задачу прогнозирования? И в последние годы основной спор здесь был между «классическими» методами обработки временных рядов и современными методами машинного обучения. Предыдущее соревнование показало, что ML уже является неотъемлемой составляющей решения задачи, а в M5 все топовые решения используют машинное обучение в своей основе. Это очень интересный результат для последующего развития области прогнозирования.
Нам же этот конкурс позволил убедиться в том, что мы находимся на правильном пути в развитии наших алгоритмов. Второе место мы заняли как раз используя один из алгоритмов, разработанный нашей командой. Кроме того, нам помог многолетний опыт решения подобных задач для наших клиентов и большая экспертиза в области прогнозирования для ритейла.

Ну и напоследок, что бы ты пожелал молодому поколению, студентам, которые хотят работать и развиваться в Data Science?

Область анализа данных и машинного обучения сейчас у всех на слуху. И мы видим, что многие начинающие специалисты выбирают именно Data Science отправной точкой своей карьеры. Этот ажиотаж имеет и обратную сторону – многие ребята выбирают нашу область, не до конца осознавая суть профессии и то, чем предстоит заниматься каждый день. И по моему опыту отсутствие этой осознанности может приводить к некоторому разочарованию. Поэтому первый совет – если вы планируете идти по направлению анализа данных, то начните с внимательного изучения: в чем же состоят задачи, какие специфичные области этих задач можно выделить, и что в них вас привлекает больше всего. Если вдруг после погружения вы обнаружите, что все не так радужно, и вместо непрерывного обучения нейронных сетей большую часть времени придется, засучив рукава, чистить данные или разбираться в специфике бизнес-задачи, и это не для вас – ничего страшного. Мне кажется лучше заниматься тем, что приносит радость и удовольствие.
Если же вы готовы ко всем сложностям науки о данных – замечательно, тогда второй совет – набраться терпения. Помимо большой работы с данными, вам предстоит изучение огромного массива литературы – повторюсь, область очень бурно развивается и каждый день появляется что-то новое.
Если и это по плечу, то финальный совет – приходите работать в GoodsForecast Мы находимся практически в постоянном поиске талантливых ребят, которые могут усилить нашу команду.

Сообщение отправлено!
Наши специалисты свяжутся с вами в ближайшее время.
Заполните форму
и получите ссылку на скачивание Партнерской программы