Профессии в Data Science

Две базовые профессии в Data Science — это инженер данных (data engineer) и дата сайентист (data scientist). Если совсем кратко, то дата сайентист занимается построением моделей, инженер данных обеспечивает дата сайентиста данными.

Если рассмотреть работу инженера данных более подробно, то можно выделить следующие категории работ и работы в этих категориях (см. картинку Data Science Hierarchy Of Needs):

  • категория «Move/Store» (хранение и перемещение данных)
  • хранилища структурированных и неструктурированных данных
  • конвейеры и ETL
  • инфраструктура данных
  • надежные потоки данных
  • категория «Explore/Transform» (изучение и подготовка)
  • очистка
  • работа с аномалиями
  • подготовка данных

Типичный инструментарий инженера данных включает:

  • python — основной язык
  • желательны более «быстрые» языки (Scala/Java/C++)
  • jupter notebook — основной рабочий инструмент (DE и DS)
  • Spark — основной фреймворк для работы с данными
  • hdfs, Hive — основное хранилище
  • noSQL часто требуется
  • SQL — работа с источниками структурированых данных
  • файлы, Kafka — источники (неструктурированные данные)
  • Airflow — оркестрация конвейеров обработки данных
  • NiFi, StreamSets — потоковая обработка

Контакты авторизированного учебного центра
«Школа Больших Данных»
Адрес:
127576, г. Москва, м. Алтуфьево, Илимская ул. 5 корпус 2, офис 319, БЦ «Бизнес-Депо»
Часы работы:
Понедельник - Пятница: 09.00 – 18.00
Остались вопросы?
Звоните нам +7 (495) 414-11-21 или отправьте сообщение через контактную форму. Также вы можете найти ответы на ваши вопросы в нашем сборнике часто задаваемых вопросов.
Оставьте сообщение, и мы перезвоним вам в течение рабочего дня
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Или напишите нам в соц.сетях
Поиск по сайту