Две базовые профессии в Data Science — это инженер данных (data engineer) и дата сайентист (data scientist). Если совсем кратко, то дата сайентист занимается построением моделей, инженер данных обеспечивает дата сайентиста данными.
Если рассмотреть работу инженера данных более подробно, то можно выделить следующие категории работ и работы в этих категориях (см. картинку Data Science Hierarchy Of Needs):
- категория «Move/Store» (хранение и перемещение данных)
- хранилища структурированных и неструктурированных данных
- конвейеры и ETL
- инфраструктура данных
- надежные потоки данных
- категория «Explore/Transform» (изучение и подготовка)
- очистка
- работа с аномалиями
- подготовка данных
Типичный инструментарий инженера данных включает:
- python — основной язык
- желательны более «быстрые» языки (Scala/Java/C++)
- jupter notebook — основной рабочий инструмент (DE и DS)
- Spark — основной фреймворк для работы с данными
- hdfs, Hive — основное хранилище
- noSQL часто требуется
- SQL — работа с источниками структурированых данных
- файлы, Kafka — источники (неструктурированные данные)
- Airflow — оркестрация конвейеров обработки данных
- NiFi, StreamSets — потоковая обработка