Этой статьей мы продолжаем серию материалов по ИТ-специальностям мира больших данных и начинаем описывать профессиональные компетенции в области Big Data и машинного обучения (Machine Learning). Ищите в сегодняшнем выпуске ответ на главный вопрос новичка Big Data – с чего начать, что нужно знать и уметь, а также где этому учиться – ликбез для чайников и начинающих.
Профессиональные направления в мире Big Data
Под термином «большие данные» скрывается множество понятий: от непосредственно самих информационных массивов до технологий по их сбору, обработке, анализу и хранению. Поэтому, прежде чем пытаться объять необъятное в стремлении изучить все, что относится к Big Data, выделим в этой области знаний следующие направления:
- аналитика – формулирование гипотез, визуализация информации, поиск закономерностей в наборе данных (датасете), подготовка информации к моделированию, разработка алгоритмов машинного обучения (Machine Learning) и интерпретация их результатов. Здесь задействованы аналитики и ученые по данным или исследователи данных (Data Analyst и Data Scientist), а также специалисты по машинному обучению. Помимо задач, связанных непосредственно с датасетами (Data Science, Data Mining), иногда аналитики также выполняют обязанности по анализу предметной области и бизнес-процессов (Business Intelligence). Все это необходимо для точного понимания потребностей заказчика, чтобы определиться с независимыми переменными, которые нужны для построения аналитических или предиктивных моделей. Подробнее про работу аналитика Big Data, набор его профессиональных компетенций и зарплату читайте здесь. А чем Data Analyst отличается от Data Scientist’а, мы рассказываем в этой статье.
- инженерия – создание, настройка и поддержка программно-аппаратной инфраструктуры для систем сбора, обработки, аналитики и хранения информационных потоков и массивов, включая конфигурирование локальных и облачных кластеров. За эти процессы отвечают администратор и инженер Big Data. Чем отличается работа администратора больших данных от деятельности сисадмина, мы писали в этом материале. Какие именно навыки, знания и умения нужны специалистам по инженерии больших данных, а также сколько они за это получают, мы описываем в отдельных материалах.
На стыке вышеуказанных 2-х направлений находятся программист Big Data и DevOps-инженер, а также специалист по сопровождению жизненного цикла корпоративных данных (DataOps) и директор по данным (CDO, Chief Data Officer), который курирует на предприятии все вопросы, связанные с информацией. О роли каждого профессионала в Agile-команде мы немного рассказывали здесь.
Большие данные: с чего начать
Зная, как в общем делится работа между специалистами больших данных, ответить на главный вопрос новичка в мире Big Data «с чего начать», становится гораздо проще. Прежде, чем погружаться в изучение множества мануалов по Apache Hadoop и алгоритмам Machine Learning, необходимо понять, что вас больше привлекает:
- прикладное программирование;
- администрирование;
- проектирование архитектуры информационных потоков и сопровождение;
- анализ данных;
- создание математических моделей и алгоритмов обработки информации.
Кроме того, отметим, что, помимо линейных специалистов (программистов, администраторов, инженеров, архитекторов), знания в области больших данных также необходимы руководителям, чтобы видеть возможности цифровизации своего бизнеса и потенциальную выгоду от его цифровой трансформации. При этом менеджеру совсем не обязательно знать во всех деталях, как, например, работает Apache Kafka. Однако, чтобы не быть «чайником», руководителю крайне полезно ориентироваться в отраслевых сценариях применения средств Big Data (use-cases), понимать способы монетизации больших данных и специфику корпоративной цифровизации, чтобы эффективно расходовать временные, трудовые и материальные ресурсы, а также не ждать от технологий больше, чем они могут дать. Обо всем этом и не только мы рассказываем на обучающем курсе «Аналитика Big Data для менеджеров».
В качестве дополнительной мотивации изучения Big Data, отметим, что профессионалы в этой области больше всех зарабатывают среди ИТ-специалистов. Например, в 2019 году, согласно ежегодному исследованию Stack OverFlow, годовая зарплата аналитиков, инженеров и исследователей данных в США равнялась 60-70 тысяч долларов, т.е. около 350 тысяч рублей в месяц. При этом, поскольку цифровизация стремительно проникает во все сферы деятельности, от промышленности до образования, спрос на специалистов по данным все время растет по всему миру, в т.ч. и в России. Таким образом, большие данные – это очень перспективная и финансово выгодная область ИТ.
Что необходимо знать и уметь аналитику, исследователю, инженеру и администратору больших данных, мы рассмотрим в следующих статьях. Проверить свое знание основ Big Data и Data Science вы можете, пройдя открытый бесплатный интерактивный тест прямо у нас на сайте ответив на 10 простых вопросов по основам больших данных. А освоить практику работы с прикладными инструментами Big Data, Machine Learning и Internet of Things, вам помогут наши курсы обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве.