Машинное обучение в Apache Spark
4х-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для решения задач машинного обучения и подготовки для него данных.
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
MLSP | по запросу |
48 000 руб. | 16 ак.часов Количество дней: 2 |
Дистанционный |
Регистрация |
Аудитория:
Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования Apache Spark MLLib. На этом курсе мы изучаем предоставляемые спарк возможности в части подготовки данных (векторы в том числе разреженные, работа с пропущенными данными, нормализация, категориальные данные и т.п.) и машинного обучения (стандартные алгоритмы — регрессии, классификации, нейронные сети и т.п. — и конвейерная обработка). Курс будет интересен не только дата сайентистам, но и инженерам данных — на курсе мы покажем, что делают дата сайентисты (на примере Apache Spark).
Соотношение теории к практике 50/50
Уровень подготовки:
- Опыт работы в Unix/SQL;
- Знания в объеме, аналогичном курсу Core Spark
- Начальный опыт программирования (Python/Java);
- Начальный опыт в экосистеме Hadoop
Программа курса «Машинное обучение в Apache Spark»
1. Введение в машинное обучение
-
- Профессии дата инженера и дата сайентиста
- Цикл работ согласно CRISP-DM
- Классификация алгоритмов машинного обучения
- Пример алгоритма
2. Feature Engineering и подготовка данных
-
- Особенности подготовки данных для машинного обучения
- Датасет и денормализация
- Стандартный набор операций по подготовке данных
- Дополнительные требования некоторых алгоритмов
3. Возможности Spark Mllib
-
- Векторы и разреженные векторы
- Алгоритмы обучения с учителем
- Нейронные сети и другие алгоритмы
- Подходы к продуктивному использованию настроенных алгоритмов
4. Базовый Workflow и конвейеры
-
- Базовый процесс обучения с использованием Spark MLLIB
- Понятие конвейера и его настройка в Spark MLLIB
5. Модуль Feature и предоставляемые возможности
-
- Стандартные операции очистки данных
- Работа с категориальными данными
- Векторизация текста
- Другие возможности модуля Feature
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Что Вы получите:
Окончив курс «Машинное обучение в Apache Spark» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.
Кто проводит курс
Профессиональные компетенции:
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Hadoop)
- Организация ETL-конвейеров (ApacheAirflow, Spark, Apache Livy)
- Поддержка инфраструктуры больших данных (Apache Hive,HBase, Kafka,Elasticsearch)
- Руководитель проектов с корпоративными данными
- Ведущий Data Engineer АО “Альфастрахование”, Москва
Чтобы записаться на курс MLSP: Машинное обучение в Apache Spark позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.