Подготовка данных для Data Mining на Python
Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
DPREP | по запросу |
72 000 руб. | 32 ак.часов Количество дней: 4 |
Дистанционный |
Регистрация |
О продукте:
Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning). Вообще процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени. Сама подготовка данных состоит из следующих этапов:
-
- выборка;
- очистка;
- генерация признаков;
- интеграция;
- форматирование.
Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.
Аудитория:
Наши практические курсы по подготовке данных к Data Mining ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data. Курс позволит вам получить «продвинутые» знания и прикладные навыки подготовки»сырых» датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.
Также курс «Подготовка данных для Data Mining на Python» будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.
Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining.
Уровень подготовки:
- опыт программирования на языке Python;
- знание основ математического анализа и математической статистики;
- прохождение онлайн-курса FUNP «Основы языка Python для анализа данных и решения задач машинного обучения»
О курсе:
Продолжительность: 8 дней, 32 академических часа
Документ об окончании курса: сертификат учебного центра.
Данный курс является введением в подготовку данных для машинного обучения (Machine Learning) и интеллектуального анализа (Data Mining). В курсе описаны основные особенности в данных, с которыми приходится сталкиваться при их подготовке для решения бизнес-задач с помощью алгоритмов машинного обучения. Также курс включает изучение углубленных возможностей работы с «сырыми» данными, чтобы обеспечить высокое качество результатов ML-моделирования и интеллектуального анализа данных.
Вы познакомитесь с расширенными библиотеками языка Python и PySpark: их возможностями и ограничениями для решения таких задач по подготовке данных к Machine Learning и Data Mining, как как первичный анализ, корректировка особенностей, получение описательных статистик и визуализация, формирование дополнительного признакового пространства и выявление наиболее значимых признаков.
Самостоятельно выполненный итоговый проект по полному циклу подготовки данных поможет вам закрепить приобретенные знания и навыки, а также глубже погрузиться в практику науки о данных (Data Science).
Программа курса «Подготовка данных для Data Mining на Python»
1. Продвинутые возможности библиотек языка Python для обработки и визуализации данных (День 1-2)
Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках
Теоретическая часть:
-
- изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
- обзор основных приемов по работе с данными:
- первичный анализ данных
- получение описательных статистик
- изменение типа данных
- построение сводных таблиц
- визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, «ящики с усами» и «виолончели»)
Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.
2. Библиотеки Python в корректировании типичных особенностей в данных (День 3-4)
Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).
Теоретическая часть:
-
- обзор типичных особенностей в данных и подходов к их корректировке:
- отсутствующие значения
- выбросы
- дубликаты
- подготовка данных для использования в алгоритмах машинного обучения:
- нормализация числовых данных
- преобразование категориальных значений
- работа с текстовыми данными
- обзор типичных особенностей в данных и подходов к их корректировке:
Практическая часть: подготовка «сырых» данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма
3. Подходы к построению дополнительного признакового пространства на основе исходных данных (День 5-6)
Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn
Теоретическая часть:
-
- обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
- увеличение размерности исходного признакового пространства
- постановка задачи в случае обучения с учителем — с использованием целевой переменной
- постановка задачи в случае обучения без учителя
- уменьшение размерности исходного признакового пространства
- увеличение размерности исходного признакового пространства
- подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:
- статистические методы фильтрации признаков в задачах классификации и регрессии
- методы машинного обучения как инструменты для получения наиболее значимых признаков в данных
- обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения
4. Проектная работа (День 7-8)
Цель: закрепить полученные слушателями курса знания по подготовке данных.
Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.
Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.
Отправить ссылку на:
Что Вы получите:
Окончив курс «Подготовка данных для Data Mining на Python» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.
Кто проводит курс
Профессиональные компетенции:
- Ведущий менеджер по исследованию больших данных в TELE2
- Разработка алгоритмов мэтчинга и классификации товарных категорий на базе ОФД данных
- Реализация моделей по обнаружению AML-схем и мошеннических транзакций
- Графовый и текстовый анализ данных в проекте сегментации телефонных номеров
- Разработка вероятностных моделей (уход сотрудников, отток клиентов,прогнозированиепродаж и геолокации, кредитный скоринг)
- Программирование на Python, R, Scala, SQL; Опыт работы с Hadoop, Spark, СУБД Oracle и Teradata,Impala,Hive
- Владение аналитическими пакетами MATLAB, Weka, SPSS, FANN, Gephi, Deductor
- Современные алгоритмов и инструментыMachine Learning, в т.ч. библиотеки H2O, Xgboost, Feature Hashing, Word2Vec для решения бизнес-задач
Чтобы записаться на курс DPREP: Подготовка данных для Data Mining на Python позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.