Подготовка данных для Data Mining на Python

Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
DPREP
по запросу
72 000 руб. 32 ак.часов
Количество дней: 4
Дистанционный
Регистрация

О продукте:

Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning). Вообще процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени. Сама подготовка данных состоит из следующих этапов:

    • выборка;
    • очистка;
    • генерация признаков;
    • интеграция;
    • форматирование.

Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.

Аудитория:

Наши практические курсы по подготовке данных к Data Mining ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data. Курс позволит вам получить «продвинутые» знания и прикладные навыки подготовки»сырых» датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.

Также курс «Подготовка данных для Data Mining на Python» будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.

Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining.

Уровень подготовки:

О курсе:

Продолжительность: 8 дней, 32 академических часа
Документ об окончании курса: сертификат учебного центра.

Данный курс является введением в подготовку данных для машинного обучения (Machine Learning) и интеллектуального анализа (Data Mining). В курсе описаны основные особенности в данных, с которыми приходится сталкиваться при их подготовке для решения бизнес-задач с помощью алгоритмов машинного обучения. Также курс включает изучение углубленных возможностей работы с «сырыми» данными, чтобы обеспечить высокое качество результатов ML-моделирования и интеллектуального анализа данных.

Вы познакомитесь с расширенными библиотеками языка Python и PySpark: их возможностями и ограничениями для решения таких задач по подготовке данных к Machine Learning и Data Mining, как как первичный анализ, корректировка особенностей, получение описательных статистик и визуализация, формирование дополнительного признакового пространства и выявление наиболее значимых признаков.

Самостоятельно выполненный итоговый проект по полному циклу подготовки данных поможет вам закрепить приобретенные знания и навыки, а также глубже погрузиться в практику науки о данных (Data Science).

Программа курса «Подготовка данных для Data Mining на Python»

1. Продвинутые возможности библиотек языка Python для обработки и визуализации данных (День 1-2)

Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках

Теоретическая часть:

    • изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
    • обзор основных приемов по работе с данными:
      • первичный анализ данных
      • получение описательных статистик
      • изменение типа данных
      • построение сводных таблиц
      • визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, «ящики с усами» и «виолончели»)

Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.

2. Библиотеки Python в корректировании типичных особенностей в данных (День 3-4)

Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).

Теоретическая часть:

    • обзор типичных особенностей в данных и подходов к их корректировке:
      • отсутствующие значения
      • выбросы
      • дубликаты
    • подготовка данных для использования в алгоритмах машинного обучения:
      • нормализация числовых данных
      • преобразование категориальных значений
      • работа с текстовыми данными

Практическая часть: подготовка «сырых» данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма

3. Подходы к построению дополнительного признакового пространства на основе исходных данных (День 5-6)

Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn

Теоретическая часть:

    • обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
      • увеличение размерности исходного признакового пространства
        • постановка задачи в случае обучения с учителем — с использованием целевой переменной
        • постановка задачи в случае обучения без учителя
      • уменьшение размерности исходного признакового пространства
    • подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:
      • статистические методы фильтрации признаков в задачах классификации и регрессии
      • методы машинного обучения как инструменты для получения наиболее значимых признаков в данных

 Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения

4. Проектная работа (День 7-8)

Цель: закрепить полученные слушателями курса знания по подготовке данных.

Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.

Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.

Скачать программу курса «DPREP: Подготовка данных для Data Mining на Python» в формате pdf

Отправить ссылку на:

Что Вы получите:

Окончив курс «Подготовка данных для Data Mining на Python» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.

Кто проводит курс

Климов Артем
Нижегородский Государственный Университет им. Н.И. Лобачевского (Нижний Новгород, 2006)
Профессиональные компетенции:
  • Ведущий менеджер по исследованию больших данных в TELE2
  • Разработка алгоритмов мэтчинга и классификации товарных категорий на базе ОФД данных
  • Реализация моделей по обнаружению AML-схем и мошеннических транзакций
  • Графовый и текстовый анализ данных в проекте сегментации телефонных номеров
  • Разработка вероятностных моделей (уход сотрудников, отток клиентов,прогнозированиепродаж и геолокации, кредитный скоринг)
  • Программирование на Python, R, Scala, SQL; Опыт работы с Hadoop, Spark, СУБД Oracle и Teradata,Impala,Hive
  • Владение аналитическими пакетами MATLAB, Weka, SPSS, FANN, Gephi, Deductor
  • Современные алгоритмов и инструментыMachine Learning, в т.ч. библиотеки H2O, Xgboost, Feature Hashing, Word2Vec для решения бизнес-задач

Чтобы записаться на курс DPREP: Подготовка данных для Data Mining на Python позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту