Подготовка данных для Data Mining на Python

Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.

О продукте:

Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning). Вообще процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени. Сама подготовка данных состоит из следующих этапов:

    • выборка;
    • очистка;
    • генерация признаков;
    • интеграция;
    • форматирование.

Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.

Аудитория:

Наши практические курсы по подготовке данных к Data Mining ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data. Курс позволит вам получить «продвинутые» знания и прикладные навыки подготовки»сырых» датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.

Также курс «Подготовка данных для Data Mining на Python» будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.

Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining.

Уровень подготовки:

О курсе:

Продолжительность: 8 дней, 32 академических часа
Документ об окончании курса: сертификат учебного центра.

Данный курс является введением в подготовку данных для машинного обучения (Machine Learning) и интеллектуального анализа (Data Mining). В курсе описаны основные особенности в данных, с которыми приходится сталкиваться при их подготовке для решения бизнес-задач с помощью алгоритмов машинного обучения. Также курс включает изучение углубленных возможностей работы с «сырыми» данными, чтобы обеспечить высокое качество результатов ML-моделирования и интеллектуального анализа данных.

Вы познакомитесь с расширенными библиотеками языка Python и PySpark: их возможностями и ограничениями для решения таких задач по подготовке данных к Machine Learning и Data Mining, как как первичный анализ, корректировка особенностей, получение описательных статистик и визуализация, формирование дополнительного признакового пространства и выявление наиболее значимых признаков.

Самостоятельно выполненный итоговый проект по полному циклу подготовки данных поможет вам закрепить приобретенные знания и навыки, а также глубже погрузиться в практику науки о данных (Data Science).

Что Вы получите:

Окончив курс «Подготовка данных для Data Mining на Python» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.

Кто проводит курс

Климов Артем
Нижегородский Государственный Университет им. Н.И. Лобачевского (Нижний Новгород, 2006)
Профессиональные компетенции:
  • Ведущий менеджер по исследованию больших данных в TELE2
  • Разработка алгоритмов мэтчинга и классификации товарных категорий на базе ОФД данных
  • Реализация моделей по обнаружению AML-схем и мошеннических транзакций
  • Графовый и текстовый анализ данных в проекте сегментации телефонных номеров
  • Разработка вероятностных моделей (уход сотрудников, отток клиентов,прогнозированиепродаж и геолокации, кредитный скоринг)
  • Программирование на Python, R, Scala, SQL; Опыт работы с Hadoop, Spark, СУБД Oracle и Teradata,Impala,Hive
  • Владение аналитическими пакетами MATLAB, Weka, SPSS, FANN, Gephi, Deductor
  • Современные алгоритмов и инструментыMachine Learning, в т.ч. библиотеки H2O, Xgboost, Feature Hashing, Word2Vec для решения бизнес-задач

Чтобы записаться на курс DPREP: Подготовка данных для Data Mining на Python позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

    Изменение базового тарифа с 1 января 2026 года Подробнее