Подготовка данных для Data Mining на Python
Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.
О продукте:
Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning). Вообще процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени. Сама подготовка данных состоит из следующих этапов:
-
- выборка;
- очистка;
- генерация признаков;
- интеграция;
- форматирование.
Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.
Аудитория:
Наши практические курсы по подготовке данных к Data Mining ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data. Курс позволит вам получить «продвинутые» знания и прикладные навыки подготовки»сырых» датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.
Также курс «Подготовка данных для Data Mining на Python» будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.
Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining.
Уровень подготовки:
- опыт программирования на языке Python;
- знание основ математического анализа и математической статистики;
- прохождение онлайн-курса FUNP «Основы языка Python для анализа данных и решения задач машинного обучения»
О курсе:
Продолжительность: 8 дней, 32 академических часа
Документ об окончании курса: сертификат учебного центра.
Данный курс является введением в подготовку данных для машинного обучения (Machine Learning) и интеллектуального анализа (Data Mining). В курсе описаны основные особенности в данных, с которыми приходится сталкиваться при их подготовке для решения бизнес-задач с помощью алгоритмов машинного обучения. Также курс включает изучение углубленных возможностей работы с «сырыми» данными, чтобы обеспечить высокое качество результатов ML-моделирования и интеллектуального анализа данных.
Вы познакомитесь с расширенными библиотеками языка Python и PySpark: их возможностями и ограничениями для решения таких задач по подготовке данных к Machine Learning и Data Mining, как как первичный анализ, корректировка особенностей, получение описательных статистик и визуализация, формирование дополнительного признакового пространства и выявление наиболее значимых признаков.
Самостоятельно выполненный итоговый проект по полному циклу подготовки данных поможет вам закрепить приобретенные знания и навыки, а также глубже погрузиться в практику науки о данных (Data Science).
Что Вы получите:
Окончив курс «Подготовка данных для Data Mining на Python» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.
Кто проводит курс
Профессиональные компетенции:
- Ведущий менеджер по исследованию больших данных в TELE2
- Разработка алгоритмов мэтчинга и классификации товарных категорий на базе ОФД данных
- Реализация моделей по обнаружению AML-схем и мошеннических транзакций
- Графовый и текстовый анализ данных в проекте сегментации телефонных номеров
- Разработка вероятностных моделей (уход сотрудников, отток клиентов,прогнозированиепродаж и геолокации, кредитный скоринг)
- Программирование на Python, R, Scala, SQL; Опыт работы с Hadoop, Spark, СУБД Oracle и Teradata,Impala,Hive
- Владение аналитическими пакетами MATLAB, Weka, SPSS, FANN, Gephi, Deductor
- Современные алгоритмов и инструментыMachine Learning, в т.ч. библиотеки H2O, Xgboost, Feature Hashing, Word2Vec для решения бизнес-задач
Чтобы записаться на курс DPREP: Подготовка данных для Data Mining на Python позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.
