Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

12Май
2019

Это не баг, а фича: генерация признаков для Data Mining

Автор Анна Вичуговав категории Machine Learning, Блог, Статьи

Генерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после того, как выборка сформирована и очистка данных завершена. В этой статье мы поговорим о том, что такое признаки, какими они бывают и как Data Scientist...

10Май
2019

Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения

Автор Анна Вичуговав категории Machine Learning, Блог, Статьи

Выборка, полученная в результате первого этапа подготовки данных (Data Preparation), еще пока не пригодна для обработки алгоритмами машинного обучения, поскольку информацию необходимо очистить. Сегодня мы расскажем, что такое очистка данных (Data Cleaning) для Data Mining, зачем она нужна и как выполнять этот этап Data Preparation. Что такое очистка данных для...

08Май
2019

Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения

Автор Анна Вичуговав категории Machine Learning, Блог, Статьи

выборка, датасет, Data Preparation, интеллектуальный анализ данных

Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset), нужна для тренировки модели Machine Learning, чтобы обучить систему и затем использовать ее для решения реальных задач. Однако, поскольку в...

07Май
2019

Как подготовить данные к моделированию: 5 операций Data Preparation

Автор Анна Вичуговав категории Machine Learning, Блог, Статьи

CRISP-DM, статистика, обработка данных, Machine Learning, машинное обучение, Data Mining

CRISP-DM, SEMMA и другие стандарты Data Mining не случайно выделяют подготовку данных в отдельную фазу. Data Preparation - весьма трудоемкий итеративный процесс, который занимает до 80% всех затрат ресурсов и времени в жизненном цикле Data Mining и включает следующие задачи обработки исходных («сырых») данных [1]: Выборка данных – отбор признаков...

09Апр
2019

Как и зачем HR использует Big Data: технологии больших данных в управлении человеческими ресурсами

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Big Data, Большие данные, HR, бизнес, люди, Data Mining

Как измерить управленческий опыт, предсказать и предотвратить профессиональное выгорание, быстро найти подходящего кандидата и сформировать высокоэффективную команду с помощью Big Data – разбираемся в HR-аналитике и других важных вопросах «умного» управления персоналом. Откуда в HR большие данные ? Согласно исследованию аудиторской компании KPMG, Big Data используются примерно в 60% HR-департаментов различных организаций...