Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset), нужна для тренировки модели Machine Learning, чтобы обучить систему и затем использовать ее для решения реальных задач. Однако, поскольку в процессе обучения необходимо оценивать качество модели, различают несколько типов выборок. В этом материале мы расскажем, из чего состоит dataset, какие бывают датасеты и как их сформировать.
Что такое датасет для Data Mining и из чего он состоит
Dataset для машинного обучения – это обработанная и структурированная информация в табличном виде. Строки такой таблицы называются объектами, а столбцы – признаками. Различают 2 вида признаков [1]:
- независимые переменные – предикторы;
- зависимые переменные – целевые признаки, которые вычисляются на основе одного или нескольких предикторов.
Признаковое описание характерно для задач классификации, когда имеется выборка – конечное множество объектов, для которых известно, к каким классам они относятся. Классовая принадлежность остальных объектов неизвестна. В процессе машинного обучения строится модель, способная классифицировать произвольный объект из исходного множества [2]. Практический смысл задач классификации состоит в предсказании возможных исходов на основе совокупности входных переменных, например, диагностика заболеваний, предварительная оценка эффективности месторождений полезных ископаемых, кредитный скоринг, распознавание речи, прогнозирование оттока клиентов (Churn Rate) и т.д.
В зависимости от варианта задачи классификации, целевой признак может выглядеть по-разному [1]:
- один столбец с двоичными значениями (1/0, TRUE/FALSE и пр.): двухклассовая классификация (binary classification), когда каждый объект принадлежит только одному классу;
- несколько столбцов с двоичными значениями: задача классификации с пересекающимися классами (multi-label classification), когда один объект может принадлежать нескольким классам;
- один столбец с действительными значениями: регрессионный анализ, когда прогнозируется одна величина;
- несколько столбцов с действительными значениями: задача множественной регрессии, когда прогнозируется несколько величин.
Каким бывает dataset: типы выборок
Первичный набор исходных данных принято называть генеральной совокупностью. Процесс формирования выборок из генеральной совокупности называется порождение данных [3]. Выборка – это конечное подмножество элементов генеральной совокупности, изучив которое можно понять поведение исходного множества. Например, генеральная совокупность состоит из 150 тысяч посетителей сайта, а в выборку попали 250 из них.
Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом. Если все ее элементы одинаково случайно и независимо друг от друга распределены по исходному множеству (генеральной совокупности), выборка называется простой. Простая выборка является математической моделью серии независимых опытов и, как правило, используется для машинного обучения. При этом для каждого этапа Machine Learning необходим свой набор данных [3]:
- для непосредственного обучения модели нужна обучающая выборка (training sample), по которой производится настройка (оптимизация параметров) алгоритма;
- для оценки качества модели используется тестовая (контрольная) выборка (test sample), которая, в идеальном случае, не должна зависеть от обучающей;
- для выбора наилучшей модели машинного обучения понадобится проверочная (валидационная) выборка (validation sample), которая также не должна пересекаться с обучающей.
Как сформировать выборку для Data Mining
Методы формирования обучающих и оценочных выборок зависят от класса задачи, решаемой с помощью машинного обучения [1]:
- для задач классификации данные следует разделить так, чтобы в полученных наборах численное соотношение объектов разных классов было таким же, как в исходной генеральной совокупности;
- для задач регрессионного анализа необходимо одинаковое распределение целевой переменной в полученных наборах, которые будут использоваться для обучения и контроля качества.
При соблюдении этих условий объемы обучающей и оценочных выборок могут существенно различаться. Например, размер валидационного датасета может составлять всего 10% генеральной совокупности. Главное в формировании выборок – ни в коем случае не объединять обучающий датасет и с оценочными (тестовым и валидационным), поскольку это грозит переобучением модели Machine Learning. В этом случае модель получит высокие оценки качества в процессе тренировки, но не покажет такого результата на реальных данных.
После того, как выборка сформирована, наступают следующие процессы CRISP-DM: очистка данных и работа с признаками: генерация, трансформация, нормализация и отбрасывание лишних переменных, чтобы исключить мультиколлинеарность факторов и понизить размерность модели Machine Learning. Об этом мы расскажем в следующих статьях.
Вся практика Data Preparation в нашем новом курсе для аналитиков Big Data: подготовка данных для Data Mining. Присоединяйтесь!
Источники
[…] после того, как выборка сформирована и […]
[…] данных, выборка еще не совсем […]