Data mining – что это такое?

Data mining – что это такое?

    Одним из относительно новых терминов стало словосочетание Data mining, подразумевающее извлечение определенных данных из общего массива, упорядоченного или не упорядоченного.

    Работа с большими массивами данных – достаточно новая задача, инструментарий для решения которой в данный момент фактически только прорабатывается и совершенствуется. Подобных вызовов в практике человечества ранее не существовало, поэтому именно теперь формируется фактически новое направление, в котором появляются свои термины и инструменты.

    Задачи, решаемые с помощью инструментов Data mining

    Инструментарий Data mining используется для решения целого спектра задач. Среди которых:

    • классификация данных по заранее определенным категориям;
    • кластеризация данных на группы, похожие между собой по заданным параметрам;
    • ассоциация – поиск и обработка повторяющихся данных, как цельных, так и участков;
    • прогнозирование – поиск и анализ предстоящих состояний данных на основе информации о их прошлых состояниях;
    • анализ отклонений – исследование данных на нетипичные особенности или изменения, позволяющий обнаруживать вредоносные воздействия;
    • визуализация.

    Чтобы решить каждую из этих задач, необходимо проанализировать массив информации, выделить в нем необходимое и обработать его. Для чего и нужны инструменты Data mining.

    Сложности работы с большими массивами данных

    Практически любой массив данных можно разделить на три уровня:

    • исходные данные – необработанный массив, находящийся в первозданном виде;
    • информация – совокупность обработанных данных, имеющих ту или иную ценность, подлежащих сохранению и дальнейшей обработке;
    • знания – важнейшие данные, часто скрытые от общедоступного просмотра.

    Data mining требуется для того, чтобы обрабатывать информацию на любом требуемом уровне, вычленяя из нее искомое.