Одним из относительно новых терминов стало словосочетание Data mining, подразумевающее извлечение определенных данных из общего массива, упорядоченного или не упорядоченного.
Работа с большими массивами данных – достаточно новая задача, инструментарий для решения которой в данный момент фактически только прорабатывается и совершенствуется. Подобных вызовов в практике человечества ранее не существовало, поэтому именно теперь формируется фактически новое направление, в котором появляются свои термины и инструменты.
Задачи, решаемые с помощью инструментов Data mining
Инструментарий Data mining используется для решения целого спектра задач. Среди которых:
- классификация данных по заранее определенным категориям;
- кластеризация данных на группы, похожие между собой по заданным параметрам;
- ассоциация – поиск и обработка повторяющихся данных, как цельных, так и участков;
- прогнозирование – поиск и анализ предстоящих состояний данных на основе информации о их прошлых состояниях;
- анализ отклонений – исследование данных на нетипичные особенности или изменения, позволяющий обнаруживать вредоносные воздействия;
- визуализация.
Чтобы решить каждую из этих задач, необходимо проанализировать массив информации, выделить в нем необходимое и обработать его. Для чего и нужны инструменты Data mining.
Сложности работы с большими массивами данных
Практически любой массив данных можно разделить на три уровня:
- исходные данные – необработанный массив, находящийся в первозданном виде;
- информация – совокупность обработанных данных, имеющих ту или иную ценность, подлежащих сохранению и дальнейшей обработке;
- знания – важнейшие данные, часто скрытые от общедоступного просмотра.
Data mining требуется для того, чтобы обрабатывать информацию на любом требуемом уровне, вычленяя из нее искомое.