В прошлой статье мы рассказывали о самых крупных утечках данных из биометрических Big Data систем в России и за рубежом. Сегодня рассмотрим характерные уязвимости биометрии: естественные ограничения методов идентификации личности с помощью машинного обучения (Machine Learning, ML) и целенаправленные атаки.
2 главные уязвимости биометрических Big Data систем на базе Machine Learning
Прежде всего отметим, что для биометрических систем характерны те же факторы возникновения рисков, как и для любого Big Data проекта. В частности, здесь мы анализировали, почему случаются утечки данных: в основном, виноваты люди (сторонние хакеры или внутренние пользователи), инфраструктурные проблемы, уязвимости программного обеспечения или сторонние сервисы. Однако, помимо этих причин, биометрии свойственны специфические проблемы, непосредственно связанные с самими алгоритмами распознавания личности на базе методов машинного обучения. Поэтому их называют естественными ограничениями биометрических методов идентификации. При этом могут возникнуть ошибки 1-го и 2-го родов по матрице ошибок (confusion matrix) [1]:
- ложное соответствие из-за вторжения злоумышленника, который сумел обмануть ML-алгоритмы распознавания, выдав себя за другого пользователя – вариант False Positive (ложноположительное решение, FP), ошибка 1-го рода;
- ложное несоответствие и отказ в обслуживании, когда ML-модель не смогла распознать легитимного пользователя, не найдя в базе подходящего цифрового шаблона для представленных биометрических персональных данных (БПД) – вариант False Negative (ложноотрицательное решение, FN), ошибка 2-го рода.
Ошибка 2-го рода, в основном, связана с качеством алгоритмов распознавания и/или качеством входных данных. А ошибки 1-го рода, как правило, возникают вследствие атаки подделки, когда фальсифицируется биометрическая черта, используемая в ML-алгоритмах. Например, искусственный палец с нужными отпечатками, трехмерная маска лица или даже реальная часть тела легитимного пользователя, отрезанная от него [1]. Именно такой инцидент произошел с владельцем премиального автомобиля в Малайзии в 2005 году, которого покалечили преступники при попытке угнать его машину [2]. Впрочем, злоумышленники успешно применяют и менее травматичные способы изготовления поддельных биометрических носителей. В частности, хакеры имитируют нужные отпечатки пальцев с помощью силиконовых пленок, графитового порошка и суперклея, а фото лица – гипсовыми копиями головы и масками. Такие методы позволяют обмануть простые биометрические системы идентификации в смартфонах с не слишком сложными ML-алгоритмами и/или не самыми чувствительными датчиками [3].
На самом деле оба варианта ложных срабатываний весьма нежелательны, т.к. влекут за собой неправомерные действия с информацией (в случае FP) или недовольство пользователя (в случае FN), что приводит к репутационным потерям и увеличивает вероятность оттока клиента (Churn Rate).
Как оценить качество распознавания: FAR, FRR и другие метрики биометрии
Для оценки качества распознавания в биометрических системах используются следующие коэффициенты [2]:
- ложного приема (FAR, False Acceptance Rate) – вероятность ложной идентификации, когда ошибочно признается подлинность пользователя, не зарегистрированного в системе;
- ложного совпадения (FMR, False Match Rate) – вероятность того, что входной образец неверно сравнивается с несоответствующим шаблоном в базе данных;
- ложного отклонения (FRR, False Rejection Rate) – вероятность того, что система биоидентификации не признает подлинность зарегистрированного в ней пользователя;
- ложного несовпадения (FNMR, False Non Match Rate) – вероятность ошибки в определении совпадений между входным образцом и соответствующим шаблоном из базы данных;
- отказа в регистрации (FER, Failure to Enrol Rate)– вероятность того, что система не сможет создать шаблон из входных биометрических данных из-за их низкого качества или других помех;
- ошибочного удержания (FTC) – вероятность того, что система не способна определить корректно представленные БПД.
Для количественного расчета вышеперечисленных коэффициентов составляется матрица ошибок распознавания личности по биометрическим данным.
Шаблон БПД |
Реальные БПД |
|
+ |
— |
|
+ |
True Positive (истинно-положительное решение): реальные БПД соответствуют шаблону, положительное решение ML-модели распознавания |
False Positive (ложноположительное решение): ошибка 1-го рода, ML-модель ошибочно идентифицировала личность, распознав реальные БПД соответствующими шаблону другого человека Подсчет коэффициентов FAR, FMR |
— |
False Negative (ложноотрицательное решение): ошибка 2-го рода – ML-модель не смогла идентифицировать личность, не распознавав БПД, т.е. не нашла для них соответствующего шаблона Подсчет коэффициентов FRR и FNMR |
True Negative (истинно-отрицательное решение): в базе шаблонов отсутствуют представленные БПД, ML-модель не смогла распознать и идентифицировать незарегистрированного пользователя, что абсолютно корректно |
Какая биометрия самая эффективная: анализ метрик и факторов
Как мы уже рассказывали, биометрические системы на базе Machine Learning работают не по принципу однозначного соответствия представленных БПД ранее сохраненному шаблону. Обычно сравнивающий алгоритм принимает решение о соответствии данных на степени близости представленных образцов к шаблону. Поэтому разработчики ML-модели распознавания стремятся найти баланс между показателями FAR и FRR, варьируя значение этой дельты (порога) близости данных. Например, при уменьшении порога будет меньше ложных несовпадений, но больше ложных приёмов. А высокий порог уменьшит FAR, но увеличит FRR. Для определения этого баланса используют коэффициент EER, при котором ошибки приёма и отклонения эквивалентны и возникают с равной степени вероятности. Считается, что системы с низким EER более точны. Также стоит отметить тенденцию роста чувствительности биометрических приборов, что уменьшает FAR, но увеличивает FRR [2].
Однако, при одинаковом значении FAR более качественной будет та биометрия, у которой FRR меньше. От значений FAR и FRR зависит, с каким количеством пользователей система будет эффективно работать, не раздражая своими ошибками. Это число обычно обратно пропорционально квадратному корню из анализируемого параметра. Например, при FAR, равном 0,01%, и допустимом уровне ошибок не более 1 в день, биометрическую систему целесообразно применять в компаниях со штатом до 100 человек [4]. А вводимая с 2018 года в России единая биометрическая система (ЕБС) предполагает точность распознавания 1 к 10 000 000, т.е. на 10 миллионов случаев возможна одна единственная ошибка распознавания. При этом для идентификации личности ЕБС использует 2 биометрических параметра: трехмерное сканирование лица и голос.
Стоит помнить, что успешность распознавания, а, следовательно, показатели FAR, FRR и прочие метрики оценки эффективности биометрической системы, зависят от характера и количества используемых данных. Разумеется, более надежны многофакторные системы, которые используют сочетание нескольких биометрических параметров, например, рисунок вен на ладонях, особенности радужной оболочки глаз и походки. Однако, такой комплексный подход увеличивает сложность и, соответственно, стоимость реализации. Кроме того, при выборе биометрических методов следует учитывать контекст применения и условия эксплуатации такой Big Data системы [5]. Как сделать это на практике, мы расскажем в следующей статье. Также поговорим про то, как разные биометрические методы отличаются друг от друга. В частности, рассмотрим, насколько будет быстрым и устойчивым к фальсификации определение личности по отпечаткам пальцев, ладоней или изображениям лица и глаз. Еще коснемся некоторых «экзотических» способов идентификации личности: по запахам, сердцебиению и внутренним вибрациям.
А о том, чем выгодна цифровизация процессов на базе биометрических систем машинного обучения и другие вопросы информационной безопасности больших данных, вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:
Источники