Сегодня мы продолжим разговор про антифрод-системы и расскажем, как аналитика Big Data и модели Machine Learning помогают бороться с отмыванием денег. Читайте в нашей статье, зачем нужен светофор транзакций, что такое AML-системы и при чем тут графы больших данных.
Светофор транзакций и Big Data в антифрод-системах
Сначала рассмотрим, как работают антифрод-системы. Прежде всего транзакция оценивается по критериям ограничений и фильтрам, о которых мы писали здесь. В частности, проверяется соответствия суммы платежа установленному лимиту, попадание IP-адреса плательщика в привычный регион пользования, корреляция с ранее выявленными шаблонами клиентского поведения и т.д. По результатам такого анализа транзакция маркируется одной из следующих цветовых меток [1]:
- зеленым помечены операции с низкой вероятностью мошенничества;
- желтым отмечаются подозрительные транзакции с шансом мошенничества выше среднего, поэтому для проведения платежа необходимо дополнительное внимание;
- красный цвет сигнализирует о высокой вероятности мошенничества, поэтому для осуществления таких платежей требуется документальное подтверждение аутентичности владельца карты.
С точки зрения технологий Big Data антифрод-системы включают следующие возможности [2]:
- текстовая аналитика для поиска, категоризации контента и извлечения сущностей, например, с помощью Apache Solr или Amazon Elasticsearch;
- расчет статистических параметров для выявления отклонений, которые указывают на вероятность мошенничества;
- графовая аналитика для идентификации взаимосвязей и выявления закономерностей;
- Gap-тестирование для обнаружения недостающих элементов в цепочке последовательных данных;
- подтверждение даты входа для оценки неподходящего или подозрительного времени ввода информации;
- модели машинного обучения на основе исторических данных, чтобы кластеризовать особенности пользовательского поведения для формирования шаблонов, а также выявления новых аномалий. Может быть реализовано на базе Apache Spark MLLib.
Для повышения точности аутентификации владельца карты некоторые антифрод-системы также подключают биометрические модули, чтобы с помощью Machine Learning алгоритмов распознавания речи идентифицировать личность владельца карты [2].
Многие из вышеперечисленных методов активно применяются не только для предупреждения мошенничеств на уровне одного пользователя, но и в гораздо больших масштабах. В частности, аналитика больших данных и машинное обучение помогают расследовать финансовых махинаций по отмыванию денег и выявлять преступные цепочки. Как это устроено, мы рассмотрим далее.
Графовые алгоритмы в Apache Spark
Код курса
GRAS
Ближайшая дата курса
по запросу
Продолжительность
16 ак.часов
Стоимость обучения
48 000 руб.
Как работает AML: графовая аналитика больших данных и Machine Learning
Ежегодный объем отмываемых доходов оценивается минимум в 2-5 % мирового ВВП, что составлет от $800 млрд до $2 трлн. Отмывание денег – это маскировка или скрытие источника происхождения средств с помощью специальных инструментов и приемов: распыление, обналичка, подтасовка и пр. Обычно после зачисления на счёт финансы проходят сложный путь из множества операций прежде чем попадут в активы, не вызывающие подозрений. Преступники используют любые недостатки глобальной финансовой системы, чтобы запутать следы [3].
Инструменты против отмывания денег, полученных преступным путем, финансирования терроризма и создания оружия массового уничтожения принято называть AML (Anti-Money Laundering). Оставив за рамками данной статьи юридические тонкости, сосредоточимся на технических задачах этой работы и методах ее решения с помощью технологий Big Data и Machine Learning. В этом случае основной целью AML можно считать скорейшее выявление компании, которая с большой долей вероятности занимается
отмыванием доходов. При этом необходимо соблюсти баланс между полнотой определения преступлений и долей ложных срабатываний [4].
Таким образом, технологии больших данных и машинного обучения в AML задействованы в следующих процессах [3]:
- выявление подозрительных схем от обнаружения нарушений до отправки отчётности;
- валидация для автоматизации обновления ML-моделей (управление и оптимизация);
- сигнализация о необходимости ручных проверок для сложных или узкоспециализированных расследований с участием человека, например, связанных с международными криминальными организациями.
Для этого используются следующие средства науки о данных (Data Science) [3]:
- обогащение данных — автоматическое агрегирование истории о транзакциях, сведений о клиентах и геоданных.
- скоринг предупреждений — байесовские алгоритмы для сравнительного ранжирования всех объектов исследования;
- оценка клиентских рисков — логистическая регрессия для эмпирической оценки риска причастности клиента к отмыванию;
- автоматизированная разработка сценариев – деревья решений для проектирования логики обнаружения подозрительных случаев;
- сегментация и отклонение от группы – алгоритмы машинного обучения без учителя для выявления поведения объекта, не свойственного для прочих ему подобных;
- обнаружение редких событий – модели Machine Learning кластеризации для поиска объектов, похожих на исследуемый, например, по спискам подозрительных клиентов, которые рассылают регуляторы;
- распознавание образов – применение когнитивных вычислений для идентификации и классификации товарно-сопроводительных документов.
Графовые алгоритмы. Бизнес-приложения
Код курса
GRAF
Ближайшая дата курса
по запросу
Продолжительность
24 ак.часов
Стоимость обучения
54 000 руб.
При этом средства графовой аналитики способны выявить не только взаимосвязи между различными контрагентами в рамках преступной схемы оптимизации налогов, когда финансы размываются между фирмами-однодневками и офшорными счетами. Также такие технологии больших данных могут определить синтетические учетные записи, когда идентификационная информация о контрагенте собрана у множества разных физических и юридических лиц. Например, преступник смешивает и сопоставляет номера СНИЛС, адреса, телефоны и электронную почту, чтобы создать искусственные удостоверения личности, которые затем используются для открытия банковских счетов и новых кредитных карт, а также личных кредитных линий. Графовая аналитика Big Data позволяет проследить путь от одного счета к другому, чтобы предупредить или раскрыть такое преступление по «горячим следам» [5]. В следующей статье мы рассмотрим, как эти и другие методы Data Science помогают расследовать и предупреждать мошенничества в сфере страхования.
Другие практические кейсы цифровизации государственного управления и примеры реального бизнеса вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:
- Графовые алгоритмы. Бизнес-приложения
- Графовые алгоритмы в Apache Spark
- Аналитика больших данных для руководителей
Источники
- https://www.securitylab.ru/blog/personal/Informacionnaya_bezopasnost_v_detalyah/339929.php
- https://www.anti-malware.ru/analytics/Market_Analysis/anti-fraud-Bank-systems
- https://www.sas.com/ru_ua/insights/articles/risk-fraud/anti-money-laundering-counter-terrorist-financing.html
- https://onedrive.live.com/view.aspx?resid=27F1171C07AE9485!11805&cid=27f1171c07ae9485&authkey=!AF8kf_2loPBYujg
- Линник Е. В. Графовая аналитика для решения ключевых проблем в банковской сфере // Молодой ученый. — 2018. — №52. — С. 128-134. — URL https://moluch.ru/archive/238/55116/ (дата обращения: 02.04.2020)