Большая стирка: Big Data и Machine Learning против отмывания денег

Сегодня мы продолжим разговор про антифрод-системы и расскажем, как аналитика Big Data и модели Machine Learning помогают бороться с отмыванием денег. Читайте в нашей статье, зачем нужен светофор транзакций, что такое AML-системы и при чем тут графы больших данных.

Светофор транзакций и Big Data в антифрод-системах

Сначала рассмотрим, как работают антифрод-системы. Прежде всего транзакция оценивается по критериям ограничений и фильтрам, о которых мы писали здесь. В частности, проверяется соответствия суммы платежа установленному лимиту, попадание IP-адреса плательщика в привычный регион пользования, корреляция с ранее выявленными шаблонами клиентского поведения и т.д. По результатам такого анализа транзакция маркируется одной из следующих цветовых меток [1]:

зеленым помечены операции с низкой вероятностью мошенничества;
желтым отмечаются подозрительные транзакции с шансом мошенничества выше среднего, поэтому для проведения платежа необходимо дополнительное внимание;
красный цвет сигнализирует о высокой вероятности мошенничества, поэтому для осуществления таких платежей требуется документальное подтверждение аутентичности владельца карты.

С точки зрения технологий Big Data антифрод-системы включают следующие возможности [2]:

текстовая аналитика для поиска, категоризации контента и извлечения сущностей, например, с помощью Apache Solr или Amazon Elasticsearch;
расчет статистических параметров для выявления отклонений, которые указывают на вероятность мошенничества;
графовая аналитика для идентификации взаимосвязей и выявления закономерностей;
Gap-тестирование для обнаружения недостающих элементов в цепочке последовательных данных;
подтверждение даты входа для оценки неподходящего или подозрительного времени ввода информации;
модели машинного обучения на основе исторических данных, чтобы кластеризовать особенности пользовательского поведения для формирования шаблонов, а также выявления новых аномалий. Может быть реализовано на базе Apache Spark MLLib.

Для повышения точности аутентификации владельца карты некоторые антифрод-системы также подключают биометрические модули, чтобы с помощью Machine Learning алгоритмов распознавания речи идентифицировать личность владельца карты [2].

Многие из вышеперечисленных методов активно применяются не только для предупреждения мошенничеств на уровне одного пользователя, но и в гораздо больших масштабах. В частности, аналитика больших данных и машинное обучение помогают расследовать финансовых махинаций по отмыванию денег и выявлять преступные цепочки. Как это устроено, мы рассмотрим далее.

Графовые алгоритмы в Apache Spark

Код курса

GRAS

Ближайшая дата курса

в любое время

Продолжительность

16 ак.часов

Стоимость обучения

48 000

Как работает AML: графовая аналитика больших данных и Machine Learning

Ежегодный объем отмываемых доходов оценивается минимум в 2-5 % мирового ВВП, что составлет от $800 млрд до $2 трлн. Отмывание денег – это маскировка или скрытие источника происхождения средств с помощью специальных инструментов и приемов: распыление, обналичка, подтасовка и пр. Обычно после зачисления на счёт финансы проходят сложный путь из множества операций прежде чем попадут в активы, не вызывающие подозрений. Преступники используют любые недостатки глобальной финансовой системы, чтобы запутать следы [3].

Инструменты против отмывания денег, полученных преступным путем, финансирования терроризма и создания оружия массового уничтожения принято называть AML (Anti-Money Laundering). Оставив за рамками данной статьи юридические тонкости, сосредоточимся на технических задачах этой работы и методах ее решения с помощью технологий Big Data и Machine Learning. В этом случае основной целью AML можно считать скорейшее выявление компании, которая с большой долей вероятности занимается
отмыванием доходов. При этом необходимо соблюсти баланс между полнотой определения преступлений и долей ложных срабатываний [4].

Таким образом, технологии больших данных и машинного обучения в AML задействованы в следующих процессах [3]:

выявление подозрительных схем от обнаружения нарушений до отправки отчётности;
валидация для автоматизации обновления ML-моделей (управление и оптимизация);
сигнализация о необходимости ручных проверок для сложных или узкоспециализированных расследований с участием человека, например, связанных с международными криминальными организациями.

противодействие отмыванию денег, AML, большие данные и машинное обучение против отмывания денег — Процессы AML, в которых используются технологии больших данных и машинного обучения

Для этого используются следующие средства науки о данных (Data Science) [3]:

обогащение данных – автоматическое агрегирование истории о транзакциях, сведений о клиентах и геоданных.
скоринг предупреждений – байесовские алгоритмы для сравнительного ранжирования всех объектов исследования;
оценка клиентских рисков – логистическая регрессия для эмпирической оценки риска причастности клиента к отмыванию;
автоматизированная разработка сценариев – деревья решений для проектирования логики обнаружения подозрительных случаев;
сегментация и отклонение от группы – алгоритмы машинного обучения без учителя для выявления поведения объекта, не свойственного для прочих ему подобных;
обнаружение редких событий – модели Machine Learning кластеризации для поиска объектов, похожих на исследуемый, например, по спискам подозрительных клиентов, которые рассылают регуляторы;
распознавание образов – применение когнитивных вычислений для идентификации и классификации товарно-сопроводительных документов.

Графовые алгоритмы. Бизнес-приложения

Код курса

GRAF

Ближайшая дата курса

в любое время

Продолжительность

24 ак.часов

Стоимость обучения

54 000

При этом средства графовой аналитики способны выявить не только взаимосвязи между различными контрагентами в рамках преступной схемы оптимизации налогов, когда финансы размываются между фирмами-однодневками и офшорными счетами. Также такие технологии больших данных могут определить синтетические учетные записи, когда идентификационная информация о контрагенте собрана у множества разных физических и юридических лиц. Например, преступник смешивает и сопоставляет номера СНИЛС, адреса, телефоны и электронную почту, чтобы создать искусственные удостоверения личности, которые затем используются для открытия банковских счетов и новых кредитных карт, а также личных кредитных линий. Графовая аналитика Big Data позволяет проследить путь от одного счета к другому, чтобы предупредить или раскрыть такое преступление по «горячим следам» [5]. В следующей статье мы рассмотрим, как эти и другие методы Data Science помогают расследовать и предупреждать мошенничества в сфере страхования.

графовая аналитика Big Data — Пример мошеннической сети с синтетическими учетными записями

Другие практические кейсы цифровизации государственного управления и примеры реального бизнеса вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:

Смотреть расписание

Записаться на курс

Источники

Светофор транзакций и Big Data в антифрод-системах

Графовые алгоритмы в Apache Spark

Код курса

GRAS

Ближайшая дата курса

в любое время

Продолжительность

16 ак.часов

Стоимость обучения

48 000

Как работает AML: графовая аналитика больших данных и Machine Learning

Графовые алгоритмы. Бизнес-приложения

Код курса

GRAF

Ближайшая дата курса

в любое время

Продолжительность

24 ак.часов

Стоимость обучения

54 000

Публикации по теме