Завершая цикл публикаций о применении больших данных и машинного обучения в оперативно-розыскной деятельности и других задачах МВД, сегодня мы рассмотрим перспективы этих технологий: заменят ли они живых полицейских и когда это произойдет. Спойлер: еще не скоро. Читайте в нашей статье про доверие к Big Data и Machine Learning для их корректного использования.
Как и почему ошибаются Big Data и Machine Learning
При всей пользе больших данных, машинного обучения и прочих методов искусственного интеллекта, стоит помнить, что эти технологии – это всего лишь инструменты. При правильном применении они способны качественно улучшить любой бизнес-процесс, в т.ч. оперативно-розыскную деятельность. В частности, сократить время на наведение справок и поиск контактов с помощью графовой аналитики социальных сетей, предупредить финансовые мошенничества и отмывание денег за счет автоматического выявления аномалий в транзакциях, сократить наркотрафик и сделать город безопаснее.
Тем не менее, прежде чем полностью полагаться на Big Data и Machine Learning (ML), следует рассматривать их выводы не как 100%-ую истину, а как наиболее вероятный результат. При этом необходима общая оценка ситуации с критической точки зрения, которую пока может сделать лишь человек. Поэтому говорить о том, что большие данные и машинное обучение полностью заменят человеческую работу в полиции, весьма преждевременно по следующим причинам:
- алгоритмы Machine Learning для определения аномалий или предсказания будущего выдают вероятность совпадения события с гипотезой, а не абсолютно точный ответ;
- машинное обучение тоже ошибается. Например, здесь мы рассказывали про баги в интеллектуальной тормозной системе автомобилей Мазда и ошибочном попадании фотографий невинных граждан в базу данных с преступниками. Также стоит помнить, что помимо непреднамеренных ошибок, возможны случаи преступного сговора разработчиков Big Data системы c заинтересованными лицами. Например, именно это случилось в США при создании электронной системы поддержки принятия клинического решения, которая выдавала врачам рекомендации лечить пациентов конкретными опиоидными препаратами. Наконец, даже высокоточной модели Machine Learning присущ допустимый процент неверных решений (ложноположительных и ложноотрицательных), который укладывается в ее матрицу ошибок (confusion matrix).
- любую систему можно взломать и заставить ее работать иначе, чем изначально планировалось. Big Data и Machine Learning – не исключение из этого правила. Более того, злоумышленники сегодня также активно используют современные технологии. В частности, здесь мы писали, как преступники обманывают системы биометрической идентификации, создавая для этого различные устройства и даже модели машинного обучения на базе генеративно-состязательных нейросетей – Deep Fake.
- результат ML-моделирования непосредственно зависит от качества исходного датасета. Если для обучения алгоритмов Machine Learning использовались нерелевантные выборки данных, не очищенные от шума, некорректных значений и выбросов, странно ожидать на выходе решение, которому действительно можно доверять. Что представляет собой этап подготовки данных и зачем он нужен, читайте здесь.
- Наконец, предиктивная аналитика – это еще не реальность. Иными словами, даже если искусственный интеллект с высокой точностью спрогнозировал вероятность правонарушения в будущем, указав потенциального преступника, это не обязательно случится на самом деле. Чтобы предупредить это событие, следует уделить больше внимание спрогнозированной обстановке с учетом места, времени и других условий, профилактируя возможное преступление. Но при этом нельзя заранее обвинять человека в том, чего он не совершал – по крайней мере, пока.
Как избежать ошибок при использовании больших данных и Machine Learning, вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве: