Вместо Tableau и Power BI: DataLens от Яндекса на примере внедрения в KazanExpress

обучение большим данным, бизнес-аналитика Яндекс DataLens Kafka ClickHouse примеры курсы обучение, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про Yandex Managed Service for Apache Kafka. Продолжая тему импортозамещения, сегодня рассмотрим, как этот и другие полностью управляемые сервисы Яндекса помогли отечественному маркетплейсу KazanExpress построить эффективное BI-решение. Что такое Yandex DataLens и как он способен заменить зарубежные системы бизнес-аналитики типа Tableau с Power BI, а также открытый Apache Superset.

Битва BI-систем или зачем маркетплейсу DataLens от Яндекса

Непрерывный мониторинг операционных, тактический и стратегических показателей управленческого учета является основой data-driven менеджмента. Чтобы быстро принимать корректные управленческие решения, основанные на данных, нужно иметь эти самые данные в доступном и наглядном виде. Это обеспечивают современные системы бизнес-аналитики или BI (Business Intelligence), которые собирают данные из множества разных источников, агрегируют их и отображают важные бизнес-показатели на визуальных панелях (дэшбордах) в виде графиков, диаграмм и таблиц.

Российский маркетплейс KazanExpress, где представлены товары с бесплатной доставкой за 1 день в 70+ городов России, остро нуждался в BI-системе для операционной и тактической аналитики данных по товарам, партнерам и маркетинговым мероприятиям. Ключевыми требованиями при выборе BI-системы были следующие:

  • поддержка разных источников данных, особенно PostgreSQL и ClickHouse;
  • неограниченное число пользователей, а также возможность их простого и быстрого добавления по мере необходимости;
  • гибкие настройки доступа и разграничение прав по ролям, категориям и отдельным пользователям;
  • высокая скорость запуска и простота развития системы;
  • простота поддержки и легкость эксплуатации.

В качестве вариантов решения рассматривались следующие альтернативы:

  • Apache Superset – проект с открытым исходным кодом, который имеет множество достоинств, но требует усилий по настройке и поддержке BI-системы на его основе;
  • Tableau – дорогой зарубежный продукт со множеством функций;
  • js – фреймворк с открытым исходным кодом для создания аналитических веб-приложений, модульная платформа с богатым API, внедрение которой также требует времени и усилий;
  • Yandex DataLens – бесплатный BI-сервис в составе облачной платформы данных Яндекса (Yandex Cloud), который не нуждается в сложной настройке и позволяет подключаться к различным источникам данных, строить визуализации, собирать дэшборды, делиться полученными результатами и в режиме реального времени отслеживать продуктовые и бизнес-метрики.

Именно Yandex DataLens и был выбран специалистами маркетплейса KazanExpress для построения аналитического дэшборда продавца, а также генерации операционных отчетов. Именно второй кейс мы подробно рассмотрим далее.

Аналитический конвейер с управляемыми сервисами Yandex Cloud для Apache Kafka и ClickHouse

CRM-система KazanExpress использует СУБД PostgreSQL, однако хранящихся в ней данных недостаточно для полноценной аналитики поведения пользователей на сайте маркетплейса. Чтобы понимать, как клиенты покупают товары на сайте и в приложении KazanExpress, необходимы данные по событиям пользовательского поведения. Для этого нужен настоящий аналитический конвейер, который будет собирать и обрабатывать множество событий в реальном времени. Чаще всего такие системы строятся с использованием Apache Kafka.

Однако, в большинстве бизнесов разворачивать собственную платформу данных не целесообразно. Поэтому сотрудники KazanExpress решили воспользоваться готовыми продуктами Яндекса, чтобы вместо покупки и настройки ИТ-инфраструктуры инвестировать время и средства в специфику бизнес-задачи. Поэтому в качестве компонентов BI-системы в дополнение к дэшбордам на DataLens были выбраны управляемые сервисы платформы данных Yandex Cloud:

  • Yandex Managed Service for Apache Kafka для сбора и агрегации данных о событиях пользовательского поведения на сайте и в мобильном приложении;
  • Yandex Managed Service for ClickHouse для хранения данных о событиях пользовательского поведения;
  • Yandex DataSphere – бессерверный сервис машинного обучения, который в KazanExpress используется для выявления и предупреждения мошеннических операций, предсказания оттока клиентов и прогнозирования конверсий.
BI Yandex Datalens Kafka
Архитектура BI-системы KazanExpress

Подключение DataLens к ClickHouse выполняется по HTTP-интерфейсу, а к PostgreSQL настраивается в веб-интерфейсе путем указания параметров (кластер, имя хоста, порт, имя базы данных, учетные данные пользователя и уровень доступа SQL-запросов). Данные в Managed Service for ClickHouse приходят из кластера Managed Service for Apache Kafka в реальном времени. После несложной настройки с указанием основных параметров Managed Service for ClickHouse автоматически вставляет в таблицу на движке Kafka данные, поступающие в определенные топики. Если данные передаются в виде JSON-Объекта, кластер Managed Service for ClickHouse использует при вставке в таблицу формат JSONEachRow, который преобразует строковое представление JSON-объекта из сообщения Kafka в нужный набор значений столбцов.

По умолчанию сообщение из топика Kafka может быть прочитано ClickHouse только один раз. Поэтому для многократного обращения к одним и тем же данным рекомендуется создать материализованное представление (MATERIALIZED VIEW) и использовать его. Когда к таблице на движке Kafka присоединяется материализованное представление, оно начинает в фоновом режиме собирать данные, позволяя непрерывно получать сообщения от Kafka и преобразовывать их в необходимый формат с помощью SQL-запроса SELECT.

Таким образом, благодаря бесшовной интеграции всех управляемых сервисов в рамках одной платформы внедрить аналитическую систему удалось очень быстро. А благодаря поддержке геоданных и связи с Яндекс.Картами KazanExpress смогла определить наиболее эффективные локации для пунктов выдачи заказов и за всего 2 месяца открыть их в количестве около 100.

Кроме того, сотрудники маркетплейса отмечают, что оперативная и корректная аналитика с DataLens помогла добиться следующих положительных результатов:

  • сокращение потерь продавцов благодаря непрерывному мониторингу остатков на складе и анализу оборачиваемости отдельных товаров, что помогает заранее просчитывать закупки;
  • быстрая реакция на брак в партиях товаров за счет наблюдения данных по возвратам и отзывам позволяет категорийным менеджерам и модераторам вовремя замечать проблемы и оповещать продавцов, сокращая убытки и повышая лояльность покупателей;
  • визуализация событий позволяет заметить неочевидные тенденции и быстро определить их причину, включая аномальное повышение активности пользователей, реакции на новые товары и мошеннические операции.

Узнайте, как использовать возможности Apache Kafka для потоковой аналитики больших данных на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков больших данных в Москве:

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

  1. https://cloud.yandex.ru/cases/kazanexpress
  2. https://cloud.yandex.ru/docs/datalens/
  3. https://cloud.yandex.ru/docs/managed-kafka/
Поиск по сайту