Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

16Июн
2020

ТОП-10 ошибок интеграции Elasticsearch и Кафка при использовании Kafka Connect

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, Elasticsearch, SQL

Продолжая разговор про интеграцию Elasticsearch с Кафка, сегодня мы рассмотрим, с какими ошибками можно столкнуться при практическом использовании Apache Kafka Connect. Также рассмотрим, как Kafka Connect поддерживает обработку ошибок и какие параметры нужно настроить для непрерывной передачи данных или ее остановки в случае сбоя. 2 варианта обработки ошибок в Kafka...

15Июн
2020

Зачем вам Kafka Connect: разбираем на примере интеграции Elasticsearch с Кафка

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, Elasticsearch, SQL, NoSQL

Сегодня поговорим, как связать Elasticsearch с Apache Kafka: рассмотрим, зачем нужны коннекторы, когда их следует использовать и какие особенности популярных в Big Data форматов JSON и AVRO стоит при этом учитывать. Также читайте в нашей статье, что такое Logstash Shipper, чем он отличается от FileBeat и при чем тут Kafka...

13Июн
2020

Аналитика больших данных в Elasticsearch: возможности Machine Learning в ELK Stack

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, Elasticsearch, Machine Learning, машинное обучение, Data Lake, NoSQL, предиктивная аналитика

В этой статье рассмотрим несколько примеров по аналитике больших данных в Elasticsearch (ES), а также разберем возможности алгоритмов машинного обучения в ELK Stack. Читайте, как использовать NoSQL-СУБД ES в качестве озера данных для проверки различных бизнес-гипотез с помощью Machine Learning, показывая результаты моделирования в интерфейсе Kibana: практическая аналитика Big Data....

11Июн
2020

Как сделать Elasticsearch безопасным: защищаем Big Data от утечек

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, Elasticsearch, security, утечки данных, защита информации, безопасность, администрирование, Docker, Kubernetes

Вчера мы рассказывали про самые известные утечки Big Data с открытых серверов Elasticsearch (ES). Сегодня рассмотрим, как предупредить подобные инциденты и надежно защитить свои большие данные. Читайте в нашей статье про основные security-функции ELK-стека: какую безопасность они обеспечивают и в чем здесь подвох. Несколько cybersecurity-решений для ES под разными лицензиями...

10Июн
2020

Такой эластичный, что вся Big Data утекает: 9 крупных инцидентов cybersecurity с Elasticsearch за последние 3 года

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, Elasticsearch, security, утечки данных, защита информации, персональные данные, безопасность

Продолжая разговор про Elastic Stack, сегодня мы рассмотрим проблемы cybersecurity в Elasticsearch: разберем самые известные утечки данных за последнюю пару лет и поговорим, кто и как обнаруживает подобные инциденты. Читайте в нашей статье, какие средства используют «белые хакеры» для поиска уязвимостей в Big Data системах и что общего между Росгвардией...

09Июн
2020

5 ключевых достоинств и 3 главных недостатка ELK-стека: разбираемся с Elasticsearch, Logstash и Kibana на реальных Big Data кейсах

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, NoSQL, ClickHouse, Elasticsearch, ELK Stack

Сегодня рассмотрим основные преимущества и недостатки ELK-стека. Читайте в этой статье, чем хороши Elasticsearch с Logsatsh и Kibana, а также каковы их основные недостатки и ограничения для использования в реальных Big Data проектах. Также мы собрали для вас несколько практических примеров, где и как используется Elasticsearch в интернет-магазинах, банках и...

08Июн
2020

3 товарища в поиске и аналитике Big Data: Elasticsearch, Logstash и Kibana

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, администрирование

В этой статье рассмотрим ELK-инфраструктуру: разберем, зачем поисковый движок Elasticsearch использует сборщик логов Logstash и при чем здесь визуальный интерфейс Kibana. Также поговорим, в каких Big Data проектах используются эти системы и для чего. Зачем вам Elasticsearch: полнотекстовый поиск по Big Data Чтобы определить, почему деньги пропали с банковского счета или...

06Июн
2020

Что не так с ClickHouse: 10 главных недостатков

Автор Анна Вичуговав категории ClickHouse, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse

Вчера мы разобрали, чем хорош ClickHouse и почему. Сегодня рассмотрим обратную сторону скорости, расширяемости и других преимуществ этой аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Также читайте в нашей статье, как обойти недостатки и ограничения этой системы или понизить степень их влияния на...

05Июн
2020

За что все его так любят: ТОП-5 достоинств ClickHouse для Big Data

Автор Анна Вичуговав категории ClickHouse, Use Cases, Блог, Статьи

g Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH, Kafka, Zookeeper, Hive, Hadoop

Сегодня рассмотрим основные преимущества ClickHouse – аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Читайте в нашей статье, чем еще хорош Кликхаус, кроме высокой скорости, и почему эту систему так любят аналитики, разработчики и администраторы Big Data. Чем хорош ClickHouse: главные преимущества Напомним, основным...

03Июн
2020

Не только Kafka Engine: 4 альтернативы для интеграции ClickHouse и кейс Ситимобил

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Kafka, ClickHouse, DWH

Интеграционный движок Kafka Engine для потоковой загрузки данных в ClickHouse из топиков Кафка – наиболее популярный инструмент для связи этих Big Data систем. Однако, он не единственное средство интеграции Кликхаус с Apache Kafka. Сегодня рассмотрим, как еще можно организовать потоковую передачу больших данных от самого популярного брокера сообщений в колоночную...

02Июн
2020

3 проблемы движка интеграции ClickHouse с Kafka и способы их решения

Автор Анна Вичуговав категории ClickHouse, Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, ClickHouse, Docker

Вчера мы рассматривали интеграцию ClickHouse с Apache Kafka с помощью встроенного движка. Сегодня поговорим про проблемы, которые могут возникнуть при его практическом использовании и разберем способы их решения для корректной связи этих Big Data систем. Почему случаются тайм-ауты: многопоточность и безопасность Напомним, интеграцию ClickHouse и Kafka обеспечивает встроенный движок (engine),...

01Июн
2020

ClickHouse + Kafka: 5 примеров совместного использования и особенности интеграционного движка

Автор Анна Вичуговав категории ClickHouse, Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Arenadata, Kafka, ClickHouse, Zookeeper

В этой статье рассмотрим интеграцию ClickHouse с Apache Kafka: когда и зачем она нужна, как связать эти две Big Data системы, каковы ограничения и недостатки существующих способов и каким образом их можно обойти. Также разберем, почему кластер Кликхаус использует Zookeeper и что такое материализованное представление таблицы Кафка. Big Data маркетинг,...

27Май
2020

Как связать Greenplum и Kafka: 2 способа интеграции и коннектор Arenadata DB

Автор Анна Вичуговав категории Greenplum, Internet of Things, Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, интеграция Гринплам и Кафка

Мы уже рассказывали про интеграцию Tarantool с Apache Kafka на примере Arenadata Grid. Сегодня рассмотрим, как интегрировать Кафка с MPP-СУБД Greenplum и каковы ограничения каждого из существующих способов. Читайте в сегодняшнем материале, что такое GPSS, PXF и при чем тут Docker-контейнер с коннектором Кафка для Arenadata DB. IoT и не...

22Май
2020

4 крупных примера внедрения Tarantool, 3 достоинства и 2 главных недостатка IMDB

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, SQL, Tarantool, Arenadata, Greenplum, Hadoop

Сегодня рассмотрим ключевые достоинства и недостатки резидентных СУБД для больших данных на примере Tarantool. Читайте в нашей статье про основные сценарии использования In-Memory Database (IMDB) в области Big Data с конкретными кейсами из реального бизнеса от Альфа-Банка, Аэрофлота, Тинькофф-Банка и Мегафона. Где и как используются In-Memory в Big Data: 4...

21Май
2020

Интеграция Big Data или как связать Tarantool c Apache Kafka на примере Arenadata Grid

Автор Анна Вичуговав категории Kafka, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Kafka, Tarantool, Arenadata

Продолжая разбираться с In-Memory СУБД Tarantool и Arenadata Grid, сегодня рассмотрим, как эти резидентные базы данных интегрируются с Apache Kafka. Читайте в нашей статье, что такое коннекторы и процессоры, а также как записать в топик Кафка сообщение, SQL-запрос или часть таблицы. Arenadata Grid и Apache Kafka: коннектор + процессоры Напомним,...

20Май
2020

Arenadata Grid vs Tarantool для Big Data: сходства и различия отечественных In-Memory СУБД

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, архитектура, Hadoop, SQL, Greenplum, Tarantool, Arenadata

Вчера мы разбирали In-Memory СУБД на примере Tarantool. Сегодня поговорим про Arenadata Grid: что это такое, чем хороша эта база данных, каким образом она связана с Тарантул и чем от него отличается. Также рассмотрим, как Arenadata Grid интегрируется с внешними Big Data системами, в т.ч. основными компонентами инфраструктуры Apache Hadoop...

19Май
2020

Зачем вам Tarantool: разгоняем большие данные с помощью In-Memory database

Автор Анна Вичуговав категории Internet of Things, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, интернет вещей, Internet of Things, IoT, IIoT, Arenadata, резидентные СУБД, In-Memory Database

В этой статье мы рассмотрим резидентные (In-Memory) базы данных на примере Tarantool и Arenadata Grid: что это, как они работают и где используются. Еще поговорим, каким образом эти Big Data системы могут ускорить работу распределенных приложений без замены существующих СУБД, а также при чем здесь промышленный интернет вещей и экосистема...

18Май
2020

Что такое programmatic print и при чем тут персональный маркетинг с Big Data: 4 кейса от FMCG-гигантов

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, ритейл, предиктивная аналитика, машинное обучение, Machine Learning, маркетинг

Сегодня мы расскажем, что такое программная печать, зачем ритейлеры используют эту технологию и как programmatic print связана с Big Data. Читайте в нашей статье, как IKEA, «Рив Гош», «Ив Роше» и Bonprix используют Big Data для персонального маркетинга в своих рекламных кампаниях, а также повышают лояльность клиентов и стимулируют продажи...

16Май
2020

Видеоаналитика с Machine Learning в ритейле: персональный маркетинг vs 152-ФЗ

Автор Анна Вичуговав категории Machine Learning, Блог, Распознавание лиц, Цифровая трансформация

Big Data, Большие данные, обработка данных, ритейл, предиктивная аналитика, интернет вещей, Internet of Things, IoT, IIoT, машинное обучение, Machine Learning, видеонаблюдение, FMCG

В продолжение темы про использование технологий Big Data и Machine Learning в FMCG-бизнесе, сегодня мы поговорим, как распознавание лиц помогает сформировать персональные маркетинговые предложения и насколько это законно. Разбираемся с видеоаналитикой и 152-ФЗ «О персональных данных» на примерах отечественных и зарубежных ритейлеров. От воров до VIP-клиентов: 5 примеров распознавания лиц...

15Май
2020

Как видеоаналитика Big Data с Machine Learning приносит деньги: 7 примеров FMCG

Автор Анна Вичуговав категории Machine Learning, Блог, Распознавание лиц, Цифровая трансформация

Современное видеонаблюдение в ритейле – это не только обнаружение магазинных воришек, а полноценная аналитика Big Data с мощными алгоритмами Machine Learning для оперативного и стратегического управления. В этой статье мы приготовили для вас 7 сценариев практического использования технологий видеоаналитики в FMCG-секторе с реальными кейсами их внедрения в России на примере...