Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

09Авг
2020

3 проблемы администрирования Apache Kafka и пути их решения на практических примерах

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, Kafka, администрирование, архитектура

Администрирование кластера Kafka порой напоминает работу детектива, когда нужно понять мотив преступления причину появления того или иного бага и устранить ее вместе с последствиями наиболее оптимальным способом. В этой статье мы рассмотрим несколько практических примеров конфигурирования Apache Kafka из опыта компании Booking.com, кейс которой был представлен в докладе ее сотрудника...

08Авг
2020

Как сэкономить место на диске, управляя временем: проблемы администрирования Apache Kafka на примере Booking.com

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

В продолжении серии статей по докладу Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech, сегодня мы рассмотрим некоторые проблемы администрирования Apache Kafka, с которыми можно столкнуться на практике. Читайте в этом материале, как не допустить разрастание топика, правильно задав параметр CreateTime. Что делать,...

06Авг
2020

Борьба со сложностью ACL-настроек в Apache Kafka или self-service авторизации в Booking.com

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, Kafka, администрирование, архитектура, Security, DevOps

Аутентификация – далеко не единственная возможность обеспечения информационной безопасности в Apache Kafka. Сегодня мы продолжим разговор про Big Data cybersecurity и рассмотрим особенности авторизации в Apache Kafka в формате самообслуживания (self-service), как это было сделано в travel-компании Booking.com. В качестве примера продолжим разбирать доклад Александра Миронова, который был представлен 23...

05Авг
2020

Особенности самообслуживаемой аутентификации Apache Kafka на примере Booking.com

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, предиктивная аналитика, обработка данных, Kafka, администрирование, архитектура, Security

Продолжая разбирать доклад Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech, сегодня мы рассмотрим, с какими проблемами столкнулись администраторы Big Data при обеспечении информационной безопасности своих Кафка-кластеров. Читайте в нашей статье про возможные методы аутентификации в Apache Kafka и их практическое использование в...

04Авг
2020

45+ кластеров и 2 DevOps-лайфхака по администрированию Apache Kafka от Booking.com

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, предиктивная аналитика, обработка данных, Kafka, администрирование, архитектура, DevOps, Security

Сегодня мы разберем доклад Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech [1]. Читайте в нашей статье, как одна из ведущих travel-компаний использует Apache Kafka, с какими проблемами столкнулись администраторы ее Big Data инфраструктуры и DevOps-инженеры, а также почему были выбраны именно такие...

03Авг
2020

Что такое биржа данных и зачем нужны DMP-платформы: монетизация Big Data по DaaS-модели

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

DaaS, Data as a Service, Data Exchange, DMP, цифровая экономика, цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, обработка данных

Завершая серию статей про DaaS-подход, сегодня рассмотрим наиболее популярные решения класса Data as a Service, а также поговорим, какое место в этой области занимают маркетплейсы/биржи данных и DMP-платформы. Читайте в нашей статье, как заработать на информации о своих пользователях и получить аналитику больших данных для бизнес-инсайтов без локального развертывания сложной...

02Авг
2020

От онлайн-ставок до выборов президента: 3 практических примера использования DaaS-подхода в реальном бизнесе

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, обработка данных

В этой статье продолжим разбираться с DaaS-подходом и рассмотрим несколько реальных кейсов, когда бизнес выбирал услугу «данные как сервис» у облачного провайдера и какую практическую пользу, а также проблемы это принесло. Читайте в нашей статье, как концепция Data as a Service влияет на деятельность частных компаний и целых государств, а...

25Июл
2020

7 этических проблем отечественной цифровизации и пути их решения

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, цифровая экономика, управление, утечки данных, Security, защита информации, Big Data, Machine Learning, искусственный интеллект, большие данные, безопасность, Большие данные, предиктивная аналитика

Вчера мы говорили о том, какие организационные барьеры мешают реализации запланированных проектов национальной программы «Цифровая экономика РФ». Сегодня рассмотрим основные этические риски, которые сдерживают развитие цифровой трансформации в России и разберем некоторые возможности их обхода. Чем страшна цифровизация: 7 ключевых проблем с точки зрения этики 16 января 2020 года Центр...

21Июл
2020

Успехи Industry 4.0 на российских заводах: 5 примеров СИБУРа

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, цифровизация, цифровая трансформация, интернет вещей, Internet Of things, IIoT, IoT, Data Lake, Machine Learning, машинное обучение, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В этой статье рассмотрим, как технологии Industry 4.0 помогают российскому нефтехимическому холдингу СИБУР повысить операционную эффективность производства и обеспечить безопасность труда. Сегодня мы собрали для вас 5 примеров практического использования различных методов и инструментов Big Data, Machine Learning, Industrial Internet of Things (IIoT), а также XR (AR+VR). Зачем нефтехимикам технологии...

20Июл
2020

Как найти товарные остатки с помощью Big Data и Machine Learning: пример Леруа Мерлен

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, цифровизация, цифровая трансформация, Kafka, ритейл, Greenplum, Tarantol, SQL, NoSQL, AirFlow, NiFi, ETL, Data Lake, Machine Learning, машинное обучение

Чтобы наглядно показать, как аналитика больших данных и машинное обучение помогают быстро решить актуальные бизнес-проблемы, сегодня мы рассмотрим кейс компании Леруа Мерлен. Читайте в нашей статье про нахождение аномалий в сведениях об остатках товара на складах и в магазинах с помощью моделей Machine Learning, а также про прикладное использование Apache...

18Июл
2020

Как организовать конвейер self-service Machine Learning на Apache Kafka, Spark Streaming, Kudu и Impala: пример расширенной BI-аналитики Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, банки, security, машинное обучение, Machine Learning

Продолжая разбирать production-кейсы реального использования этих технологий Big Data, сегодня поговорим подробнее, каковы плюсы совместного применения Kudu, Spark Streaming, Kafka и Cloudera Impala на примере аналитической платформы для мониторинга событий информационной безопасности банка «Открытие». Также читайте в нашей статье про возможности этих технологий в контексте машинного обучения (Machine Learning), в...

17Июл
2020

Как сократить цикл BI-аналитики Big Data в тысячи раз или ETL-конвейер Apache Kafka-Storm-Kudu-Impala в Xiaomi

Автор Анна Вичуговав категории Hive, Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, Storm

Сегодня мы рассмотрим практический кейс использования Apache Kudu с Kafka, Storm и Cloudera Impala в крупной китайской корпорации, которая производит смартфоны. На базе этих Big Data технологий компания Xiaomi построила собственную платформу для BI-аналитики больших данных и генерации отчетности в реальном времени. История Kudu-проекта в Xiaomi Корпорация Xiaomi начала использовать...

16Июл
2020

BI-аналитика больших данных и другие Big Data системы: 5 примеров применения Apache Kudu

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, SQL, NoSQL, Kudu

Вчера мы говорили про интеграцию Apache Kudu со Spark SQL, Kafka и Cloudera Impala для эффективной организации озера данных (Data Lake), обеспечивающего быструю аналитику больших данных в режиме реального времени. В продолжение этой темы, сегодня рассмотрим 5 примеров практического использования kudu в Big Data проектах, уделив особое внимание системам бизнес-аналитики...

15Июл
2020

Быстрая аналитика больших данных в Data Lake на Apache Kudu с Kafka и Spark

Автор Анна Вичуговав категории Hive, Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive, Kafka, Spark, Kudu

В продолжение темы про совместное использование Apache Kudu с другими технологиями Big Data, сегодня рассмотрим, как эта NoSQL-СУБД работает вместе с Kafka, Spark и Cloudera Impala для построения озера данных (Data Lake) для быстрой аналитики больших данных в режиме реального времени. Также читайте в нашей статье про особенности интеграции Apache...

13Июл
2020

Синергия Apache Kudu с HDFS и Impala для быстрой аналитики Big Data в Hadoop

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive

В этой статье продолжим разговор про Apache Kudu и рассмотрим, как эта NoSQL-СУБД используется с Hadoop и Cloudera Impala, чем она полезна в организации озера данных (Data Lake) и почему Куду не заменяет, а успешно дополняет HDFS и HBase для эффективной работы с большими данными (Big Data). Apache Kudu в...

09Июл
2020

Расширенная аналитика больших данных с помощью Self-service Machine Learning и AutoML: как Data Science усиливает технологии Big Data

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, цифровизация, цифровая трансформация, Machine Learning, Машинное Обучение, предиктивная аналитика

Продолжая разговор про расширенную аналитику больших данных с помощью инструментов Big Data и методов Data Science, сегодня рассмотрим, что такое самообслуживаемое машинное обучение, а также разберем, чем self-service Machine Learning отличается от AutoML. Что такое самообслуживаемое машинное обучение В июне 2020 года аналитическое агентство Gartner опубликовало очередной список самых перспективных...

08Июл
2020

Самостоятельная и независимая аналитика больших данных: разбираемся с self-service BI для Big Data

Автор Анна Вичуговав категории Hive, Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, Hadoop, Data Lake, цифровизация, цифровая трансформация, Machine Learning, Машинное Обучение, предиктивная аналитика, SQL

Аналитика больших данных для руководителей и других конечных бизнес-пользователей – это не только графические дэшборды BI-систем. Сегодня рассмотрим, что такое самообслуживаемая аналитика Big Data, какова ее польза для бизнеса и чего не стоит ждать от self-service BI. Что такое self-service BI: определение, назначение и примеры Еще в 2018 году исследовательское...

07Июл
2020

От косметики до машиностроения: 3 кейса внедрения технологий Big Data на примере Data Lake

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, цифровизация, цифровая трансформация, IIoT, Internet of Things, IoT, Machine Learning, интернет вещей, Машинное Обучение, нефтегазовая отрасль, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В продолжение темы про озера данных (Data Lake) и Apache Hadoop, сегодня мы рассмотрим еще 3 примера использования этих технологий Big Data для аналитики больших данных в промышленности. Читайте в нашей статье, как косметический гигант L’Oréal создает новые продукты с помощью платформы Talend Data Fabric, «УРАЛХИМ» прогнозирует объемы продукции и...

05Июл
2020

Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, DWH, цифровизация, цифровая трансформация, Arenadata

В этой статье разберем кейс построения экосистемы управления Big Data с озером данных на примере федеральной фармацевтической сети - российской Ассоциации независимых аптек (АСНА). Читайте в этом материале, зачем фармацевтическому ритейлеру большие данные, с какими трудностями столкнулся этот проект цифровизации и как открытые технологии (Arenadata Hadoop, Apache Spark, NiFi и...

03Июл
2020

Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Apache Bigtop, Big Data, Большие данные, обработка данных, архитектура, Hadoop, MapReduce, Hbase

Сегодня поговорим про еще один open-source проект от Apache Software Foundation – Bigtop, который позволяет собрать и протестировать собственный дистрибутив Hadoop или другого Big Data фреймворка, например, Greenplum. Читайте в нашей статье, что такое Apache Bigtop, как работает этот инструмент, какие компоненты он включает и где используется на практике. Что...