Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

07Сен
2020

Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов

Автор Анна Вичуговав категории AirFlow, Internet of Things, Spark, Use Cases, Блог

Spark, Airflow, обработка данных, архитектура, Livy, большие данные, Big Data

Сегодня поговорим про построение конвейеров обработки данных (data pipeline) на примере совместного использования Apache Spark с Airflow и рассмотрим типовые проблемы этой комбинации. Читайте в нашей статье, как автоматизировать задачи пакетной и потоковой обработки больших данных (Big Data) с помощью гибкого REST-API Apache Livy, включая работу с Python-кодом, отказоустойчивость и...

13Авг
2020

Особенности корпоративной интеграции на ESB и Apache Kafka: vs или вместе?

Автор Анна Вичуговав категории Kafka, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, Kafka, архитектура, администрирование, ESB

Есть мнение, что использование Apache Kafka в качестве корпоративной сервисной шины (ESB, Enterprise Service Bus) является антипаттерном. Сегодня мы проясним это категоричное утверждение и рассмотрим, как корректно реализовать ESB с помощью Kafka на практическом примере шины данных в компании Avito.ru. Что такое ESB и чем это отличается от брокера сообщений...

11Авг
2020

Комбо потоковой обработки Big Data с Apache Kafka и NiFi: пара практических примеров

Автор Анна Вичуговав категории Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, обработка данных, Kafka, NiFi, архитектура, администрирование, ETL

Сегодня рассмотрим примеры совместного использования двух популярных технологий потоковой обработки больших данных (Big Data): Apache Kafka и NiFi. Читайте в нашей статье, как они дополняют друг друга, каковы преимущества их объединения и каким образом инженеру Data Flow это реализовать на практике. Еще раз о том, что такое Apache Kafka и...

10Авг
2020

5 причин, почему аналитика больших данных иногда выгоднее модного Data Science: взгляд со стороны бизнеса

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, обработка данных, CRISP-DM, Data Science, Data Scientist

В этой статье мы рассмотрим несколько популярных мифов о Data Science и аналитике больших данных (Big Data), разобрав, когда и почему простое использование BI-систем или облачных DaaS-платформ бывает гораздо эффективнее попыток внедрения алгоритмов машинного обучения (Machine Learning) и прочих методов Data Science в операционные и стратегические бизнес-процессы. Почему 80% Data...

09Авг
2020

3 проблемы администрирования Apache Kafka и пути их решения на практических примерах

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, Kafka, администрирование, архитектура

Администрирование кластера Kafka порой напоминает работу детектива, когда нужно понять мотив преступления причину появления того или иного бага и устранить ее вместе с последствиями наиболее оптимальным способом. В этой статье мы рассмотрим несколько практических примеров конфигурирования Apache Kafka из опыта компании Booking.com, кейс которой был представлен в докладе ее сотрудника...

08Авг
2020

Как сэкономить место на диске, управляя временем: проблемы администрирования Apache Kafka на примере Booking.com

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

В продолжении серии статей по докладу Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech, сегодня мы рассмотрим некоторые проблемы администрирования Apache Kafka, с которыми можно столкнуться на практике. Читайте в этом материале, как не допустить разрастание топика, правильно задав параметр CreateTime. Что делать,...

06Авг
2020

Борьба со сложностью ACL-настроек в Apache Kafka или self-service авторизации в Booking.com

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, Kafka, администрирование, архитектура, Security, DevOps

Аутентификация – далеко не единственная возможность обеспечения информационной безопасности в Apache Kafka. Сегодня мы продолжим разговор про Big Data cybersecurity и рассмотрим особенности авторизации в Apache Kafka в формате самообслуживания (self-service), как это было сделано в travel-компании Booking.com. В качестве примера продолжим разбирать доклад Александра Миронова, который был представлен 23...

05Авг
2020

Особенности самообслуживаемой аутентификации Apache Kafka на примере Booking.com

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, предиктивная аналитика, обработка данных, Kafka, администрирование, архитектура, Security

Продолжая разбирать доклад Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech, сегодня мы рассмотрим, с какими проблемами столкнулись администраторы Big Data при обеспечении информационной безопасности своих Кафка-кластеров. Читайте в нашей статье про возможные методы аутентификации в Apache Kafka и их практическое использование в...

04Авг
2020

45+ кластеров и 2 DevOps-лайфхака по администрированию Apache Kafka от Booking.com

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, предиктивная аналитика, обработка данных, Kafka, администрирование, архитектура, DevOps, Security

Сегодня мы разберем доклад Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech [1]. Читайте в нашей статье, как одна из ведущих travel-компаний использует Apache Kafka, с какими проблемами столкнулись администраторы ее Big Data инфраструктуры и DevOps-инженеры, а также почему были выбраны именно такие...

03Авг
2020

Что такое биржа данных и зачем нужны DMP-платформы: монетизация Big Data по DaaS-модели

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

DaaS, Data as a Service, Data Exchange, DMP, цифровая экономика, цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, обработка данных

Завершая серию статей про DaaS-подход, сегодня рассмотрим наиболее популярные решения класса Data as a Service, а также поговорим, какое место в этой области занимают маркетплейсы/биржи данных и DMP-платформы. Читайте в нашей статье, как заработать на информации о своих пользователях и получить аналитику больших данных для бизнес-инсайтов без локального развертывания сложной...