Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

23Мар
2021

Как построить свой OAuth с аутентификацией и авторизацией для Kafka: кейс BlackRock

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Apache Kafka для разработчиков, потоковая аналитика больших данных, курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka security, безопасность кластера Кафка, настройка аутентификации и авторизации в Кафка

Чтобы сделать наши курсы по Apache Kafka еще более полезными, сегодня мы поговорим про базовые и расширенные возможности обеспечения информационной безопасности этой Big Data платформы. А в качестве практического примера разберем кейс международной финтех-компании BlackRock, которая разработала собственное security-решение для Kafka на базе протокола OAuth и серверов единого доступа KeyCloak....

22Мар
2021

Премиум-коннектор в люксовый enterprise: интеграция Apache Kafka с Oracle Database

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков, потоковая аналитика больших данных, CDC Oracle Kafka Connector Confluent, курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka, Kafka Connect, Oracle Database

В феврале 2021 года разработчики корпоративной версии Apache Kafka с коммерческой поддержкой, компания Confluent, выпустили премиум-коннектор к Oracle – одной из главных реляционных баз данных мира enterprise. Разбираемся, кому и зачем это нужно, а также как устроена такая интеграция SQL-СУБД и потоковой аналитики Big Data с применением CDC-подхода. Реляционный монолит...

11Мар
2021

От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka, озеро данных, Data Lake

Постоянно добавляя в наши курсы Apache Kafka для разработчиков интересные и практические примеры, сегодня мы разберем кейс тревел-площадки Trainline, которая агрегирует данные от 270 железнодорожных и автобусных компаний в 45 странах, предлагая выгодные билеты на европейские поезда и автобусы. Читайте далее, почему пакетный режим работы озера данных перестал отвечать требованиям...

09Мар
2021

Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы по Kafka, обучение Кафка, курсы инженеров данных, курсы Spark, обучение Apache Spark, big data pipeline on Apache Kafka and Spark

Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и других технологий Big Data. Читайте далее о преимуществах облачного Delta Lake от Databricks над традиционным Data Lake. Постановка задачи: финансовая...

02Мар
2021

3 проблемы с топиками Kafka для администратора кластера и способы их решения

Автор Анна Вичуговав категории Use Cases, Блог

курсы по Kafka, Kafka кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, архитектура, Kafka, администрирование

В этой статье рассмотрим типичные проблемы топиков Apache Kafka, с которыми сталкивается каждый администратор Big Data кластера. Читайте далее, почему топики чрезмерно разрастаются, как работает очистка логов, когда старые сообщения могут остаться в почищенных сегментах и какие параметры конфигураций помогут справиться со всем этим. Брокеры и разделы: как устроены топики...

01Мар
2021

Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Автор Анна Вичуговав категории Spark, Блог

Spark Structured Streaming and Kafka data pipeline, курсы по Spark, Apache Spark Для разработчиков и инженеров данных, Apache Spark для инженеров, данных курсы обучение, экономика больших данных, Big Data AWS кейс оптимизации расходов

Чтобы дополнить наши курсы по Spark для разработчиков распределенных приложений и инженеров данных практическими примерами, сегодня рассмотрим кейс американской ИТ-компании ThousandEyes, которая разрабатывает программное обеспечение для анализа производительности локальных и глобальных сетей. Читайте далее, как создать надежный конвейер и устойчивое озеро данных (Data Lake) для быстрой аналитики Big Data в...

19Фев
2021

Как перейти на Apache Kafka без Zookeeper: готовимся к KIP-500 в релизе 2.8.0

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Zookeeper, курсы Kafka, обучение Apache Kafka, курсы Kafka администратор кластера, администрирование Big Data кластера Кафка обучение, Big Data, Большие данные, обработка данных

Спустя пару месяцев с выпуска Apache Kafka 2.7.0, Confluent анонсировал новый релиз этой платформы потоковой передачи событий, в котором, наконец, случится долгожданный отказ от Zookeeper. Читайте далее, как это облегчит жизнь администратору Kafka-кластера и разработчику распределенных приложений потоковой аналитики больших данных, а также как подготовить свою Big Data инфраструктуру к...

18Фев
2021

Apache Kafka 2.7.0: ТОП-15 обновлений декабря 2020 года

Автор Анна Вичуговав категории Kafka

Kafka, Zookeeper, курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных

В конце декабря 2020 года вышел новый релиз Apache Kafka – главной Big Data технологии для потоковой передачи событий, интеграции распределенных систем и аналитики больших данных. Читайте далее о новых функциональных возможностях и исправленных ошибках в свежей версии 2.7.0: еще один шаг к отказу от Zookeeper, генерация уведомительных исключений и улучшения...

17Фев
2021

ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data

Автор Анна Вичуговав категории Kafka, Блог

что такое ksqlDB, курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL

Продолжая разговор про обучение разработчиков Apache Kafka, сегодня рассмотрим, чем ksqlDB отличается от Kafka Streams. Также читайте далее про основные достоинства и недостатки перезапуска KSQL в виде отдельной базы данных потоковой передачи событий с API-интерфейсом на основе SQL для запроса и обработки информации из топиков Kafka. ksqlDB vs Kafka Streams:...

16Фев
2021

Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных, архитектура, Kafka, облака, SQL, DevOps, Kubernetes

В этой статье поговорим про KSQL на примере кейса компании американской компании Pluralsight, которая предлагает различные обучающие видео-курсы для разработчиков ПО, ИТ-администраторов и творческих профессионалов. Читайте далее, как использовать Apache Kafka с Kubernetes для построения надежных систем потоковой аналитики больших данных, а также чем ksqlDB отличается от KSQL. Apache Kafka...

11Фев
2021

Большие данные с малыми затратами: как снизить стоимость OLAP-аналитики Big Data в Delta Lake на AWS с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы дата-инженеров, обучение инженеров данные, курсы Big Data инженер, курсы Apache Spark, обучение Spark, курсы Apache Kafka, обучение Kafka, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, облака

Хорошие курсы инженеров данных – это не просто обучение отдельной Big Data технологии, такой как Apache Hadoop, Spark или Kafka, а жизненные примеры их практического использования в реальном бизнесе. Поэтому сегодня мы приготовили для вас кейс оптимизации стоимости и скорости OLAP-аналитики больших данных в облачном Delta Lake на Amazon Web...

08Фев
2021

Как читать медицинские снимки с Apache Spark: Big Data библиотека для быстрой обработки DICOM-файлов

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Spark, Apache Spark Для разработчиков, разработка Spark-приложений, Big Data, Большие данные, обработка данных, Spark, Hadoop, Machine Learning, Машинное обучение, Elasticsearch, Kafka, Python

Продвигая наши курсы для разработчиков Spark с примерами реальных систем аналитики больших данных, сегодня рассмотрим библиотеку для чтения файлов формата DICOM от индийской компании Abzooba. Читайте далее, как автоматизировать поиск по миллиардам медицинских изображений с помощью машинного обучения и технологий Big Data: Apache Spark, Hadoop, Kafka, Elasticsearch и Kibana. Что...

04Фев
2021

Быстрее и безопаснее: потоковая аналитика больших данных для трекинга самолетов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, инженерия данных обучение, дата-инженер курсы, Apache Spark для инженеров больших данных и разработчиков обучение, Amazon Web Services Kinesism Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, SQL, предиктивная аналитика

Чтобы показать, насколько разной бывает аналитика больших данных, сегодня рассмотрим кейс международной компании Spidertracks, которая с помощью технологий Big Data создает ИТ-решения для отслеживания, связи и управления безопасностью воздушных судов. Читайте далее, почему для потоковой обработки событий был выбран Kinesis Analytics for SQL, а не конвейер из Apache Kafka и...

03Фев
2021

Конвейер CDC для Databricks Delta Lake: пример быстрого сбора и аналитики Big Data с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Apache Kafka для разработчиков, обучение Kafka, курсы Apache Kafka, Apache Spark для разработчиков, обучение Spark, курсы Apache Spark, интеграция Kafka Spark Streaming, аналитика Big Data, аналитика больших данных примеры и кейсы, обучение инженеров данных, курсы дата-инженеров, CDC Big Data, Change Data Capture Kafka Spark, аналитика Big Data, Школа Больших Данных Учебный центр Коммерсант, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hadoop

Сегодня продолжим разбираться с реализацией CDC-подхода в современных Big Data решениях и погрузимся в Databricks Delta Lake – облачный уровень хранения и аналитики больших данных с поддержкой ACID-транзакций. Читайте далее про переход от ночных ETL-пакетов с Informatica к быстрому обновлению данных в Amazon S3 на конвейере Spark и Kafka. Возможности...

02Фев
2021

CDC для потоковой аналитики Big Data с Apache Kafka и Spark: 3 практических примера

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Вчера мы упоминали про CDC-подход в проектировании транзакционных систем аналитики больших данных на базе Apache Kafka и Spark Streaming. Сегодня рассмотрим подробнее примеры такого применения технологий Big Data и лучшие практики Change Data Capture в потоковой обработке финансовых и других транзакций. Зачем нужны потоковые конвейеры транзакционной обработки Big Data на...

01Фев
2021

Что не так с real-time обработкой транзакций в конвейере Apache Kafka-Spark Streaming: 3 проблемы и способы их решения

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Apache Kafka для разработчиков, обучение Kafka, курсы Apache Kafka, Apache Spark для разработчиков, обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, интеграция Kafka Spark Streaming, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, e-commerce, Hadoop, HDFS, аналитика больших данных примеры и кейсы

В этой статье рассмотрим особенности совместного использования Apache Kafka и Spark Streaming для обработки финансовых транзакций в режиме онлайн. Читайте далее про типовые кейсы практического применения конвейера аналитики больших данных на базе Kafka и Spark, а также проблемы или технологические особенности такой Big Data системы и пути обхода этих ограничений....

28Янв
2021

Apache Kafka или Pulsar: что и когда выбирать

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Kafka, курсы администрирования Kafka, Apache Kafka для администраторов, обработка данных, большие данные, Big Data, архитектура, Kafka, Pulsar

В заключение цикла статей о сравнении Apache Kafka с Pulsar, сегодня мы перечислим, когда следует предпочесть второй вариант для построения распределенных масштабируемых систем потоковой аналитики больших данных. Также читайте далее, с какими ограничениями придется мириться в случае выбора этого Big Data фреймворка. 5 случаев, когда Apache Pulsar лучше Kafka При...

27Янв
2021

3 примера использования Pulsar в production вместо Apache Kafka

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Вчера мы опровергали мифы о превосходстве молодого Apache Pulsar над зрелой Kafka, наглядно показав, что именно второй Big Data фреймворк больше подходит для построения по-настоящему масштабных и высоконадежных распределенных масштабируемых систем потоковой аналитики больших данных. Тем не менее, благодаря своим архитектурным особенностям Pulsar постепенно завоевывает собственную нишу и становится все...

26Янв
2021

5 главных мифов о превосходстве Apache Pulsar над Kafka и их опровержения

Автор Анна Вичуговав категории Kafka, Блог

Оставив за рамками этой статьи бенчмаркинговые войны по оценке производительности Apache Pulsar в сравнении с Kafka и RabbitMQ, сегодня разберем 5 популярных мифов о превосходстве молодого Пульсар над зрелой Кафка – платформой потоковой обработки событий с точки зрения администрирования и эксплуатации. Читайте далее, правда ли управлять кластером Pulsar проще, чем...

25Янв
2021

Кто быстрее: критика бенчмаркинга производительности Apache Kafka versus Pulsar

Автор Анна Вичуговав категории Kafka, Блог

Продолжая разбирать сходства и различия Apache Pulsar с Kafka и RabbitMQ, сегодня попытаемся выяснить, какой Big Data фреймворк все-таки лучше: погрузимся в особенности бенчмаркинговых исследований, сравнивающих эти платформы. Читайте далее, почему не стоит безоговорочно доверять локальным бенчмаркинг-тестам оценки производительности и какие факторы действительно нужно учитывать при выборе фреймворка для разработки...