Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

24Фев
2022

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, Upstash Kafka, курсы Kafka, Kafka serverless, администрирование кластера Kafka, Apache Kafka для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня поговорим про администрирование кластера Apache Kafka и разработку потоковых приложений передачи и разберем, как обеспечить их работу в бессерверном режиме с платформой Upstash. Финансовая экономия, простота сопровождения и другие преимущества FaaS-сервисов и serverless-подхода с RESTfull API для обработки событий в реальном времени. Снова про serverless: что такое Upstash Kafka...

18Фев
2022

Копирование сложных структур данных из Kafka в СУБД с SMT и JDBC Sink Connector

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka курсы примеры, Apache Kafka Connect для разработчиков, парсинг JSON Kafka Streams KsqlDB Connect, обучение большим данным, Kafka SMT использование пример, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассматривали особенности обработки вложенных структур данных на примере парсинга JSON-файлов с Apache Spark и Hive. Развивая эту тему, сегодня поговорим про перенос записей с вложенными массивами из топиков Apache Kafka в реляционные СУБД с пользовательскими SMT-преобразователями и JDBC-коннектором: кейс для разработчиков. Проблемы обработки сложных структур данных с JDBC-коннектором...

17Фев
2022

Зачем вам GreenplumR: синергия MPP-СУБД и интерпретируемого языка для статистики

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum R клиент статистический анализ данных Arenadata DB обучение курсы примеры, Greenplum для дата-аналитика обучение курс примеры, GreenplumR примеры курсы обучение, Arenadata DB примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как использовать статистический язык R для анализа данных в Greenplum. Что такое GreenplumR, как работает этот интерактивный клиент, чем он полезен специалисту по Data Science и каковы недостатки этого инструмента аналитики больших данных. Что такое GreenplumR Хотя основным языком в области Data Science сегодня считается Python, иногда специалисты...

12Фев
2022

5 шагов по миграции на новый релиз Apache Kafka 3.1.0 и подводные камни

Автор Анна Вичуговав категории Kafka, Блог

администратор кластера Kafka, обучение Apache Kafka, Apache Kafka, курсы примеры обучение для разработчиков и администраторов, последняя версия Apache Kafka, обновления Apache Kafka 3.1.0, обучение разработчиков и администраторов Big Data, Школа Больших Данных Учебный центр Коммерсант

Вчера мы писали о недавно вышедшем свежем релизе Apache Kafka 3.1.0, который вышел в январе 2022 года. Сегодня рассмотрим, как безболезненно перейти на эту версию и избежать возможных побочных эффектов, связанных с некоторыми архитектурными изменениями платформы. Побочные эффекты и подводные камни обновления Напомним, в Apache Kafka 3.1.0 добавлена новая фича...

11Фев
2022

Apache Kafka 3.1.0: что нового?

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka, курсы примеры обучение для разработчиков и администраторов, последняя версия Apache Kafka, обновления Apache Kafka 3.1.0, обучение разработчиков и администраторов Big Data, Школа Больших Данных Учебный центр Коммерсант

24 января 2022 года вышел новый релиз Apache Kafka. Главные новинки самой последней на сегодня стабильной версии 3.1.0: добавленные фичи, улучшения и исправленные баги краткий обзор для разработчиков распределенных приложений Kafka Streams и администраторов кластера этой платформы потоковой передачи событий. Новинки Apache Kafka 3.1.0 для администратора кластера В свежем релизе...

10Фев
2022

Архитектура больших данных: 5 шаблонов проектирования распределенных систем

Автор Анна Вичуговав категории Kafka, Блог

архитектура больших данных курсы примеры обучение, шаблоны проектирования распределенных приложений, Saga CQRS Sharded services микросервисная архитектура примеры курсы обучение, курсы для ИТ-архитекторов по Big Data, обучение разработчиков больших данных распределенных приложений, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про архитектурный шаблон CQRS и его реализацию на базе Apache Kafka. В продолжение этой темы для обучения ИТ-архитекторов и разработчиков Big Data приложений, сегодня рассмотрим еще несколько популярных шаблонов проектирования распределенных систем: достоинства, недостатки, примеры реализации и способы их использования. Шаблоны проектирования распределенных систем: что это и...

04Фев
2022

Современная инженерия данных: от Data Lake к облачной Лямбда

Автор Анна Вичуговав категории AirFlow, HBase, Kafka, Spark, Use Cases, Блог

инженерия данных курсы обучение примеры, архитектура больших данных курсы примеры обучение, обучение большим данным, курс дата-инженер Kafka Spark AirFlow Hadoop, обучение BIg Data для архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Сегодня обсудим ключевые тренды развития дата-инженерии и инструментальные средства их реализации. Как это применяется на практике, рассмотрим на примере эволюции хранилища данных в индонезийской ИТ-компании Bukalapak, от локального кластера Apache HBase до Лямбда-архитектуры в облаке Google Cloud Platform с Kafka, Spark и AirFlow. 7 главных драйверов развития дата-инженерии В наши...

03Фев
2022

Архитектура больших данных: реализация шаблона CQRS на Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams курсы обучение, Kafka для архитекторов и разработчиков, архитектура данных обучение примеры курсы CQRS, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka Streams и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений и ИТ-архитекторов разберем достоинства и недостатки паттерна проектирования CQRS, а также рассмотрим пример его реализации на Apache Kafka, Spring Cloud Stream и MongoDB. Что такое CQRS: основы проектирования архитектуры приложений Спрос на приложения, управляемые событиями, постоянно растет как для решения новых бизнес-задач, так...

01Фев
2022

Лямбда-архитектура IoT-системы на Apache Kafka, Flink и Cassandra

Автор Анна Вичуговав категории Flink, Internet of Things, Блог

архитектура данных курсы обучение, архитектура больших данных, курсы Apache Flink Kafka Cassandra примеры обучение, обучение большим данным, курсы дата-инженер, инженерия данных обучение, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров интересные кейсы, сегодня рассмотрим, как реализовать Лямбда-архитектуру для комплексной аналитики больших данных с помощью Apache Flink, Kafka и Cassandra на примере системы интернета вещей. Объединение пакетной и потоковой обработки данных средствами Flink API и библиотек этого фреймворка. Постановка задачи на примере IoT-системы Несмотря на...

29Янв
2022

Не только PXF: краткий обзор интеграции Greenplum с другими Big Data системами и инструменты полнотекстового поиска

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum коннекторы полнотекстовый анализ Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, установка и развертывание Greenplum Arenadata DB, Школа Больших Данных Учебный центр Коммерсант

Мы уже рассказывали про связь Greenplum с другими источниками и приемниками данных с помощью PXF-фреймворка, а также отдельных коннекторов к некоторым системам. Сегодня рассмотрим, какие вообще есть коннекторы данных в этой MPP-СУБД и что такое Tanzu Greenplum Text. Коннекторы и фреймворки для интеграции GP и Arenadata DB с внешними системами...

27Янв
2022

Безопасность Kafka на Kubernetes с помощью Strimzi: аутентификация и авторизация

Автор Анна Вичуговав категории Kafka, Блог

Strimzi Kafka Kubernetes Security, администрирование кластера Apache Kafka Kubernetes, обучение Kafka, курсы Apache Kafka администратор кластера, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про развертывание Apache Kafka на Kubernetes с помощью open-source проекта Strimzi. Сегодня рассмотрим, как обеспечить безопасный доступ к данным на таком кластере, применив различные методы аутентификации и авторизации. Лучшие практики cybersecurity на практическом примере. Постановка задачи: пример приложения с безопасным доступом к данным Напомним, Strimzi – это...

23Янв
2022

Автоматическая диагностика и исправление сбоев в платформе данных Netflix c Apache Spark, Kafka, Flink и другими технологиями Big Data

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

обучение дата-инженеров, инженерия данных курсы, инженер Big Data, курсы Flink Kafka Spark, обучение большим данным примеры кейсы курсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров еще более интересными, сегодня рассмотрим практический пример построения инфраструктуры для автоматической диагностики и исправления ошибок пакетной и потоковой обработки данных в Netflix. Комплексная система на базе Apache Spark, Kafka, Flink, Druid, сервисов AWS и других технологий Big Data. Предыстория: зачем Netflix разработал Pensive Обработка...

20Янв
2022

Где развернуть Greenplum: программно-аппаратное окружение серверов и достоинства Arenadata DB для администратора кластера

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, установка и развертывание Greenplum Arenadata DB, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пару важных тем для администратора Greenplum: требования к программно-аппаратному окружению, а также особенности установки и настройки этой MPP-СУБД. Еще разберем, как Arenadata Cluster Manager облегчает и автоматизирует эти процессы в Arenadata DB. Программное окружение Greenplum: операционные системы и Java Greenplum 6 работает на следующих платформах операционных систем: Red...

18Янв
2022

Снова про Apache Kafka на Kubernetes: Strimzi в помощь

Автор Анна Вичуговав категории Kafka, Блог

Strimzi Kafka Kubernetes, администррование кластера Apache Kafka Kubernetes, обучение Kafka, курсы Apache Kafka администратор кластера, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

При том, что развертывание и эксплуатация Apache Kafka на Kubernetes требуют от администратора кластера много сил и времени, эта идея имеет массу достоинств, о чем мы писали здесь. Поэтому появляются новые инструменты, которые облегчают эти процессы, например, KubeMQ или Strimzi, который мы рассмотрим в этой статье. Что такое Strimzi и при...

17Янв
2022

Потоковый веб-парсинг на Apache Flink + RabbitMQ: кейс от дата-инженеров FiscalNote

Автор Анна Вичуговав категории Flink, Блог

Apache Flink RabbitMQ инженерия данных, курсы Flink Hadoop обучение примерыб инженер данных Apache Flink, потоковая обработка данных с Apache Flink, обучение дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений разберем кейс американской ИТ-компании FiscalNote, которая использует Apache Flink в качестве движка потоковой обработки информации со сторонних веб-сайтов. Трудности сериализации сообщений из очередей RabbitMQ с разной скоростью поступления Big Data и способы их обхода. Постановка задачи: требования для Flink-приложения FiscalNote специализируется...

11Янв
2022

ksqlDB 0.22.0: ноябрьское обновление компонента Apache Kafka от Confluence

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams курсы обучение, KSQL Kafka, ksqlDB курсы примеры обучение, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka Streams и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

3 ноября 2021 года компания Confluent, которая занимается продвижением и коммерциализацией Apache Kafka, выпустила новый релиз ksqlDB, который включает 20 исправленных ошибок и 18 добавленных фич. Самое интересное в выпуске 0.22.0: улучшенные push- и pull-запросы, а также source-потоки и таблицы. 20 исправленных багов и 18 новых фич в ksqlDB 0.22.0...

08Янв
2022

Greenplum под защитой: настраиваем Kerberos

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB Kerberos обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, настройка безопасности Kerberos Greenplum Arenadata, Школа Больших Данных Учебный центр Коммерсант

В этой статье для администраторов Greenplum рассмотрим, как настроить систему сетевой защиты Kerberos для этой MPP-СУБД, чтобы контролировать доступ к хранящимся в ней данным с помощью сервера аутентификации. А также рассмотрим основные понятия и термины Kerberos применительно к Greenplum. Что такое Kerberos и зачем это в Greenplum Напомним, Kerberos –...

07Янв
2022

Повышаем устойчивость приложений Apache Kafka через обработку исключений

Автор Анна Вичуговав категории Kafka, Блог

разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, администрирование кластера Kafka, конфигурации брокера топика продсера и потребителя Kafka настройки, обучение дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем практический вопрос из обучения администраторов кластера Apache Kafka и разработчиков распределенных приложений. Про исключения в Kafka-приложениях: какие они бывают, почему случаются, с какими параметрами конфигурации связаны и что могут сказать о тонкостях потоковой обработки больших данных. Исключения и транзакции в Apache Kafka В ИТ под исключением понимается исключительная...

04Янв
2022

Savepoint vs Checkpoint в Apache Flink: сходства и отличия

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink курсы, Apache Flink для разработчиков, курсы Apache Hadoop для разработчиков примеры, Savepoint vs Checkpoint Apache Flink, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Разбираемся с механизмами отказоустойчивости Flink-приложений. Что такое контрольные точки (Checkpoint), чем они отличаются от точек сохранения (Savepoint) и что между ними общего. А также при чем здесь snapshot, что выбирать в разных случаях и как это использовать для отказоустойчивости stateful-приложений Apache Flink. Snapshot как механизм обеспечения отказоустойчивости приложений Apache Flink...

02Янв
2022

10 важных конфигураций Apache Kafka для практической работы

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, администрирование кластера Kafka, конфигурации брокера топика продсера и потребителя Kafka настройки, обучение дата-инженеров, обучение большим данным, архитектура больших данных, ML Feature Store Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Kafka для администраторов кластеров и разработчиков распределенных приложений еще более полезными, сегодня рассмотрим несколько полезных и значимых конфигурационных параметров этой платформы потоковой передачи событий. Что настроить на брокере, топике, продюсере и потребителе, как распараллелить потоки и обрабатывать транзакции. Настройка брокеров и потоков в Apache...