Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

16Окт
2023

Сетевые буферы в Apache Flink: что это такое и при чем здесь контрольные точки

Автор Анна Вичуговав категории Flink, Блог

сетевые буферы Flink, контрольные точки Flink, потоковая обработка Flink, управление памятью JVM Apache Flink, курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB, Hadoop курсы обучение, Apache Hadoop для инженеров данных и разработчиков курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как Apache Flink обеспечивает стабильно высокую пропускную способность потоковой обработки данных с помощью сетевых буферов и контрольных точек, каковы возможности и ограничения этих механизмов и какие конфигурации надо настроить для их эффективного использования. Зачем Apache Flink нужны сетевые буферы Каждая запись в Flink отправляется следующей подзадаче вместе с другими записями...

28Сен
2023

Что такое Apache Flink Stateful Functions и как это использовать?

Автор Анна Вичуговав категории Flink, Блог

Flink Stateful Functions, курсы Apache Flink, обучение Flink для разработчиков, API Apache Flink примеры курсы обучение, потоковая обработка данных с Apache Flink, архитектура Flink кластера, Школа Больших Данных Учебный центр Коммерсант

Зачем Apache Flink очередной API для создания распределенных приложений с отслеживанием состояния, чем он полезен и при чем здесь Kubernetes: ликбез по Stateful Functions. Apache Flink Stateful Functions Stateful Functions в Apache Flink – это API, который упрощает создание распределенных приложений с отслеживанием состояния с помощью среды выполнения, созданной для...

21Сен
2023

Почему производительность Apache Flink выше Spark: 5 главных причин

Автор Анна Вичуговав категории Flink, Spark, Блог

Spark vs Flink, сходства и различия Spark vs Flink, Flink примеры курсы обучение, курсы Spark, обучение Apache Spark, Spark SQL курсы обучение примеры, Spark vs Flink сравнение, Apache Spark Flink для инженеров и разработчиков, анализ больших данных с Apache Spark Flink, аналитика Big Data с Apache Spark Flink курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Из-за чего приложения Flink работают быстрее Spark: разница в моделях обработки данных, управлении памятью, методах оптимизации, дизайне API и личный опыт использования. Apache Flink vs Spark: сходства и отличия Apache Spark и Flink считаются наиболее популярными фреймворками разработки распределенных приложений в области Big Data. Они достаточно похожи, что мы ранее...

12Сен
2023

2 режима развертывания приложений Apache Flink: что и когда выбирать

Автор Анна Вичуговав категории Flink, Блог

Flink режимы развертывания заданий в кластере, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Какие режимы развертывания заданий поддерживает Apache Flink и чем они отличаются. Достоинства и недостатки режима сеанса и режима приложения, а также варианты использования. Особенности развертывания приложения Apache Flink Режим развертывания определяет, с каким уровнем изоляции ресурсов задание Flink будет выполняться в кластере. Напомним, выполнение задания Apache Flink включает 3 объекта:...

23Авг
2023

Как Apache Flink работает с файловыми системами

Автор Анна Вичуговав категории Flink, Блог

Flink HDFS S3 GCS файловая система, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Какие файловые системы поддерживает Apache Flink: средства взаимодействия с файлами, хранящимися локально или в объектных хранилищах HDFS, S3 и GCS. Особенности работы с файловыми системами в Apache Flink Apache Flink имеет собственную абстракцию файловой системы через класс org.apache.flink.core.fs.FileSystem. Эта абстракция обеспечивает общий набор операций и минимальные гарантии для различных типов...

17Авг
2023

Обогащение потока данных в Apache Flink: 3 способа добавить эталонные значения

Автор Анна Вичуговав категории Flink, Блог

Apache Flink обогащение потока данных, обучение Flink, курсы Flink, Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковое обогащение данных, зачем это нужно и как оно реализуется в Apache Flink. Проблемы и решения предварительной загрузки справочных данных в память, синхронного и асинхронного поиска в источнике по каждой записи и организация потоковой передачи событий. 3 способа загрузить эталонные (справочные) данных в Apache Flink для обогащения потока...

06Авг
2023

Под капотом PyFlink: как работает Python-интерфейс Apache Flink

Автор Анна Вичуговав категории Flink, Блог

PyFlink Java JVM, Apache Flink Python, обучение Flink, курсы Flink, Flink для разработчиков Python, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Как и большинство Big Data фреймворков, Apache Flink имеет Python API, позволяя разработчикам высоконагруженных потоковых приложений писать код на этом популярном языке программирования. Однако, Flink-задание выполняется в JVM, поэтому сам фреймворк транслирует Python-код в Java. Разбираемся, в чем особенности этого многоступенчатого процесса. Из Python в Java: как устроен API PyFlink...

26Июл
2023

Как ускорить выполнение заданий Apache Flink с помощью спекулятивного выполнения

Автор Анна Вичуговав категории Flink, Блог

потоковая обработка данных с Apache Flink, перекосы данных Flink, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Что такое спекулятивное выполнение заданий в Apache Flink, какой планировщик его поддерживает, какие конфигурации нужно настроить для его эффективного использования и зачем при этом переопределять поведение генератора разделений потокового источника данных. Что такое спекулятивное выполнение заданий Apache Flink Распределенная природа Apache Flink приводит к тому, что приложения, созданные с помощью...

19Июл
2023

Как ускорить JOIN-запросы с перекосом данных: мини-пакетная агрегация в Apache Flink SQL

Автор Анна Вичуговав категории Flink, Блог

Почему запросы Flink SQL перестают работать эффективно при больших объемах несбалансированном распределенных данных и как это исправить с помощью мини-пакетной агрегации. Что такое MiniBatch, как это работает и чем может опасно. Перекос данных по ключу группировки в Apache Flink Flink SQL — это мощный инструмент, объединяющий пакетную и потоковую обработку...

10Июл
2023

Машинное обучение с Apache Flink: основные концепции ML-библиотеки

Автор Анна Вичуговав категории Flink, Machine Learning, Блог

Flink ML примеры курсы обучение, разработка приложений потоковой обработки данных Apache Flink, Flink примеры курсы обучение, машинное обучение с Apache Flink, MLOps машинное обучение примеры курсы, Machine Learning Flink Spark примеры курсы обучение, обучение Apache Flink Spark для дата-инженеров и NL-разработчиков, обучение Data Science, Шкоал Больших Данных Учебный Центр Коммерсант

Как построить конвейер машинного обучения с помощью библиотеки Flink ML, из каких компонентов она состоит и как работает, а также что позволяет объединить алгоритмы потоковой обработки данных Apache Flink с ML-моделями. Что такое Flink ML Помимо MLeap, библиотеки сериализации для моделей машинного обучения, Apache Flink также включает Flink ML —...

01Июл
2023

Гибридный режим пакетных shuffle-операций в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink shuffle operations, обучение Apache Flink разработка приложений, Flink shuffle opeartions, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Что не так с планированием задач shuffle-операций, какие проблемы пакетной обработки данных устраняет введение гибридной перетасовки в Apache Flink 1.16 и как работает этот режим Hybrid Shuffle. Что такое режим гибридного перемешивания в Apache Flink В версии Apache Flink 1.16, о которой мы писали здесь, был впервые представлен режим гибридной...

14Июн
2023

Создание и тестирование источника данных в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Apache Flink data source Примеры курсы обучение, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка больших данных с Apache Flink обучение примеры курсы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про источники данных Apache Flink. Сегодня рассмотрим, как создать и протестировать собственный источник данных для их обработки в распределенном приложении. Создание своего источника данных в Apache Flink Напомним, источник данных в Apache Flink состоит из трех основных компонентов: Split, SplitEnumerator и SourceReader. Splits — это часть данных,...

05Июн
2023

Из Kafka во Flink: пишем Python-приложение

Автор Анна Вичуговав категории Flink, Блог

PyFlink Google Colab, Apache Flink Python Colab Kafka, обучение Flink Kafka, Upstash Kafka, курсы Kafka Flink, Kafka serverless, Apache Kafka и Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как написать и запустить в Google Colab свое Python-приложение считывания данных из топика Kafka с помощью коннектора FlinkKafkaConsumer из библиотеки pyflink.datastream.connectors и почему заставить его работать оказалось не так просто. Использование FlinkKafkaConsumer для доступа к Kafka из Flink приложения Недавно я показывала, как написать PyFlink-скрипт считывания данных из...

28Май
2023

Под капотом табличного хранилища Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Apache Flink Table Store, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Год назад мы уже писали, как в Apache Flink появились табличные хранилища и зачем они нужны. Сегодня заглянем под капот Flink Table Store, познакомившись со структурой файлов и каталогов. Архитектура и принципы работы Flink Table Store Поскольку Apache Flink объединяет пакетную обработку данных с потоковой, для работы этого универсального stateful-механизма...

21Май
2023

Тестовые наборы для проверки UDF-функций Flink-приложения

Автор Анна Вичуговав категории Flink, Блог

тестовые наборы Apache Flink примеры курсы обучение, курсы Apache Flink разработка и тестирование SQL примеры курсы обучение , Flink SQL примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка и тестирование приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали про тестирование приложений Apache Flink, используя SQL-клиентов, Table API, тестовые наборы операторов и режим локального мини-кластера. Сегодня рассмотрим, как с помощью тестовых наборов тестировать UDF-функции, использующих состояние и таймеры. Модульное тестирование UDF-функций Flink-приложения с помощью тестовых наборов При работе с Apache Flink разработчики часто сталкиваются с проблемами при...

13Май
2023

Как на лету обогатить поток данных Flink с использованием внешнего API

Автор Анна Вичуговав категории Flink, Блог

Flink SQL примеры курсы обучение, Apache Flink для дата-инженеров разработчиков и аналитиков примеры курсы обучение, REST API FLINK SQL, Apache Flink дата-инженер, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Обогащение потока данных информацией из внешнего API без остановки вычислений: 3 способа реализовать это средствами Apache Flink на примере сервиса геолокации. Зачем обогащать потоковые данные через внешний API и как это сделать для Flink-приложения? Иногда необходимо обогатить потоки данных, т.е. дополнить потоковые данные в реальном времени, т.е. на лету, не...

05Май
2023

Мониторинг загрузки ЦП для приложений Apache Flink с Flame Graph

Автор Анна Вичуговав категории Flink, Блог

Flame Graph Разработка и отладка Flink-приложений, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о важности отслеживания системных метрик приложений Apache Flink и RocksDB, используемой этим фреймворком для хранения состояния stateful-заданий. Сегодня рассмотрим, как отследить потребление ресурсов ЦП средствами встроенной визуализации Flame Graphs. Что такое Flame Graph и зачем это нужно? Помимо мониторинга длительности выполнения задач и заданий, дата-инженерам и разработчикам...

28Апр
2023

Журнал изменений для контрольных точек в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink statefull checkpoints, контрольные точки Flink-приложений, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Что не так с механизмом контрольных точек в Apache Flink, и как журнал изменений состояния справляется с ростом сквозной задержки в потоковой обработке данных средствами этого фреймворка. Проблемы контрольных точек в Apache Flink Одной из наиболее важных характеристик систем потоковой обработки данных является сквозная задержка, которая в Apache Flink зависит...

19Апр
2023

Знакомство с DataStream API в Apache Flink: запуск PyFlink-скрипта в Google Colab

Автор Анна Вичуговав категории Flink, Kafka, Блог

Как использовать DataStream API в Apache Flink: пишем потребителя из Kafka и запускаем скрипт в Google Colab. StreamExecutionEnvironment и методы коллекций потока данных в PyFlink. DataStream API в Apache Flink: PyFlink в Google Colab для работы с Kafka Apache Flink предоставляет множество возможностей разработчикам на Scala и Java, а также...

08Апр
2023

Потоковые режимы коннектора Flink SQL к Kafka

Автор Анна Вичуговав категории Flink, Блог

Flink Kafka connector SQL, дедупликация Apache Flink SQL примеры курсы обучение, потоковая обработка данных Apache Flink SQL, Apache Flink SQL для дата-инженеров примеры курсы обучение, как удалить дубли в потоковых данных Apache Flink SQL, курсы Apache Flink для разработчиков, обучение большим данным, инженерия Big Data Apache Flink SQL, Школа Больших Данных Учебный Центр Коммерсант

Как не запутаться в многообразии коннекторов к Kafka, доступных во Flink Table API, и выбрать наиболее подходящий для своего сценария применения. Разница между Append Mode и Upsert-режимом коннектора Flink SQL к Kafka. 2 режима работы коннектора Kafka в Apache Flink Apache Flink поставляется с универсальным соединителем Kafka, который поддерживает последнюю...