Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

17Янв
2022

Потоковый веб-парсинг на Apache Flink + RabbitMQ: кейс от дата-инженеров FiscalNote

Автор Анна Вичуговав категории Flink, Блог

Apache Flink RabbitMQ инженерия данных, курсы Flink Hadoop обучение примерыб инженер данных Apache Flink, потоковая обработка данных с Apache Flink, обучение дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений разберем кейс американской ИТ-компании FiscalNote, которая использует Apache Flink в качестве движка потоковой обработки информации со сторонних веб-сайтов. Трудности сериализации сообщений из очередей RabbitMQ с разной скоростью поступления Big Data и способы их обхода. Постановка задачи: требования для Flink-приложения FiscalNote специализируется...

04Янв
2022

Savepoint vs Checkpoint в Apache Flink: сходства и отличия

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink курсы, Apache Flink для разработчиков, курсы Apache Hadoop для разработчиков примеры, Savepoint vs Checkpoint Apache Flink, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Разбираемся с механизмами отказоустойчивости Flink-приложений. Что такое контрольные точки (Checkpoint), чем они отличаются от точек сохранения (Savepoint) и что между ними общего. А также при чем здесь snapshot, что выбирать в разных случаях и как это использовать для отказоустойчивости stateful-приложений Apache Flink. Snapshot как механизм обеспечения отказоустойчивости приложений Apache Flink...

25Дек
2021

Управление состояниями в Apache Flink: краткий ликбез

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink примеры обучение, Kafka Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Что такое состояния в приложениях Apache Flink, каких видов они бывают, как ими управлять и зачем это нужно: основы разработки stateful-заданий и API DataStream. Чем состояние с ключом отличается от оператора состояния и почему первый чаще используется на практике. Состояния в Apache Flink Apache Flink поддерживает как stateful-, так и...

18Дек
2021

Дыра в Apache Log4j: опасность для Hadoop, Spark, Kafka, Neo4j и других технологий Big Data

Автор Анна Вичуговав категории Flink, Greenplum, Hive, Kafka, Neo4j, Spark, Блог

уязвимость Apache Log4j, безопасность Big Data, уязвимость Log4Shell Hadoop Spark Kafka и Neo4j, обучение большим данным, cybersecurity Big Data, Школа Больших Данных Учебный Центр Коммерсант

В начале декабря 2021 года мир ИТ взволновала новость о критической уязвимости CVE-2021-44228 в библиотеке Apache Log4j. Разбираемся, что это такое и чем опасно для систем хранения и аналитики больших данных на Apache Hadoop, Kafka, Spark, Elasticsearch и Neo4j. Критическая уязвимость в библиотеке Apache Log4j: чем опасна CVE-2021-44228 9 декабря...

15Дек
2021

Потоки и пакеты: унифицированная аналитика больших данных c Apache Flink в Pinterest

Автор Анна Вичуговав категории Flink, Use Cases, Блог

курсы Apache Kafka примеры обучение, Kafka Flinkпримеры обучение курсы, обучение большим данных, курсы по kafka, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Ранее мы писали о том, как фотохостинг Pinterest с помощью новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, объединяет пакетную и потоковую аналитику больших данных, чтобы еще лучше обслуживать более 475 миллионов своих пользователей. Сегодня поговорим про контроль сетевого трафика и синхронизацию источников данных через генерацию...

03Дек
2021

Система обнаружения простоев онлайн-платежей на Apache Flink и Kafka: кейс Razorpay

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Flink Kafka примеры кейсы, Apache Flink и Kafka для инженеров данных и разработчиков, обучение большим данным курсы, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как индийская ИТ-компания Razorpay с помощью Apache Flink и Kafka свела к минимуму время простоя своего главного продукта - платежного шлюза для интернет-магазинов. Как всего 2 задания Flink могут быстро обнаруживать простои более 50 когорт событий на уровне платежного шлюза и 200+ когорт разных интернет-магазинов. Работать нельзя остановиться:...

20Ноя
2021

Один на всех: реализация единого API для унифицированной аналитики больших данных c Apache Flink и Kafka в Pinterest

Автор Анна Вичуговав категории Flink, Kafka, Use Cases, Блог

Недавно мы писали, что в новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, сделаны попытки объединения потоковой и пакетной парадигм обработки данных. Сегодня рассмотрим, как подобное стремление к унификации реализуется на практике дата-инженерами фотохостинга Pinterest, которые используют Apache Flink как универсальный инструмент аналитики больших данных в...

06Ноя
2021

Apache Flink 1.14: что нового?

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Hadoop Flink SQL, новинки Flink 1.14, курсы Apache Hadoop Flink SQL, курсы Hadoop Для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

29 сентября 2021 года вышла новая версия популярного Big Data фреймворка Apache Flink. Мы сделали краткий обзор главных улучшений свежего релиза 1.14 общедоступного дистрибутива, а также его коммерциализации в Ververica Platform 2.6. Узнайте, как потоковая обработка и аналитики больших данных с Apache Flink станет еще проще и эффективнее. Исправление ошибок...

23Окт
2021

Не только Apache Kafka и Spark Streaming: 3 платформы потоковой аналитики больших данных

Автор Анна Вичуговав категории Flink, Kafka, Блог

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Flink курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Продолжая недавний разговор про потоковую передачу событий и соответствующие Big Data инструменты, сегодня рассмотрим не отдельные фреймворки обработки данных в режиме реального времени, а комплексные платформы, которые объединяют сразу несколько технологий для интерактивной аналитики больших данных. Вас ждет краткий обзор Cloudera Streaming Analytics, Materialize и Rockset: что это такое, как...

16Окт
2021

Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Kafka Spark Flink Redpanda пример курсы обучение, Kafka Redpanda, Flink SQL Spark обучение курсы примеры, обучение Kafka, курсы Apache Kafka, обучение Spark, курсы Apache Spark, обучение Flink, курсы Apache Flink, Kafka для дата-инженеров и разработчиков примеры обучение курс, тренинги по Apache Kafka Spark Flink SQL, обучение Kafka Redpanda примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka, Школа Больших Данных Учебный центр Коммерсант

В продолжение недавней статьи для дата-инженеров про альтернативные платформы потоковой передачи событий вместо Apache Kafka, сегодня рассмотрим пример аналитики больших данных средствами Flink SQL, записи результатов в Elasticsearch и их визуализации в Kibana. Читайте далее, чем Redpanda отличается от Kafka, а Flink – от Apache Spark с точки зрения потоковой...

09Окт
2021

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Анна Вичуговав категории AirFlow, Flink, Greenplum, Kafka, NiFi, Spark, Блог

курсы дата-инженеров, курсы Apache Kafka NiFi Greenplum AirFlow Spark Flink обучение, практическое обучение инженеров данных курсы, аналитика больших данных примеровы кейсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как сотрудники российского отделения этой международной компании интегрировали в единую платформу более 350 реляционных СУБД и NoSQL-источников с помощью CDC-подхода на...

04Окт
2021

Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных для руководителей пример курсы обучение, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пару кейсов по использованию Apache Flink в качестве основного фреймворка пакетной и потоковой аналитики больших данных. Читайте далее, как фото-хостинг Pinterest построил вокруг Flink собственную инфраструктуру работы с изображениями в реальном времени, а китайский ритейл-гигант Alibaba Group успешно обрабатывал 7 ТБ в секунду во время глобального дня шопинга....

21Сен
2021

Как рассчитать конверсию контекстной рекламы с помощью Apache Flink SQL: практический пример

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных в контекстной рекламе пример, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Реклама является одним из наиболее крупных сегментов практического применения технологий Big Data. Поэтому сегодня рассмотрим, как Flink SQL реализует потоковую аналитику больших данных в AdTech-кейсах. Разбираем пример JOIN-соединения двух потоков событий - показов и кликов, чтобы вычислить конверсию рекламной кампании средствами Apache Flink или Spark. Потоки Big Data за фасадом...

15Сен
2021

Потоковая аналитика больших данных в Grafana с Apache Kafka, Flink и SQL Stream Builder

Автор Анна Вичуговав категории Flink, Internet of Things, Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, Apache Kafka для разработчиков, потоковая обработка событий с Apache Kafka и Flink курсы обучение, обучение большим данным для разработчиков, курсы по Big Data, потоковая аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как построить конвейер потоковой обработки событий на Apache Kafka, Flink и SQL Stream Builder с визуализацией результатов в Grafana. Далее вас ждет практический кейс применения технологий Big Data в реальном производстве на примере телеметрии процессов ферментации продуктов в небольшой частной пивоварне. Постановка задачи: бизнес-контекст и используемые технологии В...

06Сен
2021

Как Byteman упрощает разработку и отладку приложений Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink, разработка Flink-приложений, обучение Apache Flink, курсы Apache Flink Для разработчиков, Byteman для отладки Java-кода, обучение разработчиков Big Data, курсы Hadoop Для разработчиков, разработка в Apache Hadoop курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения разработчиков распределенных приложений, сегодня рассмотрим, как упростить тестирование и отладку заданий Apache Flink с помощью Byteman. Читайте далее, как внедрить Java-код в JVM, чтобы извлечь нужные сведения о выполнении Flink-приложения на платформе Veverica и ускорить разработку. Разработка и отладка приложений Apache Flink: ежедневные сложности В рассматриваемом примере...

12Июл
2021

Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Автор Анна Вичуговав категории Flink, Use Cases, Блог

курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB

Продолжая разбирать особенности разработки потоковых приложений Apache Flink, сегодня рассмотрим проблему падения пропускной способности задания из-за встроенного хранилища состояний RocksDB и ее зависимость от производительности дисков. Вас ждет настоящая детективная история о том, как важно заглядывать под капот облачных кластеров и настраивать конфигурации своих stateful-приложений потоковой аналитики больших данных с...

02Июл
2021

RocksDB как хранилище состояний для stateful-приложений Apache Flink

Автор Анна Вичуговав категории Flink, Блог

курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB, Hadoop курсы обучение, Apache Hadoop Для инженеров данных и разработчиков курсы, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что приложения Kafka Streams используют RocksDB в качестве хранилища состояний. Сегодня рассмотрим, как это key-value NoSQL-СУБД используется для разработки stateful-приложений Apache Flink. Читайте далее о преимуществах и особенностях применения RocksDB для управления состоянием Flink-приложения, а также заблуждениях, связанных с этими фреймворками. 3 бэкенда Apache Flink для хранения...

18Июн
2021

Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами

Автор Анна Вичуговав категории Flink, Greenplum, Kafka, Machine Learning, Spark, Use Cases, Блог

курсы аналитики больших данных, примеры и кесы аналитика Big Data, обучение большим данным, курсы Spark, обучение курс Kafka, обучение курс Greenplum, курсы Flink, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим пример построения системы потоковой аналитики больших данных на базе Apache Kafka, Spark, Flink, NoSQL-СУБД, BI-системой Tableau или визуализацией в Kibana. Читайте далее, кому и зачем исследовать Twitter-посты в реальном времени, как это реализовать технически, визуализировать в наглядных BI-дэшбордах для принятия data-driven решений и при чем здесь Kappa-архитектура. Еще...

27Окт
2019

Apache Kafka Streams, Spark Streaming, Flink, Storm или Samza: что и когда выбирать для обработки потоков Big Data

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия пяти самых популярных Big Data фреймворков для распределенных потоковых вычислений (Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza), в этой статье мы сравним их по 10 критериям и отметим, какие именно факторы являются наиболее значимыми для объективного выбора. Сравнительный анализ самых популярных фреймворков потоковой обработки...

26Окт
2019

Сходства и различия популярных Big Data фреймворков распределенной потоковой обработки: сравниваем Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Kafka

В этой статье мы рассмотрим, чем похожи и чем отличаются 5 самых популярных инструментов распределенной обработки потоков Big Data: Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza, а также поговорим про наиболее значимые факторы выбора между этими программными средствами. 5 общих характеристик распределенных Big Data фреймворков потоковой обработки Прежде...