Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

29Дек
2021

Последний релиз 2021: новинки Apache NiFi 1.15.2

Автор Анна Вичуговав категории NiFi, Блог

NiFi Log4j обновление, пример Apache NiFi курсы обучение, NiFi для инженеров данных, NiFi Log4Shell примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Всего через 1,5 месяца после выпуска версии 1.15.0, 22 декабря 2021 года вышел очередной релиз Apache NiFi. Разбираем главные новинки и исправленные баги, а также смотрим, как команда разработчиков решила избавиться от уязвимости Log4Shell. Не только Log4j: еще 3 исправленных ошибки Декабрьский релиз Apache NiFi не может похвастаться внушительным списков...

25Дек
2021

Управление состояниями в Apache Flink: краткий ликбез

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink примеры обучение, Kafka Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Что такое состояния в приложениях Apache Flink, каких видов они бывают, как ими управлять и зачем это нужно: основы разработки stateful-заданий и API DataStream. Чем состояние с ключом отличается от оператора состояния и почему первый чаще используется на практике. Состояния в Apache Flink Apache Flink поддерживает как stateful-, так и...

23Дек
2021

Миллиарды сообщений в секунду: микросервисная ML-система на Apache Kafka и DynamoDB

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение Kafka, курсы Kafka, Apache Kafka Для инженеров и разработчиков, DynamoDB курсы NoSQL, обучение дата-инженеров, обучение большим данным, архитектура больших данных, ML Feature Store Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

В этой статье разберем кейс бразильской фудтех-компании Ifood по реализации микросервисной ML-системы на Apache Kafka и serverless NoSQL-СУБД DynamoDB с пропускной способностью миллиарды сообщений в секунду. Сложности масштабирования микросервисов и оперативное чтение данных из Feature Store с помощью библиотеки Sarama – Go-клиента для Apache Kafka. Проблема микросервисов при множестве обращений...

20Дек
2021

Бессерверный парсинг веб-сайтов на Apache NiFi и OpenFaaS с Selenium

Автор Анна Вичуговав категории NiFi, Блог

NiFi pipeline, пример Apache NiFi курсы обучение, NiFi для инженеров данных, Docker Kubernetes NiFi примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберемся с serverless-технологиями и рассмотрим, как самостоятельно создать и интегрировать бессерверный парсер Selenium с Apache Nifi. Краткий ликбез по OpenFaaS, Selenium и Chromium, а также преимущества serverless-технологий и пример вызова функции сбора данных с веб-страницы на Python. Введение: serverless, OpenFaaS и Selenium с Chromium Serverless-стратегия организации платформенных облачных услуг,...

17Дек
2021

Диску больше не наливать: проблема spill-файлов в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры, Greenplum для инженеров данных и разработчиков обучение курс примеры, spill файлы Greenplum Arenadata Greenplum примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

О том, что такое spill-эффект, мы недавно писали на примере Apache Spark. Однако, проблема переброса данных из оперативной памяти на жёсткий диск и обратна характерна и для Greenplum. Где посмотреть количество и объем spill-файлов, а также как устранить причину их образования с помощью конфигурационных параметров и инструментов администратора. Что такое...

14Дек
2021

Apache Kafka на Kubernetes vs KubeMQ

Автор Анна Вичуговав категории Kafka, Блог

Kafka микросервисы обучение курсы примеры, KubeMQ, Kafka Kubernetes, Kafka примеры курсы обучение, Kubernetes примеры курсы обучение, обучение администраторов и разработчиков Kafka курсы, обучение большим данным курсы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассказывали про KubeMQ – stateless-сервис обмена сообщениями для Kubernetes, который может заменить собой сложное развертывание Apache Kafka на этой платформе управления контейнерами. Сегодня разберем, как устроен KubeMQ и сравним его с Apache Kafka по нескольким параметрам, наиболее интересным для разработчиков распределенных приложений и администраторов. Операторы и пользовательские ресурсы...

09Дек
2021

Apache Kafka и Kubernetes для микросервисов в логистике: кейс Sixfold

Автор Анна Вичуговав категории Kafka, Блог

Kafka микросервисы, Kafka и Kubernetes, Kafka примеры курсы обучение, Kubernetes примеры курсы обучение, обучение администраторов и дата-инженеров Kafka курсы, обучение большим данным курсы, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем пример европейской логистической компании Sixfold, которая смогла увеличить пропускную способность своей системы мониторинга транспортных отгрузок на базе Apache Kafka и Kubernetes. Также рассмотрим, как дата-инженеры Sixfold справились с проблемами изоляции при последовательной обработке сообщений и транзакционной записи в топики Kafka с базами данных отдельных микросервисов на подах Kubernetes....

06Дек
2021

Найти и обезвредить Spill в Spark-приложениях: причины и решения

Автор Анна Вичуговав категории Spark, Блог

обучение Spark, курсы Apache Spark Для разработчиков примеры обучение, spill in spark apps, проблемы с производительностью Spark-приложений, обучение большим данным, курсы Big Data для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений разберем проблему с производительностью Apache Spark из-за неоптимальной стратегии переброса данных между оперативной и постоянной памятью. Что такое spill-эффект, почему он случается, как его идентифицировать и устранить. Что такое spill и почему он случается: под капотом Spark-приложений При том, что spill можно рассматривать...

04Дек
2021

Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi новый релиз, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

7 ноября 2021 года вышел очередной релиз Apache NiFi с новыми фичами, улучшениями и исправлениями ошибок. Краткий обзор самых важных новинок: от постоянного хранилища для stateless-потоков и настроек облачных провайдеров до интеграции процессоров с пользователями Kerberos и улучшения работы с GitHub. Новинки и улучшения Apache NiFi 1.15.0 Свежий выпуск Apache...

03Дек
2021

Система обнаружения простоев онлайн-платежей на Apache Flink и Kafka: кейс Razorpay

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Flink Kafka примеры кейсы, Apache Flink и Kafka для инженеров данных и разработчиков, обучение большим данным курсы, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как индийская ИТ-компания Razorpay с помощью Apache Flink и Kafka свела к минимуму время простоя своего главного продукта - платежного шлюза для интернет-магазинов. Как всего 2 задания Flink могут быстро обнаруживать простои более 50 когорт событий на уровне платежного шлюза и 200+ когорт разных интернет-магазинов. Работать нельзя остановиться:...

02Дек
2021

Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений

Автор Анна Вичуговав категории Greenplum, Machine Learning, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура PXF, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Greenplum Примеры курсы обучение, глубокое обучение, Deepl Learning примеры кейсы, машинное обучение нейросети курсы, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про оптимизацию SQL-запросов в PXF – интеграционном фреймворке Greenplum. Сегодня рассмотрим, как этот способ обращения к внешним источникам данных можно применить к задачам машинного обучения на примере распознавания изображений. Platform Extension Framework как инструмент извлечения и преобразования изображений из облачных объектных хранилищ для обучений глубоких нейросетей с...

30Ноя
2021

Зачем вам KubeMQ: брокер сообщений для Kubernetes вместо Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka для разработчиков и администраторов, Apache Kafka на Kubernetes, администрирование кластера Apache Kafka примеры курсы обучение, Kafka Kubernetes, KubeMQ, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о сложностях развертывания Apache Kafka на платформе управления контейнерами Kubernetes. Некоторые из этих проблем отлично решает KubeMQ – брокер очередей сообщений на Kubernetes. Зачем нужна очередная служба обмена данными, как она устроена и при чем здесь Kafka. Проблемы Kafka на Kubernetes и не только Сложная архитектура современных...

26Ноя
2021

Контейнеризация Apache NiFi: безопасность конвейеров и потоков данных с Docker и Kubernetes

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi Doсker Kubernetes, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как организовать полностью сохраняемый сервис Apache NiFi с помощью Docker, чтобы обеспечить безопасность конвейеров и потоков данных при изменении конфигураций и перезапуске служб. А также разберем, как дата-инженеру и администратору кластера NiFi запустить его на Kubernetes. Проблемы масштабирования и отказоустойчивости Apache NiFi Благодаря наличию веб-GUI, множеству готовых процессоров...

19Ноя
2021

PXF, Greenplum и оптимизация SQL-запросов к разным источникам данных

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня продолжим разбираться с интеграционным фреймворком Greenplum и рассмотрим, как PXF реализует SQL-запросы к различным OLAP и OLTP-источникам, поддерживая разные форматы данных. Зачем создавать внешнюю таблицу для Greenplum и какие параметры при этом указывать, а также чем хороша технология оптимизации pushdown. SQL и PXF: интеграция Greenplum с внешними источниками на...

10Ноя
2021

Как устроен PXF Greenplum: архитектура и принципы работы

Автор Анна Вичуговав категории Greenplum, Блог

Специально для дата-инженеров, разработчиков OLAP-конвейеров и архитекторов DWH на MPP-СУБД Greenplum и Arenadata DB сегодня рассмотрим, что представляет собой PXF, из каких компонентов он состоит и как они взаимодействуют друг с другом, чтобы обеспечить параллельный высокопроизводительный доступ к данным и объединенную обработку запросов к разнородным источникам. Что PXF и зачем...

08Ноя
2021

Как передать данные из GridDB в Apache Kafka через JDBC-коннектор

Автор Анна Вичуговав категории Kafka, Блог

GridDB Kafka Connect пример, Kafka Connect коннекторы кафка курсы обучение, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, Apache Kafka для разработчика примеры обучение курсы, Обучение Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Добавляя в наши курсы по Apache Kafka еще больше полезных кейсов, сегодня рассмотрим пример интеграции этой распределенной платформы потоковой передачи событий с масштабируемой key-value СУБД GridDB через JDBC-коннекторы Kafka Connect. Apache Kafka как источник данных: source-коннектор JDBC Apache Kafka часто используется в качестве источника или приемника данных для аналитической обработки...

04Ноя
2021

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

пример конвейера в Apache NiFi, обучение Apache NiFi, Apache NiFi курсы, обучение дата-инженеров курсы примеры, принципы работы и примеры Apache NiFi, GridDB ETL пример ML, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий ликбез по GridDB и Apache NiFi в кейсе построения ML-системы для анализа данных временных рядов. Анализ данных временных рядов c...

02Ноя
2021

Что такое Saamsa и зачем это разработчику Apache Kafka: краткий обзор

Автор Анна Вичуговав категории Kafka, Блог

Saamsa Kafka, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, администрирование кластера Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Постоянно обновляя наши курсы по Apache Kafka, сегодня рассмотрим еще один полезный инструмент для администраторов, дата-инженеров и разработчиков, который повышает эффективность взаимодействия с этой распределенной платформой потоковой обработки событий. Что такое Saamsa, какие проблемы Kafka она решает и как ее использовать на практике. 5 вопросов разработчика и дата-инженера к Apache...

01Ноя
2021

Масштабируемая индексация Apache HBase почти в реальном времени: кейс Pinterest

Автор Анна Вичуговав категории HBase, Use Cases, Блог

Apache HBase курсы обучение примеры, кейсы аналитики больших данных для дата-инженеров примеры. NoSQL курсы, Apache Hadoop курсы обучение для дата-инженеров примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Обучая дата-инженеров и разработчиков распределенных приложений для аналитики больших данных, сегодня рассмотрим кейс компании Pinterest по построению масштабируемого решения для индексации записей в Apache HBase. Чем хранилище Ixia отличается от Lily HBase Indexer, зачем понадобился собственный аналог Solr и ElasticSearch, а также как все это работает в реальном времени с...

28Окт
2021

DataCater и Flow: еще пара альтернатив Apache Kafka для построения потоковых конвейеров

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про платформы потоковой обработки событий, альтернативные Apache Kafka и Flink/Spark Streaming. В продолжение этой темы сегодня рассмотрим еще пару вариантов для разработки и самообслуживаемого использования потоковых конвейеров аналитики больших данных: DataCater и Flow. Читайте далее, что это за системы, как они связаны с Apache Kafka и какова...