Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

18Ноя
2023

Управление зависимостями Python в кластере со Spark Connect

Автор Анна Вичуговав категории Spark, Блог

Управление зависимостями в кластере Apache Spark, разработка Spark-приложений, Apache Spark Для разработчика и дата-инженера, ад зависимостей Python в Spark, Spark PySpark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как управлять средой PySpark-приложения в распределенной вычислительной среде: проблемы зависимостей Python в кластере и способы их решения с помощью сеансов Spark Connect в версии 3.5.0. Управление зависимостями в Python и PySpark Каждый Python-разработчик хотя бы раз сталкивался с проблемой несовместимости пакетов. Эта ситуация называется ад зависимостей (dependency hell), когда вновь...

17Ноя
2023

Apache Flink 1.18: что нового?

Автор Анна Вичуговав категории Flink, Блог

Apache Flink 1.18 обзор релиза, Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

24 октября 2023 года вышел очередной релиз Apache Flink. Знакомимся с главными новинками популярного Big Data фреймворка для разработки потоковых stateful-приложений: JDBC-драйвер для SQL-шлюза, хранимые процедуры для коннекторов, расширенная поддержка SQL, динамическое масштабирование с REST API и RocksDB, улучшение пакетных операций, а также другие полезные фичи Apache Flink 1.18. Улучшения...

14Ноя
2023

Сквозное шифрование на уровне полей для Apache Kafka Connect с библиотекой Kryptonite

Автор Анна Вичуговав категории Kafka, Блог

Kryptonite for kafka, Kafka Connect шифрование, Apache Kafka безопасность, Kafka для разработчиков и дата-инженеров, шифрование Kafka шифрование сообщений в Kafka, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

О важности шифрования чувствительных данных, публикуемых в Apache Kafka, мы недавно писали здесь и здесь. В продолжение этой темы сегодня познакомимся с Kryptonite – open-source библиотекой для сквозного шифрования на уровне полей для Apache Kafka Connect. Шифрование данных вне брокеров Apache Kafka: зачем это нужно Apache Kafka поддерживает несколько функций...

13Ноя
2023

Что такое LLMOps или MLOps для больших языковых моделей

Автор Анна Вичуговав категории Machine Learning, Блог

машинное обучение примеры курсы MLOps, курсы по MLOps, MLOps LLM LLMOpa, курсы ML Machine Learning Data Science, обучение инженеров Big Data, инженерия больших данных, Школа Больших Данных Учебный центр Коммерсант

Зачем управлять трансферным обучением больших языковых моделей и что входит в это управление: знакомимся с расширением MLOps для LLM под названием LLMOps. Что такое LLMOps Большие языковые модели, воплощенные в генеративных нейросетях (ChatGPT и прочие аналоги), стали главной технологией уходящего года, которая уже активно используется на практике как частными лицами,...

12Ноя
2023

Потоковая публикация данных в REST API с Apache Spark Streaming

Автор Анна Вичуговав категории Spark, Блог

потоковая передача данных из Delta Lake во внешний REST API со Spark Structured Streaming, foreachBatch Spark Structured Streaming, Spark Structured Streaming примеры курсы обучение Delta Lake, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать потоковую публикацию данных из приложения Apache Spark Structured Streaming во внешний REST API, используя метод foreachBatch(), зачем перераспределять датафрейм перед его упаковкой в полезную нагрузку HTTP-запроса, от чего зависит число вызовов, и какие приемы помогут избежать сбоев из-за ошибок. 6 шагов потоковой публикации данных в REST API с...

11Ноя
2023

Масштабирование Apache AirFlow: причины, риски и возможности

Автор Анна Вичуговав категории AirFlow, Блог

масштабирование Apache AirFlow, падение производительности AirFlow, почему падает производительность Apache Airflow и что делать, Apache Airflow для дата-инженера и администратора кластера, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

Когда и почему нужно повышать производительность Apache AirFlow, как исполнитель влияет на масштабирование этого ETL-оркестратора. Почему падает производительность AirFlow и что с этим делать Типичными проблемами, которые требуют масштабирования кластера AirFlow, являются медленный доступ к файлам, недостаточный контроль над возможностями DAG, нерегулярные уровни трафика и конкуренция за ресурсы между рабочими...

10Ноя
2023

Вместо Neosemantics: обзор Python-библиотеки rdflib-neo4j для графовой СУБД Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Neo4j Python RDF rdflib-neo4j, RDF триплеты графы Neo4j Neosemantics, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j Neosemantics RDF курсы, NoSQL Neo4j Neosemantics для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j Neosemantics RDF Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что не так с Neosemantics и зачем нужна очередная библиотека для Neo4j: знакомство с Python-пакетом для RDF-графов rdflib-neo4j. Возможности, ограничения и пример использования. Что не так с Neosemantics и зачем нужна очередная библиотека для Neo4j Что такое RDF-графы, триплеты и плагин Neosemantics для работы с этими концепциями в графовой СУБД...

09Ноя
2023

Автор Анна Вичуговав категории Flink, Блог

настройка Flink конвейера, настройка Flink приложений, конвейер приложений Apache Flink, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Продолжая недавний разговор про настройку конвейеров из Flink-приложений, сегодня рассмотрим, почему важна локальность данных, как избежать узких мест в приемниках потоковых данных и чем хорош HybridSource для объединения гетерогенных источников. Обеспечьте локальность данных Хотя распределенные системы обладают большим потенциалом по сравнению с локальными, позволяя обрабатывать больше данных, вычисления не происходят...

08Ноя
2023

Apache Kafka 3.6: что нового?

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков и администраторов, Apache Kafka 3.6.0 обзор релиза, Apache Kafka примеры курсы обучение, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

10 октября 2023 года вышел очередной релиз самой популярной распределенной платформы потоковой передачи событий. Знакомимся с главными новинками Apache Kafka 3.6.0: промышленная поддержка KRaft вместо ZooKeeper, оптимизация транзакций, повышение производительности памяти и другие фичи свежего релиза для разработчика, дата-инженера и администратора. ТОП-10 новинок выпуска 3.6 Apache Kafka 3.6.0 включает 6...

07Ноя
2023

Как управлять Greenplum с VMware Command Center

Автор Анна Вичуговав категории Greenplum, Блог

VMware Greenplum Command Center vs Arenadata Command Center (ADCC) для Arenadata DB, администрирование и мониторинг Greenplum Arenadata DB, настройка Greenplum и Arenadata DB, администрирование Greenplum Arenadata DB, мониторинг системных метрик и SQL-запросов в Arenadata DB и Greenplum, курсы Greenplum Arenadata DB, Greenplum для дата-инженера и администратора курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Что такое VMware Greenplum Command Center, как использовать этот инструмент для эффективного управления MPP-СУБД и чем он отличается от Arenadata Command Center для Arenadata DB. Что такое центр управления Greenplum от VMware VMware Greenplum Command Center — это инструмент управления, который отслеживает показатели производительности системы, анализирует состояние кластера и позволяет...

04Ноя
2023

MLOps с Tecton и Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

MLOps AirFlow Tecton, MLOps ML AirFlow оркестрация конвейеров машинного обучения примеры, машинное обучение примеры курсы MLOps, курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

Что представляет собой MLOps-платформа Tecton и как запустить на ней конвейеры машинного обучения, используя провайдер Tecton-AirFlow, чтобы управлять ресурсами Tecton в этом ETL-оркестраторе. Что такое Tecton и при чем здесь MLOps Поскольку концепция MLOps направлена на безбарьерную автоматизацию всех этапов жизненного цикла систем машинного обучения, для этого нужны специализированные средства....

03Ноя
2023

Управление смещением в Apache Kafka: автофиксация и стратегия потребления

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, перебалансировка потребителей Kafka примеры курсы обучение, дата-инженер Kafka, курсы Kafka, разработчик Kafka примеры курсы обучение, Apache Kafka для разработчиков, балансировка разделов на новых брокерах Apache Kafka, обучение большим данным, администрирование кластеров Кафка курсы обучение, управление смещениями в Kafka, Школа Больших Данных Учебный центр Коммерсант

Чем политика сброса смещения earliest отличается от latest в конфигурации auto.offset.reset, зачем устанавливать свойству enable.auto.commit значение false и чем потребитель Java отличается от клиентов на основе librdkafka (C/C++, Python, Go и C#). Конфигурации Apache Kafka для управления смещением Потребитель Apache Kafka — это клиентское приложение, которое подписывается на весь топик...

02Ноя
2023

От профилирования до загрузки классов: 3 совета по оптимизации Flink-приложений

Автор Анна Вичуговав категории Flink, Блог

Apache Flink оптимизация и отладка приложений, курсы Apache Flink разработка и развертывание примеры обучение, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Для чего разработчику Flink-приложения инструменты профилирования, и почему надо избегать сериализации Kryo и динамической загрузки классов. Используйте инструменты профилирования Разработка и отладка высоконагруженных приложений требует специальных средств, позволяющих понять причины их медленной работы и повысить производительность. Такой анализ работы приложение называется профилированием и выполняется с помощью специальных средств – инструментов...

01Ноя
2023

Еще 11 конфигураций для повышения эффективности Greenplum 7

Автор Анна Вичуговав категории Greenplum, Блог

администрирование Greenplum, настройка Greenplum, тюнинг конфигураций и параметров Greenplum, что настроить в Greenplum, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Продолжая тему недавней статьи про настройки Greenplum 7, сегодня рассмотрим еще несколько конфигураций, которые позволят сделать эту MPP-СУБД еще быстрее и надежнее. Глобальные конфигурации Greenplum для настройки рабочих файлов Параметры глобальной конфигурации пользователя (GUC, Global User Configuration) Greenplum могут быть как глобальными, так и локальными по отношению к экземплярам сегмента. Глобальные...

31Окт
2023

Как настроить source-коннектор Kafka Connect, чтобы повысить его пропускную способность

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Connect конфигурации настройки примеры, обучение большим данным, Apache Kafka для дата-инженеров и администраторов, Школа Больших Данных Учебный Центр Коммерсант

Компоненты платформы Kafka Connect и их настройки для повышения скорости и объема данных, считываемых из внешних источников и публикуемых в топике Kafka. Разбираем на примере JDBC-коннектора для реляционной базы данных. Проблемы и возможности коннекторов Kafka Connect Kafka Connect — это инструмент интеграции данных с открытым исходным кодом, который упрощает процесс...

29Окт
2023

Кэширование в Databricks SQL

Автор Анна Вичуговав категории Блог, Статьи

Databricks SQL, DWH Data Lake Delta Lake LakeHouse курсы архитектор данных, big data архитектура дельта Delta Lake LakeHouse курсы, большие данные обучение, курсы по большим данным, архитектура больших данных, лямбда и каппа архитектура в Big Data, Школа Больших Данных Учебный Центр Коммерсант

Что такое Databricks SQL и как его ускорить, используя кэширование данных: типы хранилищ данных в платформе Lakehouse и виды кэшей. Что такое Databricks SQL Платформа Databricks Lakehouse предоставляет комплексное решение для хранения данных. Она построена на открытых стандартах и API. Эта архитектура данных сочетает ACID-транзакции и управление данными корпоративных хранилищ...

28Окт
2023

Как настроить потоковый конвейер Flink-приложений по рабочей нагрузке

Автор Анна Вичуговав категории Flink, Блог

Зачем настраивать конфигурацию конвейера Flink-приложений в зависимости от рабочей нагрузки и как это сделать: примеры и рекомендации. 3 вида рабочей нагрузки в потоковых конвейерах Конвейер потоковой передачи событий может реализовывать различные сценарии: обратная засыпка (backfilling), когда конвейер потребляет все исторические данные, считывая все сообщения, доступные во входных источниках, пока не...

27Окт
2023

Наборы данных в Apache AirFlow и как их использовать

Автор Анна Вичуговав категории AirFlow, Блог

обучение AirFlow, курсы AirFlow дата-инженер, AirFlow наборы данных управление DAG примеры курсы обучение, обучение инженеров данных Apache AirFlow, Apache AirFlow dataset, Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Что такое набор данных в Apache AirFlow и как эта концепция обмена данными между задачами разных DAG улучшает управляемость ETL-конвейера и повышает производительность фреймворка. Что такое набор данных в Apache AirFlow и где это использовать Набор данных (Dataset) – это замена логической группировки данных в Apache AirFlow. Наборы данных могут...

25Окт
2023

Тюнинг Greenplum 7: 12 конфигураций для администратора и дата-инженера

Автор Анна Вичуговав категории Greenplum, Блог

Что настроить в Greenplum 7, чтобы сделать эту MPP-СУБД еще эффективнее. Обзор наиболее популярных параметров конфигурации и рекомендации по установке их значений. Ограничения подключений и выполнения SQL-запросов: 6 параметров с перезагрузкой системы Будучи зрелой системой со множеством настроек, Greenplum предоставляет администратору и дата-инженеру широкие возможности по адаптации этой СУБД к...

24Окт
2023

Python для Apache NiFi с NiPyAPI

Автор Анна Вичуговав категории NiFi, Блог

Python NiFi инженерия данных разработка Data Flow NiPyAPI, Apache NiFi проектирование потока данных, Apache NiFi для дата-инженеров примеры курсы обучение, обучение инженеров данных Apache NiFi, Школа Больших Данных Учебный Центр Коммерсант

Как расширить возможности Apache NiFi, используя Python: знакомимся с библиотекой NiPyAPI. Возможности, принципы работы и примеры использования NiPyAPI в управлении средой NiFi: очистка от неиспользуемых компонентов. Python в Apache NiFi Хотя официальная поддержка Python ожидается в релизе 2.0, о чем мы писали здесь, использовать этот язык программирования в Apache NiFi...