Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

05Окт
2023

API Pandas в Apache Spark: возможности и опасности

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Python pandas, PySpark Spark pandas примеры курсы обучение, разработка приложений Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Каждому специалисту по Data Science и инженеру данных знакома Python-библиотека pandas. Однако, для работы с большими данными она не очень подходит из-за высокого потребления памяти. Тем не менее, отказаться от старых привычек сложно. Поэтому разбираемся, зачем использовать API Pandas в Apache Spark и как это сделать наиболее эффективно. Чем отличается...

03Окт
2023

Моментальные снимки распределенной файловой системы Apache Hadoop: тонкости снапшотов HDFS

Автор Анна Вичуговав категории Блог, Статьи

Apache Hadoop HDFS настройка администрирование кластера, снапшоты бэкапы Hadoop HDFS, Hadoop администратор обучение курсы, администрирование кластера Hadoop, Hadoop для инженеров данных, HDFS Apache Hadoop для администратора кластера, курсы Hadoop администратор кластера обучение, Apache Hadoop для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Зачем делать моментальные снимки состояния распределенной файловой системы Apache Hadoop, почему не стоит создавать снапшоты HDFS в корневом каталоге и как найти оптимальную частоту сохранения состояния больших данных. Как устроен механизм снапшотов в HDFS Чтобы повысить надежность системы, ее состояние необходимо периодически сохранять. Для баз данных и файловых систем эта...

02Окт
2023

Мультиарендность в кластере Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka мультиарендный кластер настройка конфигураций и администрирование, администрирование кластера Apache Kafka примеры курсы обучение, управление ресурсами брокера, курсы Apache Kafka для дата-инженера разработчика и администратора кластера, Apache Kafka примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое мультитенантность и как администратору Apache Kafka настроить изоляцию арендаторов в мультиарендном кластере: конфигурации, квоты и лайфхаки. Что такое мультиарендность и как реализовать эту модель для кластера Kafka Мультитенантность (мультитенантность, multitenancy) переводится с английского как множественная аренда и в контексте архитектуры ПО означает разделение одного экземпляра приложения между несколькими...

28Сен
2023

Что такое Apache Flink Stateful Functions и как это использовать?

Автор Анна Вичуговав категории Flink, Блог

Flink Stateful Functions, курсы Apache Flink, обучение Flink для разработчиков, API Apache Flink примеры курсы обучение, потоковая обработка данных с Apache Flink, архитектура Flink кластера, Школа Больших Данных Учебный центр Коммерсант

Зачем Apache Flink очередной API для создания распределенных приложений с отслеживанием состояния, чем он полезен и при чем здесь Kubernetes: ликбез по Stateful Functions. Apache Flink Stateful Functions Stateful Functions в Apache Flink – это API, который упрощает создание распределенных приложений с отслеживанием состояния с помощью среды выполнения, созданной для...

22Сен
2023

Как устроено сжатие сообщений в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

сжатие и публикация сообщений в Kafka, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, примеры сжатия сообщения Apache Kafka, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Зачем сжимать сообщения при их публикации в Apache Kafka, как устроен механизм сжатия и какие конфигурации задавать для его эффективного использования. Сжатие сообщений в Kafka: причины использования и принципы работы Единицей параллелизма в Apache Kafka является раздел топика, куда приложение-продюсер отправляет сообщение, чтобы его мог считать потребитель, назначенный на этот...

21Сен
2023

Почему производительность Apache Flink выше Spark: 5 главных причин

Автор Анна Вичуговав категории Flink, Spark, Блог

Spark vs Flink, сходства и различия Spark vs Flink, Flink примеры курсы обучение, курсы Spark, обучение Apache Spark, Spark SQL курсы обучение примеры, Spark vs Flink сравнение, Apache Spark Flink для инженеров и разработчиков, анализ больших данных с Apache Spark Flink, аналитика Big Data с Apache Spark Flink курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Из-за чего приложения Flink работают быстрее Spark: разница в моделях обработки данных, управлении памятью, методах оптимизации, дизайне API и личный опыт использования. Apache Flink vs Spark: сходства и отличия Apache Spark и Flink считаются наиболее популярными фреймворками разработки распределенных приложений в области Big Data. Они достаточно похожи, что мы ранее...

20Сен
2023

Чем Scala лучше Java для разработки Spark-приложения: ТОП-5 преимуществ

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Scala vs Java vs Python, PySpark Spark Scala Java JVM примеры курсы обучение, разработка приложений Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как разница между Scala и Java отражается на работе Spark-приложения, почему код на Scala работает быстрее и когда выбирать этот язык программирования для разработки приложений аналитики больших данных. Scala vs Java: ключевые отличия Хотя Apache Spark позволяет разработчику писать код на нескольких языках программирования (Scala, Java, R, Python), сам фреймворк...

19Сен
2023

Сжатие данных в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

сжатие таблиц Greenplum, Greenplum курсы, сжатие данных Greenplum примеры курсы обучение, использование Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Как включить сжатие данных в Greenplum, какие алгоритмы сжатия поддерживает эта MPP-СУБД и можно ли установить разные параметры сжатия для отдельных столбцов и разделов больших таблиц. Примеры SQL-запросов и рекомендацию по настройке. Как Greenplum сжимает данные: примеры настроек и SQL-запросов Эффективное сжатие данных позволяет Greenplum снижать потребление памяти и повышать...

18Сен
2023

Event Streaming vs Event Sourcing: 2 паттерна проектирования EDA-архитектуры

Автор Анна Вичуговав категории Kafka, NoSql, Use Cases, Блог

Event Streaming vs Event Sourcing, паттерны проектирования EDA архитектуры, архитектура данных примеры курсы обучение, курсы Apache Kafka, курсы по Кафка, обучение Кафка, курсы Kafka Event Streaming Event Sourcing, курсы для архитекторов данных, обучение Big Data для разработчиков и архитекторов, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

В чем разница между потоковой передачей событий и источником событий и при чем здесь Apache Kafka: разбираемся с паттернами проектирования событийно-ориентированной архитектуры. 2 паттерна проектирования EDA-архитектуры Напомним, что сегодня для построения сложных систем, зачастую состоящих из множества взаимодействующих компонентов, и реактивно реагирующих на события внешнего мира, активно используется идея архитектуры,...

15Сен
2023

Apache Spark 3.5.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.5.0 обновления и улучшения, PySpark Spark SQL примеры курсы обучение, машинное обучение Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

13 сентября 2023 года вышел Apache Spark 3.5. Знакомимся с самыми важными новинками свежего релиза: расширения Spark Connect и SQL, поддержка DeepSpeed, улучшения потоковой передачи и свежие UDF-функции Python. ТОП-5 новинок Apache Spark 3.5.0 В Apache Spark 3.5. добавлено много исправлений и улучшений, а также реализованы новые функции. Наиболее интересными...