Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

08Май
2021

Еще 4 особенности бакетирования таблиц в Apache Spark и 7 конфигураций их настройки

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark Hive бакетирование таблиц, Spark bucketing инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разбирать особенности бакетирования таблиц в Apache Spark, сегодня мы рассмотрим несколько примеров, как дата-инженер и аналитик данных могут работать с этим методом оптимизации SQL-запросов. Также читайте далее, какие конфигурации Apache Spark SQL связаны с бакетированием таблиц и что нового появилось в 3-ей версии этого Big Data фреймворка, чтобы такой...

07Май
2021

Apache Spark для дата-инженеров: трудности бакетирования и способы их решения

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Spark для инженеров данных и разработчиков, разработка Spark, Apache Spark Hive бакетирование таблиц, Spark bucketing инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Бакетирование таблиц в Apache Spark – один из самых популярных методов оптимизации производительности задач последовательного чтения данных. Сегодня поговорим про сложности бакетирования с точки зрения дата-инженера, а также рассмотрим факторы, от которых зависит оптимальное количество бакетов. Большая проблема маленьких файлов и бакетирование таблиц в Apache Spark Напомним, бакетирование ускоряет выполнение...

06Май
2021

Масштабируемая видеоаналитика в реальном времени с нейросетями YOLO на Apache Kafka, Spark Structured Streaming и Cassandra

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

аналитика больших данных в реальном времени примеры , курсы Big Data Spark Kafka NoSQL обучение, машинное обучение кейсы, YOLO Big Data, Школа Больших ДАнных Учебный центр Коммерсант

В рамках обучения аналитиков Big Data и разработчиков Apache Spark и Kafka, сегодня рассмотрим кейс ИТ-компании Southworks по онлайн-обработке потокового видео как наглядный пример эффективного сочетания этих потоковых фреймворков с пакетными задачами. Читайте далее, как реализовать лямбда-архитектуру масштабируемой Big Data системы на базе Apache Kafka, Spark Structured Streaming и NoSQL-СУБД...

05Май
2021

Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, Apache Airflow обучение, курсы дата-инженеров, обучение инженеров Big Data, инженерия больших данных, AirFlow развертывание, data pipeline, AirFlow deployment AWS GCC Kubernetes Astronomer

Для практического использования Apache Airflow в production дата-инженеру необходимо не только обучение основам работы с этим фреймворком, но и знания о базовой инфраструктуре его развертывания. Поэтому сегодня поговорим о 3-х популярных средах для развертывания и сопровождения этого ETL-фреймворка: Astronomer, Google Cloud Composer и Amazon Managed Workflows, разобрав их основные возможности...

04Май
2021

7 новых фич Apache Kafka Streams в релизе 2.8.0

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka для разработчиков и администраторов курсы, администратор кластера Apache Kafka, администрирование кластера Apache Kafka обучение, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, Apache Kafka Streams обучение для разработчика курсы, Kafka 2.8.0 without Zookeeper, Школа Больших Данных Учебный центр Коммерсант

Вчера мы говорили про важные обновления Apache Kafka 2.8.0, помимо долгожданного KIP-500, который позволяет избавиться от Zookeeper для синхронизации метаданных в распределенном кластере с помощью встроенного Quorum Controller. Сегодня рассмотрим, какие KIP’ы нового релиза коснулись одного из основных инструментов разработчика Apache Kafka – библиотеки Streams для создания распределенных приложений потоковой...

03Май
2021

Не только KIP-500: 15 важных улучшений Apache Kafka 2.8.0

Автор Анна Вичуговав категории Kafka, Блог

KIP-500, который позволяет наконец-то избавиться от Zookeeper в кластере Apache Kafka, заменив его Quorum Controller – далеко не единственное важное обновление в релизе 2.8.0. Сегодня рассмотрим, какие еще улучшения реализованы в новой версии главной Big Data платформы потоковой обработки событий, выпущенной в апреле 2021 года. Apache Kafka 2.8.0: новинки главных...

02Май
2021

Проблема межкластерных транзакций в Apache Kafka и способы ее решения

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka MirrorMaker, межкластерные транзакции Apache Kafka, Apache Kafka Для разработчиков курсы, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, строго однократная семантика доставки сообщений Kafka пример, Школа Больших Данных Учебный центр Коммерсант

Продолжая говорить про обучение разработчиков и администраторов Apache Kafka, сегодня разберем сложности семантики строго однократной доставки сообщений (exactly once) в случае нескольких экземплярах, находящихся в разных кластерах. Читайте далее, что не так с межкластерными транзакциями, какие KIP’ы связаны с этой проблемой и при чем здесь MirrorMaker. Что не так с...

01Май
2021

На заметку разработчику: 3 причуды Apache Spark и как с ними бороться

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark для разработчиков, разработка Spark, Apache Spark AWS S3 коннекторы, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы по Apache Spark, сегодня мы рассмотрим несколько особенностей, с разработчик которыми может столкнуться при выполнении обычных операции, от чтения архивированного файла до обращения к сервисам Amazon. Читайте далее, что не так с методом getDefaultExtension(), зачем к AWS S3 так много коннекторов и почему PySpark нужно дополнительно конфигурировать...

28Апр
2021

Разделяй и властвуй: управление зависимыми DAG в Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, Apache Airflow обучение, курсы дата-инженеров, обучение инженеров Big Data, инженерия больших данных, DAG AirFlow best practices, data pipeline, XCom AirFlow

Чтобы сделать обучение дата-инженеров еще более полезным, сегодня мы рассмотрим проблему управления взаимозависимыми цепочками задач в Apache AirFlow. Читайте далее, как бразильская ИТ-компания QuintoAndar разработала промежуточный компонент Mediator на базе одноименного шаблона архитектурного проектирования ПО, чтобы облегчить взаимодействие между разными DAG’ами в конвейерах обработки больших данных. Проблема взаимозависимых DAG’ов в...

27Апр
2021

Оптимизация хранения сообщений в топиках Apache Kafka: зачем и как упаковывать, сжимать и менять форматы

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka Для разработчиков курсы, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, оптимизация сохранения сообщений Kafka пример, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим важную тему из курсов для разработчиков и администраторов Apache Kafka: как сэкономить место на диске и увеличить пропускную способность всей Big Data системы на базе этой платформы потоковой обработки событий. Читайте далее, зачем добавлять задержку перед отправкой сообщений брокеру, как кодеки сжатия помогут снизить затраты на облачный Kafka-кластер...

26Апр
2021

Вспомнить все: 6 сегментов памяти Apache Spark и параметры их конфигурирования

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark для разработчиков, память Spark, Apache Spark JVM Heap Memory, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье продолжим говорить про обучение разработчиков Apache Spark и рассмотрим, какие сегменты памяти есть в этом Big Data фреймворке и как с ними работать наиболее эффективно. Читайте далее, почему процессы PySpark и SparkR потребляют внешнюю память, чем пользовательская память кучи JVM отличается от памяти хранилища и какие конфигурации...

24Апр
2021

Apache Kafka теперь без Zookeeper — новый релиз

Автор Nikolay Komissarenkoв категории Kafka, Статьи

Свершилось. 19 апреля вышел долгожданный релиз Apache Kafka за номером 2.8.0 в котором вы наконец можете начать избавляться от использования Apache Zookeeper кластера ( см. подробности в KIP-500 и нашей статье от 30 января Зачем Apache Kafka и другие Big Data системы используют Zookeeper и чем его заменить ) Приглашаем...

23Апр
2021

Как помочь Apache Spark SQL обрабатывать большие датасеты быстрее: 5 простых способов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Apache Spark, Spark SQL для разработчиков, оптимизация Spark SQL, курсы по большим данным для аналитиков и Data Scientist, обучение Big Data Analyst, Школа Больших Данных Учебный центр Коммерсант

Продолжая разговор про практическое обучение разработчиков Apache Spark, сегодня рассмотрим пример повышения скорости выполнения SQL-запросов к большому датафрейму. Читайте далее, как определить и исправить асимметрию распределения данных по разделам, зачем добавлять контрольные точки в длинные DAG и в чем здесь опасность, чем хороша широковещательная трансляция, для чего фильтровать данные перед...

22Апр
2021

Как устранить дубли в датасете: 5 методов для разработчика Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Big Data обучение, курсы инженеров данных, обучение дата-инженеров, разработка Apache Spark курсы, обучение Data Scientist, курсы Data Analyst, Школа Больших Данных Учебный центр Коммерсант

На практике каждый аналитик Big Data и Data Scientist часто сталкивается с удалением дублирующихся значений в датасете. Поэтому, чтобы добавить в наши курсы по Apache Spark еще больше полезных примеров, сегодня рассмотрим 5 простых способов решения этой востребованной задачи. Читайте далее, чем distinct() отличается от dropDuplicates(), а reduceByKey() - от...

21Апр
2021

Зачем вам cURL или как быстро загрузить ответ REST API или HTTP-запроса в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka Для разработчиков курсы, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, cURL пример Kafka

Дополняя наши курсы по Apache Kafka практическими примерами, сегодня рассмотрим, как загрузить в топик данные из ответа REST API или HTTP-запроса. Читайте далее, что такое cURL и какие команды нужно отправить через эту утилиту, чтобы записать в Kafka сообщения из JSON-файла. REST API, HTTP и сURL Импорт данных из REST...

20Апр
2021

От пакетов к потокам с Kafka и Flink: аналитика больших данных по пользовательским сеансам в Spotify

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы Hadoop Spark Kafka, потоковая аналитика больших данных обучение, анализ пользовательских сеансов Big Data, кейсы по большим данным,, обучение технологиям Big Data, обучение Kafka Spark Hadoop, аналитика больших данных примеры, Spotify Big Data cases

Сегодня рассмотрим преимущества потоковой обработки данных с Apache Kafka и Flink над пакетными Big Data технологиями в виде Hadoop, Spark и Oozie. В качестве примера разберем реальный кейс аналитики больших данных по пользовательским сеансам в музыкальном онлайн-сервисе Spotify, а также возможность замены Apache Flink на Spark Structured Streaming. От рекламы...

19Апр
2021

Можно ли заменить Apache Kafka базой данных и почему не стоит даже пытаться

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka, Apache Kafka для разработчиков и ИТ-архитекторов, Big Data, Большие данные, Kafka, NoSQL, SQL, Школа Больших Данных Учебный центр Коммерсант

Однажды мы уже разбирали, способна ли Apache Kafka заменить собой базы данных в мире Big Data. Сегодня рассмотрим обратную постановку этой задачи: можно ли реализовать постоянный обмен сообщениями в стиле Kafka с помощью СУБД. Читайте далее, что общего у Kafka с базой данных, чем они отличаются и почему попытки заменить...

16Апр
2021

Как повысить отказоустойчивость продюсера Kafka: 5 практик по настройке ТОП-10 конфигураций

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, конфигурации продюсеров Kafka, Apache Kafka для разработчиков администраторов и дата-инженеров, Kafka обучение разработчиков

В этой статье поговорим про практическое обучение Apache Kafka и рассмотрим, как сделать продюсеров еще более отказоустойчивыми, чтобы улучшить общую надежность всей Big Data системы. Читайте далее про наиболее важные конфигурации продюсеров Kafka и эффективные рекомендации по их настройке. 10 самых важных параметров продюсера Apache Kafka Из множества конфигурационных параметров...

15Апр
2021

15 советов по работе с DAG в Apache AirFlow: лучшие практики дата-инженера

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, Apache Airflow обучение, курсы дата-инженеров, обучение инженеров Big Data, инженерия больших данных, AirFlow 2.0, DAG AirFlow best practices

Практическое обучение дата-инженеров – это не просто курсы по основам Big Data, а полезные рекомендации с реальными примерами. Поэтому сегодня рассмотрим, как работать с DAG в Apache AirFlow еще эффективнее с помощью параметров конфигурации, плагинов, меток, шаблонов, переменных и еще 10 различных инструментов. 15 лучших практики для DAG в Apache...

14Апр
2021

ОЗУ, Kafka и Logstash для решения IOPS-проблемы в кластере Apache NiFi

Автор Анна Вичуговав категории Kafka, NiFi, Блог

курсы NiFi, обучение Apache NiFi, курсы Kafka, обучение Apache Kafka, курсы инженеров Big Data, курсы дата-инженеров, Kafka + NiFi

В рамках обучения дата-инженеров, сегодня рассмотрим проблему роста числа операций ввода-вывода в секунду (IOPS) при обработке большого количества данных в потоках Apache NiFi и способы ее решения. Читайте далее, как перемещение репозиториев NiFi с жесткого диска в оперативную память снижает IOPS, а также зачем при этом в Big Data систему...