Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

29Сен
2021

FlowKat и Monokl: еще пара средств мониторинга за кластером Apache Kafka на базе KafkaJS

Автор Анна Вичуговав категории Kafka, Блог

администрирование Kafka-кластера, мониторинг состояния Apache Kafka, администратор кластера Apache Kafka курсы обучение, Apache Kafka курсы обучение администраторов и дата-инженеров, мониторинг кластера Apache Kafka инструменты примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про KafkaJS – клиент Apache Kafka для Node.js, который отличается небольшим размером и простым развертыванием с удобным API. Сегодня рассмотрим еще пару полезных инструментов визуализации данных о Kafka-кластере на базе KafkaJS и Prometheus. Читайте далее, что такое FlowKat и Monokl, а также зачем они нужны дата-инженеру, разработчику...

28Сен
2021

Правила оптимизации в Spark SQL и их улучшения в Radiant

Автор Анна Вичуговав категории Spark, Блог

Spark SQL обучение курсы, обучение разработчиков Спарк, разработка Apache Spark SQL обучение курсы, Apache Sparkдля разработчиков курс обучение примеры, Apache Spark примеры, управление памятью в Apache Spark, Spark SQL Catalyst, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений и дата-аналитиков рассмотрим новый оптимизатор этого фреймворка, Radiant. Он основан на SQL-оптимизаторе Catalyst и представляет собой open-source проект от энтузиастов сообщества Apache Spark. Читайте далее, чем хорош Spark-Radiant и как использовать его для оптимизации SQL-запросов при аналитике больших данных. Что такое SQL-оптимизатор Spark-Radiant и...

24Сен
2021

Что такое KafkaJS: как скрестить ежа с ужом, а Apache Kafka с Node.js

Автор Анна Вичуговав категории Kafka, Блог

KafkaJS, обучение Kafka, курсы Kafka, Apache Kafka для разработчиков, Apache Kafka KafkaJS примеры, обучение больших данных на примерах, кейсы интернета вещей, IoT Kafka, примеры использования Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое KafkaJS, как это связано с Apache Kafka и JavaScript, в чем преимущества этой технологии и как разработчику распределенных приложений потоковой аналитики больших данных использовать ее на практике. Также вас ждет краткий ликбез по Node.js и примеры разработки KafkaJS-приложения. Краткий ликбез по Node.js Важными достоинствами архитектуры потоковой передачи...

22Сен
2021

3 совета администратору Greenplum: лучшие практики настройки кластера

Автор Анна Вичуговав категории Greenplum, Блог

обучение дата-инженеров и администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum SQL-оптимизатор, greenplum cluster administrator, Greenplum администратор кластера обучение курсы, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum администрирование кластера, аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Хотя наши практические курсы по Greenplum и Arenadata DB больше ориентированы на аналитиков и дата-инженеров, чем на администраторов, в программы обучения также включены важные сведения по настройке этих MPP-СУБД. В этой статье мы собрали лучшие практики системного конфигурирования кластера Greenplum, которые помогут повысить эффективность аналитики больших данных в этой Big...

21Сен
2021

Как рассчитать конверсию контекстной рекламы с помощью Apache Flink SQL: практический пример

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Apache Flink SQL, обучение Apache Spark SQL курсы, аналитика больших данных в контекстной рекламе пример, обучение большим данным, обучение Apache Flink Spark SQl для разработчиков и дата-аналитиков пример, Школа Больших Данных Учебный центр Коммерсант

Реклама является одним из наиболее крупных сегментов практического применения технологий Big Data. Поэтому сегодня рассмотрим, как Flink SQL реализует потоковую аналитику больших данных в AdTech-кейсах. Разбираем пример JOIN-соединения двух потоков событий - показов и кликов, чтобы вычислить конверсию рекламной кампании средствами Apache Flink или Spark. Потоки Big Data за фасадом...

20Сен
2021

Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Hive SQL-on-Hadoop, обучение разработчиков Hadoop NoSQL, разработка Apache Spark Hive обучение курсы, Apache Spark для разработчиков курс обучение примеры, Apache Spark примеры, Apache Hive администрирование аналитика данных примеры обучение курсы, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений Apache Spark, администраторов SQL-on-Hadoop и дата-аналитиков рассмотрим особенности аутентификации удаленного пользователя, а также отслеживание измененных данных в таблицах Apache Hive. Читайте далее, зачем ограничивать доступ к keytab-файлу в кластерах с поддержкой защищенного протокола Kerberos, а также как реализовать отслеживание медленно меняющихся измерений в...

17Сен
2021

Горизонтальное масштабирование кластера Apache Kafka: тонкости переназначения разделов

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, Kafka администрирование обучение курсы, Kafka cluster администратор, балансировка разделов на новых брокерах Apache Kafka, обучение большим данным, администрирование кластеров Кафка курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В поддержку курсов по администрированию Apache Kafka, сегодня рассмотрим особенности масштабирования кластера и связанное с этим переназначение разделов. Читайте далее, чем горизонтальное масштабирование лучше вертикального, как переназначить разделы между брокерами Kafka с целью перебалансировки нагрузки и зачем ограничивать полосу пропускания для перемещения реплик между узлами кластера. Проблемы масштабирования кластера Apache...

16Сен
2021

Как сохранить датафрейм вне кучи: секреты Apache Spark для разработчиков

Автор Анна Вичуговав категории Spark, Блог

GUI курсы Спарк, обучение разработчиков Спарк, разработка Apache Spark обучение курсы, Apache Sparkдля разработчиков курс обучение примеры, Apache Spark примеры, управление памятью в Apache Spark, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения разработчиков Spark-приложений, сегодня рассмотрим, как сохранить датафрейм в памяти вне кучи исполнителя и зачем это нужно. Вас ждет краткий ликбез по управлению памятью в Apache Spark с описанием настраиваемых конфигураций. Также на простом практическом примере разберем, как это сделать и где в пользовательском веб-интерфейсе фреймворка посмотреть результаты...

15Сен
2021

Потоковая аналитика больших данных в Grafana с Apache Kafka, Flink и SQL Stream Builder

Автор Анна Вичуговав категории Flink, Internet of Things, Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, Apache Kafka для разработчиков, потоковая обработка событий с Apache Kafka и Flink курсы обучение, обучение большим данным для разработчиков, курсы по Big Data, потоковая аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как построить конвейер потоковой обработки событий на Apache Kafka, Flink и SQL Stream Builder с визуализацией результатов в Grafana. Далее вас ждет практический кейс применения технологий Big Data в реальном производстве на примере телеметрии процессов ферментации продуктов в небольшой частной пивоварне. Постановка задачи: бизнес-контекст и используемые технологии В...

14Сен
2021

Сложная обработка событий от IoT-устройств в Apache Kafka: кейс Tesla

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, обучение Apache Kafka на практических примерах, интернет вещей. IoT, кейсы интернета вещей, Kafka Streams, Школа Больших Данных Учебный центр Коммерсант

Завершая серию статей по IoT-платформе компании Tesla на базе Apache Kafka, сегодня рассмотрим проблемы пиковой загрузки системы и особенности обработки высокоприоритетных событий. Читайте далее, как оптимально определить ключ раздела, чтобы снизить затраты на передачу данных, избежать перегрузки в пиковые моменты и отделить пользователей данных от разработчиков и дата-инженеров. Тонкости обработки...

13Сен
2021

Строим масштабируемые ETL/ELT-конвейеры обработки данных с Apache Spark и AirFlow: 4 совета дата-инженеру

Автор Анна Вичуговав категории AirFlow, Spark, Блог

озеро данных для дата-инженера курсы обучение, ETL ELT процессы Data Lake курсы обучение, обучение инженеров данных, Apache AirFlow курсы обучение, озеро данных Hadoop курсы обучение, курсы Spark для разработчиков и инженеров данных обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров мы собрали лучшие практики построения масштабируемых конвейеров обработки данных, а также популярные рекомендации по проектированию ETL/ELT-процессов с Apache Spark, AirFlow и другими технологиями Big Data. Читайте далее, когда ELT лучше ETL и наоборот, чем хорош Apache Spark в конвейерах обработки Big Data, зачем нужен AirFlow,...

09Сен
2021

От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark

Автор Анна Вичуговав категории HBase, Hive, Блог

обучение NoSQL, SQL-on-Hadoop курсы обучение, курсы HBase, обучение HBase, курсы Hive, обучение Hive, аналитика больших данных, обучение data analyst Big Data, обучение большим данным, инженерия больших данных, Hadoop для аналитиков и дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов по Apache Hadoop для дата-аналитиков и инженеров данных сегодня рассмотрим пару практических примеров работы с популярным SQL-on-Hadoop инструментом этой экосистемы. Читайте далее, как настроить соединение удаленного сервера Apache Hive к Spark-приложению через JDBC и решить проблему запроса таблицы HBase в Hive вместо повторной репликации данных. Подключение удаленного...

08Сен
2021

Аналитика слишком больших данных в IoT-инфраструктуре Tesla c Apache Kafka, Alpakka и Akka Streams

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, Apache Kafka для дата-инженеров и разработчиков, Apache Kafka коннектор Alpakka и Akka Streams кейсы, обучение больших данных на примерах, кейсы интернета вещей, IoT Kafka, примеры использования Apache Kafka, Школа БольшихДанных Учебный центр Коммерсант

Мы уже упоминали, что Apache Kafka не слишком хорошо обрабатывает сообщения чрезмерно большого размера. Сегодня рассмотрим, как эта проблема решается в конвейерах потоковой обработки IoT-инфраструктуры Tesla. Читайте далее про модификацию синтаксического анализатора данных от множества устройств интернета вещей с поиском компромисса между скоростью и надежностью с помощью коннектора Alpakka к...

07Сен
2021

Динамическое сжатие файлов в Apache Spark: опыт Databricks и не только

Автор Анна Вичуговав категории Spark, Блог

обучение Spark, курсы Spark, Apache Spark Для разработчиков и дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Spark является одной из главных технологий стека Big Data, этот фреймворк не очень хорошо работает с множеством файлов небольшого размера. Поэтому в рамках обучения дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим, почему это происходит, зачем динамически сжимать файлы в Apache Spark и как это делает платформа...

06Сен
2021

Как Byteman упрощает разработку и отладку приложений Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink, разработка Flink-приложений, обучение Apache Flink, курсы Apache Flink Для разработчиков, Byteman для отладки Java-кода, обучение разработчиков Big Data, курсы Hadoop Для разработчиков, разработка в Apache Hadoop курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения разработчиков распределенных приложений, сегодня рассмотрим, как упростить тестирование и отладку заданий Apache Flink с помощью Byteman. Читайте далее, как внедрить Java-код в JVM, чтобы извлечь нужные сведения о выполнении Flink-приложения на платформе Veverica и ускорить разработку. Разработка и отладка приложений Apache Flink: ежедневные сложности В рассматриваемом примере...

05Сен
2021

Создавайте графы в Apache Airflow с помощью TaskFlow API

Автор Dmitry Ermilovв категории AirFlow, Блог

В предыдущей статье мы говорили о том, как начать работать с Apache Airflow. Сегодня пойдет речь о новом инструменте, появившемся в Airflow 2, — TaskFlow API. Он обеспечивает кросс-коммуникацию между задачами с помощью обычных функций Python. На примере ETL-конвейера мы объясним, как соорудить DAG на основе TaskFlow API, а также...

02Сен
2021

Управление множеством IoT-устройств в Tesla на платформе Apache Kafka: организация топиков и парсинг сообщений

Автор Анна Вичуговав категории Internet of Things, Kafka, Use Cases, Блог

обучение Apache Kafka, курсы Kafka для дата-инженеров и разработчиков, Kafka Streams курсы обучение, Internet of things, IoT, интернет вещей кейсы примеры, Школа Больших Данных Учебный центр Коммерсант

Продолжая разбирать кейс компании Tesla по организации централизованного управления устройствами интернета вещей (Internet of Things, IoT), сегодня разберем, как выполняется обработка сообщений в топиках Apache Kafka с помощью Confluent Schema Registry и Kafka Streams. Читайте далее, как определить потоковый процессор для парсинга данных в CSV и JSON-форматах с использованием схемы...

01Сен
2021

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Анна Вичуговав категории Spark, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, аналитика больших данных для руководителей примеры и кейсы из промышленности, обучение Apache Spark, курсы Apache Spark, инженерия данных, обучение Big Data, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики больших данных с производства средствами Google сервисов и снижение затрат на облако в 2 раза через изменение конфигурации Spark SQL....

31Авг
2021

Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Kafka, обучение Kafka, курсы по Spark, обучение Spark, аналитика больших данных курсы обучение, примеры конвейера аналитики больших данных, аналитика больших данных с Kafka и Spark Для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов для дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим пример построения системы потоковой передачи для аналитики больших данных на базе Apache Kafka, Spark и Google BigQuery. Читайте далее про Proof of Concept для конвейера продуктовой аналитики, который обрабатывает 50 миллиардов событий каждый день, и какие важные уроки ИТ-архитектор...

30Авг
2021

Миллион проблем IoT и Apache Kafka для их решения: опыт Tesla

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы Kafka, примеры Internet of Things Kafka, интернет вещей кейсы, IoT Kafka, потоковая обработка больших данных Apache Kafka, Школа Больших Данных учебный центр Коммерсант

Являясь лидером отрасли, IoT-устройства Tesla обрабатывают триллионы событий в день, чтобы повысить эффективность своих электроавтомобилей. Однако, такая производительность была получена не сразу: чтобы достичь ее, инженерам компании пришлось решить множество проблем из области интернета вещей (Internet of Things, IoT). Сегодня рассмотрим, как часть из них была решена с помощью Apache...