Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

28Янв
2023

Кластеризация AO/CO-таблиц в Greenplum 7

Автор Анна Вичуговав категории Greenplum, Блог

кластеризация и индексация таблиц в Greenplum и PostgreSQL, кластеризованные таблицы Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что означает кластеризация таблиц в PostgreSQL, как это связано с индексацией и очисткой данных, чем полезно применение команды CLUSTER для AO/CO-таблиц в Greenplum 7, а также какой SQL-запрос поможет найти все кластеризованные таблицы в текущей базе данных. Как работает кластеризация таблиц в PostgreSQL Будучи основанной на объектно-реляционной базе данных PostgreSQL,...

27Янв
2023

Задания, задачи и этапы в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

задания этапы и задачи Spark-приложений, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, Apache Spark Для дата-инженеров и разработчиков, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чем задание в Spark-приложениях отличается от задачи, зачем нужны этапы и при чем здесь драйверы с исполнителями. Разбираемся с основами разработки в самом популярном движке для распределенных вычислений: ликбез для дата-инженеров. Основные концепции Spark-приложений Приложение Spark — это программа, созданная с помощью Spark API и работающая в совместимом с этим...

26Янв
2023

Управление хранением данных в Apache Kafka: 5 главных конфигураций

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Политики хранения, сжатия и очистки данных в топиках Apache Kafka: какие конфигурации нужно настроить, чтобы работать с файлами распределенных логов наиболее эффективно. Ликбез для администратора кластера Kafka и дата-инженера. Хранение данных в Apache Kafka Мы уже писали, что топик в Apache Kafka представляет собой не физическое, а логическое хранение данных....

25Янв
2023

TensorFlow на Apache Hadoop с TonY

Автор Анна Вичуговав категории Machine Learning, Блог

Deep Learning Hadoop TensorFlow MapReduce TonY примеры курсы обучение, глубокое обучение Data Science Hadoop MapReduce YARN примеры курсы, обучение дата-инженеров и MLOps, ML Machine Learning примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как LinkedIn построила масштабируемую инфраструктуру конвейеров машинного обучения, развернув модели TensorFlow на Apache Kafka, Spark и Hadoop YARN. Что такое платформа TonY, как она работает, почему изначально вычислительная парадигма MapReduce не очень хорошо подходила для глубокого обучения и как это исправить через конфигурацию настроек YARN. MLOps и проблемы глубокого обучения...

24Янв
2023

Советы дата-инженеру: теги DAG в Apache AirFlow и качество конвейера данных

Автор Анна Вичуговав категории AirFlow, Блог

качество данных дата-инженерия, Apache AirFlow лучшие практики, инженерия данных, инженер данных примеры курсы обучение Apache AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Зачем маркировать DAG в Apache AirFlow тегами, как их задать и где это пригодится дата-инженеру. А также еще разберем, какими свойствами должен обладать хорошо спроектированный конвейер обработки данных и как они улучшают их качество. Тегирование DAG в Apache AirFlow Когда дата-инженер работает с несколькими конвейерами данных, помнить все зависимости между...

23Янв
2023

Зачем вам RawGraphs: визуализация данных в Data Science

Автор Анна Вичуговав категории Блог

курсы Data Science примеры обучение, анализ и визуализация больших данных RawGraphs примеры курсы обучение, визуальный анализ больших данных примеры, аналитик данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения наших курсов по машинному обучению и Data Science, сегодня познакомимся с полезным инструментом визуализации данных. Что такое RawGraphs, как он работает и чем полезен для аналитики больших данных: смотрим на практическом примере. Что такое RawGraphs и как это работает Специалисты по Data Science и аналитики данных часто...

22Янв
2023

CDC -конвейер на Apache NiFi: ETL для изменений в данных

Автор Анна Вичуговав категории NiFi, Блог

NiFi примеры курсы обучение дата-инженеры CDC ETL, Change Data Capture примеры курсы обучение, CDC архитектура данных Data Lake DWH ETL инженерия данных примеры курсы обучение, дата-инженер курсы, ИТ-архитектор Big Data курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров рассмотрим, как организовать сбор измененных данных из реляционных СУБД, построив CDC-конвейер с помощью Apache NiFi. А также разберем, зачем процессоры этого потокового ETL-маршрутизатора используют технологию веб-хуков. ETL-конвейер для DWH и Data Lake В общем случае сбор данных из реляционных и нереляционных источников и построение...

21Янв
2023

3 способа подключить сервер Jupyter к защищенному кластеру Spark на Hadoop YARN с Kerberos

Автор Анна Вичуговав категории Spark, Блог

Sparkmagic Lighter Jupyter Notebook Spark Python, PySpark примеры курсы обучение, Apache Spark разработка дата-инженер примеры курсы обучение, Livy Spark Hadoop yarn Kerberos, Школа Больших Данных учебный Центр Коммерсант

Интерактивные блокноты Jupyter стали фактически стандартом де-факто для Data Scientist’ов, использующих Python. Многие дата-инженеры и разработчики Spark тоже используют этот легковесный, но очень удобный инструмент. Однако, чтобы применять его для промышленной разработки Big Data приложений, нужно подключить сервер Jupyter к кластеру Spark. Читайте, как это сделать, если кластер Apache Spark...

20Янв
2023

CDC для ETL-процессов в озеро данных: принципы работы, паттерны и ограничения

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Change Data Capture примеры курсы обучение, CDC архитектура данных Data Lake DWH ETL инженерия данных примеры курсы обучение, дата-инженер курсы, ИТ-архитектор Big Data курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Захват измененных данных считается довольно известным паттерном организации ETL-процессов для корпоративных хранилищ и озер данных. Как реализуется CDC-технология, по каким шаблонам, что их ограничивает и чем опасен дрейф изменений в Change Data Capture. Паттерны и принципы реализации захвата измененных данных Эффективность эксплуатации озера данных зависит от ETL-процессов, поскольку объемы данных...

19Янв
2023

Автомасштабирование приложений-потребителей из Apache Kafka на Kubernetes

Автор Анна Вичуговав категории Kafka, Блог

Kafka Kubernetes автомасштабирование, автоматическое вертикальное и горизонтальное масштабирование приложений-потребителей Apache Kafka на Kubernetes, DevOps Big Data прмиеры курсы обучение, администрирование кластера Apache Kafka инженер данных, Школа Больших Данных Учебный центр Коммерсант

В этой статье рассмотрим настройку инфраструктуры Kubernetes для потоковой платформы комплексных мобильных приложений на основе Apache Kafka. Что поможет добиться оптимальной масштабируемости приложений-потребителей и высокой доступности всей Big Data системы. Проблемы масштабирования платформы Grab из приложений-потребителей Apache Kafka Grab считается ведущей платформой суперприложений в 8 странах Юго-Восточной Азии, которая предоставляет...

18Янв
2023

Управление памятью в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB, Hadoop курсы обучение, Apache Hadoop для инженеров данных и разработчиков курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как оптимизировать потребление памяти в приложениях Apache Flink, разобрав основные принципы работы и конфигурации настройки памяти этого вычислительного фреймворка. А также перечислим типовые ошибки, с которыми дата-инженер может столкнуться при разработке и эксплуатации Flink-приложений Компоненты памяти в Apache Flink Apache Flink обеспечивает эффективные рабочие нагрузки поверх JVM, строго...

17Янв
2023

Инкрементный бэкап и стратегия восстановления таблиц в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

резервное копирование и восстановление данных Apache HBase, бэкапы HBase, обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о важности резервного копирования данных в Apache HBase на примере ИТ-компании Clairvoyant. Сегодня рассмотрим опыт индийской компании Myntra, которая предложила простую методику создания инкрементных бэкапов для Apache HBase 2.1.4 и Hadoop 2.7.3, а также восстановления нужных данных из этих резервных копий в BLOB-хранилищах по требованию пользователя. 5...

16Янв
2023

Сборка мусора и очистка таблиц в Greenplum с командой VACUUM

Автор Анна Вичуговав категории Greenplum, Блог

очистка таблиц базы данных Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, VACCUM Greenplum PostgreSQL примеры курсы обучение, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что такое SQL-оператор VACUUM, зачем эта команда нужна в Greenplum и как она работает. Разбираемся с таблицами системного каталога и тонкостями ускорения SQL-запросов в самой популярной MPP-СУБД. Что такое сборка мусора в Greenplum и PostgreSQL Напомним, в объектно-реляционной базе данных PostgreSQL, на которой основана MPP-СУБД Greenplum, о чем мы писали...

15Янв
2023

Зомби-задачи в Apache AirFlow: как их обнаружить и убить окончательно

Автор Анна Вичуговав категории AirFlow, Блог

DAG задачи AirFlow ETL, курсы дата-инженеров, Apache AirFlow примеры курсы обучение, инженерия данных обучение примеры, дата-инженер курсы, Школа Больших Данных Учебный Центр Коммерсант

Хотя Apache AirFlow считается достаточно зрелой платформой оркестрации рабочих процессов, при практическом использовании этого фреймворка дата-инженер может столкнуться с некоторыми сложностями. Одной из таких проблем являются так называемые «зомби-задачи». Разбираемся, чем они опасны, и как от них избавиться. Что такое зомби-задачи и чем они опасны В Unix-подобных операционных системах есть...

14Янв
2023

MLOps c Kubeflow: компоненты ML-конвейера

Автор Анна Вичуговав категории Machine Learning, Блог

Kubeflow примеры курсы обучение сравнение MLOps, MLOPS примеры курсы обучение, Kubeflow примеры курсы обучение, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Помимо популярного MLflow от Databrics, специалисты по машинному обучению часто используют другой MLOps-инструмент – Kubeflow, о чем мы писали здесь. Сегодня разберем, как работает это средство, упрощающее разработку и развертывание конвейеров Machine Learning на платформе контейнерной виртуализации Kubernetes. Что такое конвейеры Kubeflow и как они работают Как мы уже отмечали,...

13Янв
2023

Самообслуживаемый сервис Apache Spark Structured Streaming для Delta Lake

Автор Анна Вичуговав категории Spark, Блог

Data Lake Delta Lake Spark Structured Streaming архитектура данных примеры курсы обучение, Spark Structured Streaming для архитектора и разработчика, Spark Structured Streaming дата-инженерия, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и ИТ-архитекторов рассмотрим, как Apache Spark Structured Streaming помогает реализовать самообслуживаемый сервис потоковой передачи данных в Delta Lake. А также вспомним каноническую 3-хслойную модель этого уровня хранения от Databricks. Много потоковых сценариев в одном приложении Apache Spark Structured Streaming Мы недавно писали, что архитектуры,...

12Янв
2023

3 репозитория Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

репозитории Apache NiFi, Apache NiFi администратор кластера примеры курсы обучение, администрирование Apache NiFi лучшие практики примеры курсы обучение, Apache NiFi дата-инженер курсы обучения, инженерия данных курсы примеры обучение, инженер данных Big Data Apache NiFi примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем под капот Apache NiFi, чтобы понять, какие данные хранит этот потоковый ETL-маршрутизатор, зачем и где. Репозитории Apache NiFi для администратора, дата-инженера и проектировщика конвейеров обработки данных: как они устроены и какие практики улучшают их работу. Репозитории Apache NiFi: что это такое и зачем они нужны В Apache NiFi...

11Янв
2023

Профессиональная вендор-независимая сертификация по продуктам Big Data в 2023 году

Автор Анна Вичуговав категории Блог

сертификация ИТ-специалистов, международный сертификат ИТ, Apache Kafka Hadoop Greenplum Spark сертификация обучение администратор разработчик дата-инженер примеры курсы, сертификация по большим данным, профессиональный сертификат Big Data Россия РФ Hadoop Kafka Greenplum Spark обучение дата-инженеров администраторов разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Риски и возможности отечественного рынка труда с точки зрения профессиональной сертификации по технологиям больших данных. Как и зачем Школа Больших Данных разрабатывает профессиональную вендор-независимую сертификацию по продуктам и технологиям Big Data для еще лучшей подготовки и оценки ИТ-специалистов на российском рынке, опустевшем после ухода западных вендоров. Как изменился рынок профессиональных...

10Янв
2023

Flink + Kafka: Confluent купил Immerok

Автор Анна Вичуговав категории Flink, Kafka, Блог

Confluent Cloud Immerok Kafka Flink 2023, Apache Kafka Confluent Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink Kafka, обучение дата-инженеров и разработчиков Kafka Flink курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Зачем корпорации Confluent, которая продвигает Apache Kafka, понадобился Flink-стартап, чего ожидать от очередного слияния поглощения крупным игроком более мелкого предприятия, и какую пользу это принесет экосистеме потоковой передачи событий. Что Immerok и зачем это Confluent Год только начался, а в мире Big Data уже появились интересные новости. 6 января в...

09Янв
2023

События, сообщения, микросервисы и Apache Kafka: архитектурный холивар

Автор Анна Вичуговав категории Kafka, Блог

архитектура приложений распределенные микросервисы Kafka примеры курсы обучение, архитектура данных дата-инженер примеры курсы обучение, курсы Apache Kafka интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Хотя Apache Kafka часто используется в качестве шины обмена данными в микросервисной архитектуре, о чем мы писали здесь, не стоит воспринимать эту платформу как хранилище событий. В чем разница между событием и сообщением, а также другие тонкости построения микросервисной архитектуры, управляемой событиями. События vs сообщения Событие — это сообщение программной...