Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

04Фев
2023

Автор Анна Вичуговав категории Neo4j, Блог

графовые базы данных и языки запросов GraphQL Gremlin Cypher SPARQL AOL, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, Neo4j Cypher Merge примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Для продвижения нашего нового курса по графовым алгоритмам в бизнес-приложениях, сегодня рассмотрим 5 самых известных языков запросов для управления данными графов. Что общего у GraphQL, Gremlin, Cypher, SPARQL и AOL, а также чем они отличаются. GraphQL Языки запросов, используемые для управления данными графов (GQL, Graph Query Language), определяют способ извлечения...

03Фев
2023

ТОП-7 практик работы с DAG в Apache AirFlow для дата-инженера

Автор Анна Вичуговав категории AirFlow, Блог

качество данных дата-инженерия, Apache AirFlow лучшие практики, инженерия данных, инженер данных примеры курсы обучение Apache AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров еще более интересными, сегодня рассмотрим несколько лучших практик разработки DAG в Apache AirFlow, а также поговорим про операторы, которые обеспечивают повторное использование и настраиваемый запуск задач в конвейере обработки данных. Еще 7 полезных практик работы с Apache AirFlow для дата-инженера В дополнению к тегированию...

02Фев
2023

Как распараллелить чтение данных из JDBC-источников в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark JDBC для разработчиков, Spark JDBC инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, как ускорить выполнение заданий Spark SQL по чтению данных из JDBC-источников. В продолжение этой важной темы для обучения дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим, зачем настраивать опции функции spark.read() и как это сделать наиболее эффективно. Скорость выполнения SQL-запросов и параметры чтения данных из JDBC-источников в Apache...

01Фев
2023

Apache Kafka 3.3.2: краткий обзор январского релиза 2023

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka 3.3.2 обновление кластера администрирование примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

23 января 2023 года вышел очередной релиз самой популярной платформы потоковой передачи событий. Разбираемся с новинками Apache Kafka 3.3.2: готовность протокола KRaft, новый API для метрик, разделитель по умолчанию для записей без ключа, исправления и улучшения, важные для дата-инженера и администратора кластера. Apache Kafka 3.3.2: главные новинки и изменения Минорный...

31Янв
2023

Что такое RecordPath в Apache NiFi и как дата-инженеру работать с ним

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi процессоры DSL администрирование дата-инженерия примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня познакомимся с еще одним полезным инструментом Apache NiFi: как использовать предметно-ориентированный язык RecordPath, чтобы получить доступ к полям записи. Смотрим на примере процессора UpdateRecord. Что такое RecordPath в Apache NiFi Apache NiFi имеет множество готовых процессоров, способных принимать, обрабатывать, маршрутизировать, преобразовывать и доставлять данные любого формата и размера благодаря...

30Янв
2023

Целостность и качество данных: ACID и транзакции в мире Big Data

Автор Анна Вичуговав категории Блог, Цифровая трансформация

качество и целостность больших данных, архитектура данных, ETL и Data Management, Big Data Quality, инженерия качества данных, процессы и инструменты обеспечения качества больших данных, ACID в распределенных транзакциях, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, Big Data Quality Management, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Чем целостность данных отличается от их качества и как реализуются ACID-свойства распределенных транзакций в Big Data системах. Разбираем понятия и технологии, важные для обучения ИТ-архитекторов и дата-инженеров. Целостность и качество данных: versus или вместе? Целостность данных и качество данных — связанные, но разные понятия, важные для дата-инженера. Целостность описывает точность...

29Янв
2023

Apache Flink 1.16.0: обзор релиза

Автор Анна Вичуговав категории Flink, Блог

Apache Flink 1.16 для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков Flink курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

28 октября 2022 года вышел мажорный релиз Apache Flink. Что нового в выпуске 1.16.0, который сегодня имеет официальный статус стабильного: зачем нужен SQL Gateway, как улучшен Changelog State Backend, какие DDL-выражения добавлены и зачем внесена поддержка кэширования результата преобразования в PyFlink. Главные обновления Apache Flink 1.16 В версии 1.16 Flink...

28Янв
2023

Кластеризация AO/CO-таблиц в Greenplum 7

Автор Анна Вичуговав категории Greenplum, Блог

кластеризация и индексация таблиц в Greenplum и PostgreSQL, кластеризованные таблицы Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что означает кластеризация таблиц в PostgreSQL, как это связано с индексацией и очисткой данных, чем полезно применение команды CLUSTER для AO/CO-таблиц в Greenplum 7, а также какой SQL-запрос поможет найти все кластеризованные таблицы в текущей базе данных. Как работает кластеризация таблиц в PostgreSQL Будучи основанной на объектно-реляционной базе данных PostgreSQL,...

27Янв
2023

Задания, задачи и этапы в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

задания этапы и задачи Spark-приложений, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, Apache Spark Для дата-инженеров и разработчиков, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чем задание в Spark-приложениях отличается от задачи, зачем нужны этапы и при чем здесь драйверы с исполнителями. Разбираемся с основами разработки в самом популярном движке для распределенных вычислений: ликбез для дата-инженеров. Основные концепции Spark-приложений Приложение Spark — это программа, созданная с помощью Spark API и работающая в совместимом с этим...

26Янв
2023

Управление хранением данных в Apache Kafka: 5 главных конфигураций

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Политики хранения, сжатия и очистки данных в топиках Apache Kafka: какие конфигурации нужно настроить, чтобы работать с файлами распределенных логов наиболее эффективно. Ликбез для администратора кластера Kafka и дата-инженера. Хранение данных в Apache Kafka Мы уже писали, что топик в Apache Kafka представляет собой не физическое, а логическое хранение данных....

25Янв
2023

TensorFlow на Apache Hadoop с TonY

Автор Анна Вичуговав категории Machine Learning, Блог

Deep Learning Hadoop TensorFlow MapReduce TonY примеры курсы обучение, глубокое обучение Data Science Hadoop MapReduce YARN примеры курсы, обучение дата-инженеров и MLOps, ML Machine Learning примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как LinkedIn построила масштабируемую инфраструктуру конвейеров машинного обучения, развернув модели TensorFlow на Apache Kafka, Spark и Hadoop YARN. Что такое платформа TonY, как она работает, почему изначально вычислительная парадигма MapReduce не очень хорошо подходила для глубокого обучения и как это исправить через конфигурацию настроек YARN. MLOps и проблемы глубокого обучения...

24Янв
2023

Советы дата-инженеру: теги DAG в Apache AirFlow и качество конвейера данных

Автор Анна Вичуговав категории AirFlow, Блог

Зачем маркировать DAG в Apache AirFlow тегами, как их задать и где это пригодится дата-инженеру. А также еще разберем, какими свойствами должен обладать хорошо спроектированный конвейер обработки данных и как они улучшают их качество. Тегирование DAG в Apache AirFlow Когда дата-инженер работает с несколькими конвейерами данных, помнить все зависимости между...

22Янв
2023

CDC -конвейер на Apache NiFi: ETL для изменений в данных

Автор Анна Вичуговав категории NiFi, Блог

NiFi примеры курсы обучение дата-инженеры CDC ETL, Change Data Capture примеры курсы обучение, CDC архитектура данных Data Lake DWH ETL инженерия данных примеры курсы обучение, дата-инженер курсы, ИТ-архитектор Big Data курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров рассмотрим, как организовать сбор измененных данных из реляционных СУБД, построив CDC-конвейер с помощью Apache NiFi. А также разберем, зачем процессоры этого потокового ETL-маршрутизатора используют технологию веб-хуков. ETL-конвейер для DWH и Data Lake В общем случае сбор данных из реляционных и нереляционных источников и построение...

21Янв
2023

3 способа подключить сервер Jupyter к защищенному кластеру Spark на Hadoop YARN с Kerberos

Автор Анна Вичуговав категории Spark, Блог

Sparkmagic Lighter Jupyter Notebook Spark Python, PySpark примеры курсы обучение, Apache Spark разработка дата-инженер примеры курсы обучение, Livy Spark Hadoop yarn Kerberos, Школа Больших Данных учебный Центр Коммерсант

Интерактивные блокноты Jupyter стали фактически стандартом де-факто для Data Scientist’ов, использующих Python. Многие дата-инженеры и разработчики Spark тоже используют этот легковесный, но очень удобный инструмент. Однако, чтобы применять его для промышленной разработки Big Data приложений, нужно подключить сервер Jupyter к кластеру Spark. Читайте, как это сделать, если кластер Apache Spark...

20Янв
2023

CDC для ETL-процессов в озеро данных: принципы работы, паттерны и ограничения

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Change Data Capture примеры курсы обучение, CDC архитектура данных Data Lake DWH ETL инженерия данных примеры курсы обучение, дата-инженер курсы, ИТ-архитектор Big Data курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Захват измененных данных считается довольно известным паттерном организации ETL-процессов для корпоративных хранилищ и озер данных. Как реализуется CDC-технология, по каким шаблонам, что их ограничивает и чем опасен дрейф изменений в Change Data Capture. Паттерны и принципы реализации захвата измененных данных Эффективность эксплуатации озера данных зависит от ETL-процессов, поскольку объемы данных...

19Янв
2023

Автомасштабирование приложений-потребителей из Apache Kafka на Kubernetes

Автор Анна Вичуговав категории Kafka, Блог

Kafka Kubernetes автомасштабирование, автоматическое вертикальное и горизонтальное масштабирование приложений-потребителей Apache Kafka на Kubernetes, DevOps Big Data прмиеры курсы обучение, администрирование кластера Apache Kafka инженер данных, Школа Больших Данных Учебный центр Коммерсант

В этой статье рассмотрим настройку инфраструктуры Kubernetes для потоковой платформы комплексных мобильных приложений на основе Apache Kafka. Что поможет добиться оптимальной масштабируемости приложений-потребителей и высокой доступности всей Big Data системы. Проблемы масштабирования платформы Grab из приложений-потребителей Apache Kafka Grab считается ведущей платформой суперприложений в 8 странах Юго-Восточной Азии, которая предоставляет...

18Янв
2023

Управление памятью в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

курсы по Flink, разработка Apache Flink, обучение разработчиков Big Data, Apache Flink курсы обучение RocksDB, Hadoop курсы обучение, Apache Hadoop для инженеров данных и разработчиков курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как оптимизировать потребление памяти в приложениях Apache Flink, разобрав основные принципы работы и конфигурации настройки памяти этого вычислительного фреймворка. А также перечислим типовые ошибки, с которыми дата-инженер может столкнуться при разработке и эксплуатации Flink-приложений Компоненты памяти в Apache Flink Apache Flink обеспечивает эффективные рабочие нагрузки поверх JVM, строго...

17Янв
2023

Инкрементный бэкап и стратегия восстановления таблиц в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

резервное копирование и восстановление данных Apache HBase, бэкапы HBase, обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о важности резервного копирования данных в Apache HBase на примере ИТ-компании Clairvoyant. Сегодня рассмотрим опыт индийской компании Myntra, которая предложила простую методику создания инкрементных бэкапов для Apache HBase 2.1.4 и Hadoop 2.7.3, а также восстановления нужных данных из этих резервных копий в BLOB-хранилищах по требованию пользователя. 5...

16Янв
2023

Сборка мусора и очистка таблиц в Greenplum с командой VACUUM

Автор Анна Вичуговав категории Greenplum, Блог

очистка таблиц базы данных Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, VACCUM Greenplum PostgreSQL примеры курсы обучение, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что такое SQL-оператор VACUUM, зачем эта команда нужна в Greenplum и как она работает. Разбираемся с таблицами системного каталога и тонкостями ускорения SQL-запросов в самой популярной MPP-СУБД. Что такое сборка мусора в Greenplum и PostgreSQL Напомним, в объектно-реляционной базе данных PostgreSQL, на которой основана MPP-СУБД Greenplum, о чем мы писали...

15Янв
2023

Зомби-задачи в Apache AirFlow: как их обнаружить и убить окончательно

Автор Анна Вичуговав категории AirFlow, Блог

DAG задачи AirFlow ETL, курсы дата-инженеров, Apache AirFlow примеры курсы обучение, инженерия данных обучение примеры, дата-инженер курсы, Школа Больших Данных Учебный Центр Коммерсант

Хотя Apache AirFlow считается достаточно зрелой платформой оркестрации рабочих процессов, при практическом использовании этого фреймворка дата-инженер может столкнуться с некоторыми сложностями. Одной из таких проблем являются так называемые «зомби-задачи». Разбираемся, чем они опасны, и как от них избавиться. Что такое зомби-задачи и чем они опасны В Unix-подобных операционных системах есть...