Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

21Авг
2021

Чем хорош Splunk S2S Source Connector от Confluent и как это связано с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Курсы по Kafka, обучение Apache Kafka, Kafka Connect курсы обучение администраторов и дата-инженеров, обучение администрирование кластера Apache Kafka, интеграция систем с Apache Kafka, коннектор Spalunk Kafka, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов Apache Kafka рассмотрим, зачем Confluent выпустил премиум коннектор Splunk S2S Source и как на базе этих платформ построить эффективную систему потоковой аналитики больших данных. Также читайте далее, что такое универсальный сервер рассылки Splunk и какие конфигурации коннектора позволяют автоматически создавать топик Kafka для сбора...

20Авг
2021

Что такое Erasure Coding и как это устроено: под капотом Apache Hadoop HDFS 3.3.1

Автор Анна Вичуговав категории Блог, Статьи

Hadoop администратор обучение курсы, администрирование кластера Hadoop, как работает HDFS Erasure Coding, Apache Hadoop Erasure Coding HDFS администратор кластера курсы обучение для инженеров данных, курсы Hadoop администратор кластера обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про новые функции свежего релиза Apache Hadoop 3.3.1. Сегодня разберем подробнее, что такое Erasure Coding и как эта технология кодирования со стиранием экономит место в распределенной файловой системе HDFS. Также заглянем внутрь EC и рассмотрим, чем алгоритм Рида-Соломона лучше ассоциативной операции XOR для обеспечения отказоустойчивости хранилища больших...

19Авг
2021

Как упростить загрузку данных в Data Lake с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

обучение AirFlow, курсы Apache AirFlow, Apache AirFlow для дата-инженеров, Apache AirFlow для инженеров данных курсы обучение примеры, DAG Factory Apache AirFlow пример, Data Lake ELT Apache AirFlow, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в курсы по Apache AirFlow еще больше полезных примеров, сегодня рассмотрим, как избежать дублирования кода при загрузке данных. Этот пример пригодится дата-инженерам в работе с ELT-процессами наполнения информацией корпоративных хранилищ и озер данных. Читайте про фреймворк динамической загрузки данных на базе конфигурационных YAML-файлов, DAG-фабрик и загрузчиков. Проблема дублирования...

18Авг
2021

Зачем вам Beekeeper или как очистить метаданные таблицы Apache Hive

Автор Анна Вичуговав категории Hive, Блог

Beekeeper Hive, обучение Hadoop SQL администратор, курсы Hive, обучение Hive Hadoop, курсы Hadoop, обучение Hive SQL, курсы Hive, обучение Hadoop, курсы Hadoop, администрирование кластера Hadoop курсы обучение, Школа Больших ДАнных Учебный центр Коммерсант

Сегодня рассмотрим, что такое Beekeeper и как этот сервис помогает администраторам Hadoop и пользователям Apache Hive очищать метаданные этого NoSQL-хранилища. Читайте далее, зачем удалять устаревшие пути из Metastore и как настроить конфигурацию Hive-таблиц для автоматического прослушивания событий их изменения. Для чего очищать потерянные метаданные в Apache Hive Напомним, Apache Hive...

17Авг
2021

Greenplum vs PostgreSQL: 7 сходств и 3 отличия

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum vs PostgreSQL, Greenplum и PostgreSQL сходства и отличия, чем Greenplum отличается от PostgreSQL, обучение аналитиков и дата-инженеров администраторов Greenplum, администрирование Greenplum, что такое Arenadata DB и как это связано с Greenplum и PostgreSQL, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Поскольку Greenplum и Arenadata DB основаны на популярной open-source СУБД PostgreSQL, сегодня разберем, чем они отличаются от этой объектно-реляционной базы данных. Далее вас ждет краткий и понятный ответ на вопрос Greenplum vs PostgreSQL: сходства и отличия этих систем с учетом аналитики больших данных и практических кейсов дата-инженерии. Что общего между...

16Авг
2021

Как создать свой процессор с отношениями и Java-аннотациями: Apache NiFi для инженера данных

Автор Анна Вичуговав категории NiFi, Блог

процессоры Apache NiFi, курсы Apache NiFi администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

В этой статье в поддержку курсов по Apache NiFi заглянем под капот этой платформы маршрутизации потоковых данных и рассмотрим, как дата-инженер может создать собственный процессор. Смотрите далее, как устроены процессоры в Apache NiFi, что общего между отношениями и маршрутами движения потоковых данных, как создать FlowFile, зачем нужен метод onTrigger() и...

14Авг
2021

5 лайфхаков по Apache Spark для разработчиков и дата-аналитиков

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark курсы обучение, Spark курсы обучение разработчиков и дата-аналитиков, Data Science с Apache Spark примеры, обработка данных в Apache Spark JSON CSV примеры, Школа Больших Данных Учебный Центр Коммерсант

Специально для разработчиков распределенных приложений, Data Scientist’ов и аналитиков больших данных, работающих с Apache Spark, в этой статье мы собрали несколько полезных советов по ежедневным операциям в этом фреймворке. Читайте далее, как добавить библиотеку TypeSafe в файл sbt-конфигурации Spark-приложения, получить датафреймы из JSON-массивов и структур, а также обработать CSV-формат с...

13Авг
2021

Как устроен API администратора Apache Kafka: методы AdminClient с примерами

Автор Анна Вичуговав категории Kafka, Блог

курсы Kafka администратор кластера, обучение Kafka для разработчиков, обучение Apache Kafka, курсы Apache Kafka, Kafka AdminClient, Admin Client Kafka пример, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов по Apache Kafka для разработчиков и администраторов кластера, сегодня заглянем под капот AdminClient и на практических примерах разберем, как динамически создавать новый топик и описывать его программным способом через API. Еще рассмотрим, почему метод deleteTopics() нужно применять очень осторожно, а также вспомним основы ООП, говоря про классы...

12Авг
2021

Как GPORCA ускоряет аналитику больших данных в Greenplum: оптимизация SQL-запросов с JOIN и немного математики

Автор Анна Вичуговав категории Greenplum, Блог

обучение аналитиков и дата-инженеров администраторов Greenplum, многосторонние JOIN в Greenplum, Greenplum SQL-оптимизатор, GPORCA greenplum, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Обучая разработчиков и администраторов Greenplum, а также в рамках продвижения курсов по Arenadata DB, сегодня рассмотрим, как SQL-оптимизатор ORCA ускоряет аналитику больших данных, позволяя реализовать многостороннее соединение таблиц через JOIN-запросы. Читайте далее, что такое GPORCA, как его использовать, насколько он эффективен по сравнению с другими планировщиками SQL-запросов в этой MPP-СУБД...

11Авг
2021

Что такое драйвер JDBC и почему он важен для распределенной работы в Hive

Автор administratorв категории Hive, NoSql, Блог

Big Data, JDBC, Hive, драйвер, приложение, Java, SQL, hadoop hive, обучение arenadata hadoop, курсы nosql, обучение nosql, mongodb nosql, курсы nosql в Москве, hbase курсы, курсы по mongodb, курс разработчиков arenadata db

В прошлый раз мы говорили про особенности работы с основными join-операциями в Hive. Сегодня поговорим про использование JDBC-драйвера при работе в распределенной Big Data платформе Apache Hive. Читайте далее про особенности использования этого драйвера при работе в распределенной среде Hive. Использование драйвера JDBC в распределенной СУБД Apache Hive Драйвер JDBC...

11Авг
2021

Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

обучение Kafka, курсы Kafka, обучение Spark, обучение PySpark, обучение Machine Learning, обучение Python в больших данных на реальных кейсах, курсы Spark для разработчиков ML, курсы PySpark для аналитики больших данных, Machine Learning NLP примеры, Python в аналитике больших данных реальные примеры, Школа Больших Данных Учебный центр Коммерсант

Чтобы дополнить наши курсы по Kafka и Spark интересными примерами, сегодня рассмотрим практический кейс разработки микросервисного конвейера машинного обучения на этих фреймворках. Читайте далее, зачем выносить ML-компонент в отдельное Python-приложение от остальной части Big Data pipeline’а, и как Docker поддерживает эту концепцию микросервисного подхода. Постановка задачи и компоненты микросервисного ML-конвейера...

10Авг
2021

Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Arenadata, курсы Arenadata, обучение Spark, курсы Spark, обучение Hive, курсы Hive, обучение Hadoop, курсы Hadoop, администрирование кластера Hadoop курсы обучение, Школа Больших ДАнных Учебный центр Коммерсант

В июле 2021 года «Аренадата Софтвер», российская ИТ-компания разработчик отечественных решений для хранения и аналитики больших данных, представила минорный релиз корпоративного дистрибутива на базе Apache Hadoop — Arenadata Hadoop 2.1.4. Главными фишками этого выпуска стало наличие 3-й версии Apache Spark и External PostgreSQL для Hive MetaStore. Сегодня рассмотрим, что именно...

09Авг
2021

Непредсказуемость Apache Spark SQL и как от нее избавиться: про UDF и Catalyst

Автор Анна Вичуговав категории Spark, Блог

Spark SQL UDF, Spark Catalyst UDF, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения разработчиков Apache Spark и дата-аналитиков, поговорим про детерминированность UDF-функций и особенности их обработки оптимизатором SQL-запросов Catalyst. На практических примерах рассмотрим, как оптимизатор Spark SQL обрабатывает недетерминированные выражения и зачем кэшировать промежуточные результаты, чтобы гарантированно получить корректный выход. Еще раз про детерминированность функций и планы выполнения...

07Авг
2021

В помощь дата-инженеру: 3 главных плюса реестра провайдеров Apache Airflow от Astronomer

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали про преимущества разделения пакетов в Apache AirFlow 2.0. Сегодня рассмотрим, как открытый реестр Python-пакетов от компании Astronomer облегчает разработку конвейеров обработки данных, чем провайдеры отличаются от модулей и насколько удобно дата-инженеру всем этим пользоваться. От монолита к мульти-пакетной архитектуре в Apache Airflow 2.0 Напомним, во 2-ой версии...

06Авг
2021

Новый релиз Apache Hadoop 3.3.1: ТОП-15 обновлений

Автор Анна Вичуговав категории Блог, Статьи

обновления Hadoop 2021, Hadoop администратор обучение курсы, администрирование кластера Hadoop, Hadoop для инженеров данных, YARN в кластере Apache Hadoop, курсы Hadoop администратор кластера обучение, Apache Hadoop для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Постоянно обновляя наши курсы по Apache Hadoop для администраторов кластеров и инженеров данных, сегодня рассмотрим главные новинки июньского релиза 2021. Читайте далее, как поддержка Erasure Coding сэкономит место в HDFS, зачем обновляться до 8-ой версии Java, чем хорош YARN Timeline Service v.2, как повысить надежность кластера Hadoop еще больше и...

05Авг
2021

Я знаю ваш пароль: утечки конфиденциальных данных в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

курсы Apache NiFi администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про новые функции обеспечения информационной безопасности в свежем релизе Apache NiFi 1.14.0. В продолжение темы cybersecurity, сегодня рассмотрим пару внутренних уязвимостей с умеренной степенью серьезности. Читайте далее, чем опасно раскрытие конфиденциальных данных и значений параметров свойств процессора при переходе в режим отладки, а также как была устранена...

04Авг
2021

Под капотом кластера Apache Hadoop: как работает YARN, где он может сломаться и что чинить

Автор Анна Вичуговав категории Use Cases, Блог

Hadoop администратор обучение курсы, администрирование кластера Hadoop, как работает YARN, YARN в кластере Apache Hadoop, курсы Hadoop администратор кластера обучение, Школа Больших Данных Учебный центр Коммерсант

Продолжая обучение основам Apache Hadoop для начинающих администраторов, сегодня рассмотрим архитектуру и принципы работы YARN в кластере. Также разберем, какие отказы могут случиться на каждом из его компонентов и как Resource Manager системы YARN обеспечивает высокую доступность кластера Apache Hadoop. Зачем Apache Hadoop нужен YARN и как он работает Поскольку...

03Авг
2021

ksqlDB 0.19.0: июньские новинки для разработчиков Kafka от Confluent

Автор Анна Вичуговав категории Kafka, Блог

ksqlDB курсы Kafka, обучение Kafka Streams для разработчиков, обучение Apache Kafka, курсы Apache Kafka, обучение KSQL, курсы KSQL, Школа Больших Данных Учебный центр Коммерсант

6 июня 2021 года компания Confluent, которая продвигает коммерческую версию платформы Apache Kafka, выпустила новый релиз ksqlDB. Сегодня рассмотрим самые важные исправления ошибок и новые функции ksqlDB 0.19.0, уделив особое внимание SQL-запросам соединения таблиц через JOIN по внешнему ключу. ТОП-10 исправленных ошибок в новом релизе ksqlDB Напомним, ksqlDB – это...

02Авг
2021

ADB-Spark Connector: интеграция Spark и Greenplum от Аренадата

Автор Анна Вичуговав категории Greenplum, Spark, Use Cases, Блог

обучение Аренадата, курсы Аренадата, обучение Arenadata DB, курсы Arenadata DB, обучение Greenplum, курсы Greenplum, обучение Spark, курсы Spark, интеграция Greenplum и Spark, аналитика больших данных для инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Мы уже рассказывали про коннектор Greenplum-Spark, 2-я версия которого вышла в октябре 2020 года. А сегодня рассмотрим российскую альтернативу для отечественной MPP-СУБД Arenadata DB на базе Greenplum, выпущенную компанией Аренадата в июле 2021 года. Краткий обзор ADB-Spark Connector: архитектура, принципы работы, сценарии использования, а также отличия от PXF-фреймворка и варианта...

01Авг
2021

Основы Hadoop HDFS для начинающих администраторов: как вывести узел из кластера без потери данных

Автор Анна Вичуговав категории Use Cases, Блог

Hadoop администратор обучение курсы, администрирование кластера Hadoop, как работает HDFS, обслуживание узлов в кластере Apache Hadoop? курсы Hadoop администратор кластера обучение, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Hadoop – высоконадежная экосистема хранения и аналитики больших данных, отказы случаются и в ней. Сегодня в рамках обучения начинающих администраторов и разработчиков Hadoop разберем, какие типы сбоев возможны в распределенной файловой системе HDFS и механизмы их предупреждения, а также рассмотрим процедуру вывода узлов из кластера для...