Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

17Авг
2021

Greenplum vs PostgreSQL: 7 сходств и 3 отличия

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum vs PostgreSQL, Greenplum и PostgreSQL сходства и отличия, чем Greenplum отличается от PostgreSQL, обучение аналитиков и дата-инженеров администраторов Greenplum, администрирование Greenplum, что такое Arenadata DB и как это связано с Greenplum и PostgreSQL, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Поскольку Greenplum и Arenadata DB основаны на популярной open-source СУБД PostgreSQL, сегодня разберем, чем они отличаются от этой объектно-реляционной базы данных. Далее вас ждет краткий и понятный ответ на вопрос Greenplum vs PostgreSQL: сходства и отличия этих систем с учетом аналитики больших данных и практических кейсов дата-инженерии. Что общего между...

14Авг
2021

5 лайфхаков по Apache Spark для разработчиков и дата-аналитиков

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark курсы обучение, Spark курсы обучение разработчиков и дата-аналитиков, Data Science с Apache Spark примеры, обработка данных в Apache Spark JSON CSV примеры, Школа Больших Данных Учебный Центр Коммерсант

Специально для разработчиков распределенных приложений, Data Scientist’ов и аналитиков больших данных, работающих с Apache Spark, в этой статье мы собрали несколько полезных советов по ежедневным операциям в этом фреймворке. Читайте далее, как добавить библиотеку TypeSafe в файл sbt-конфигурации Spark-приложения, получить датафреймы из JSON-массивов и структур, а также обработать CSV-формат с...

13Авг
2021

Как устроен API администратора Apache Kafka: методы AdminClient с примерами

Автор Анна Вичуговав категории Kafka, Блог

курсы Kafka администратор кластера, обучение Kafka для разработчиков, обучение Apache Kafka, курсы Apache Kafka, Kafka AdminClient, Admin Client Kafka пример, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов по Apache Kafka для разработчиков и администраторов кластера, сегодня заглянем под капот AdminClient и на практических примерах разберем, как динамически создавать новый топик и описывать его программным способом через API. Еще рассмотрим, почему метод deleteTopics() нужно применять очень осторожно, а также вспомним основы ООП, говоря про классы...

12Авг
2021

Как GPORCA ускоряет аналитику больших данных в Greenplum: оптимизация SQL-запросов с JOIN и немного математики

Автор Анна Вичуговав категории Greenplum, Блог

обучение аналитиков и дата-инженеров администраторов Greenplum, многосторонние JOIN в Greenplum, Greenplum SQL-оптимизатор, GPORCA greenplum, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Обучая разработчиков и администраторов Greenplum, а также в рамках продвижения курсов по Arenadata DB, сегодня рассмотрим, как SQL-оптимизатор ORCA ускоряет аналитику больших данных, позволяя реализовать многостороннее соединение таблиц через JOIN-запросы. Читайте далее, что такое GPORCA, как его использовать, насколько он эффективен по сравнению с другими планировщиками SQL-запросов в этой MPP-СУБД...

11Авг
2021

Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

обучение Kafka, курсы Kafka, обучение Spark, обучение PySpark, обучение Machine Learning, обучение Python в больших данных на реальных кейсах, курсы Spark для разработчиков ML, курсы PySpark для аналитики больших данных, Machine Learning NLP примеры, Python в аналитике больших данных реальные примеры, Школа Больших Данных Учебный центр Коммерсант

Чтобы дополнить наши курсы по Kafka и Spark интересными примерами, сегодня рассмотрим практический кейс разработки микросервисного конвейера машинного обучения на этих фреймворках. Читайте далее, зачем выносить ML-компонент в отдельное Python-приложение от остальной части Big Data pipeline’а, и как Docker поддерживает эту концепцию микросервисного подхода. Постановка задачи и компоненты микросервисного ML-конвейера...

10Авг
2021

Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Arenadata, курсы Arenadata, обучение Spark, курсы Spark, обучение Hive, курсы Hive, обучение Hadoop, курсы Hadoop, администрирование кластера Hadoop курсы обучение, Школа Больших ДАнных Учебный центр Коммерсант

В июле 2021 года «Аренадата Софтвер», российская ИТ-компания разработчик отечественных решений для хранения и аналитики больших данных, представила минорный релиз корпоративного дистрибутива на базе Apache Hadoop — Arenadata Hadoop 2.1.4. Главными фишками этого выпуска стало наличие 3-й версии Apache Spark и External PostgreSQL для Hive MetaStore. Сегодня рассмотрим, что именно...

09Авг
2021

Непредсказуемость Apache Spark SQL и как от нее избавиться: про UDF и Catalyst

Автор Анна Вичуговав категории Spark, Блог

Spark SQL UDF, Spark Catalyst UDF, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения разработчиков Apache Spark и дата-аналитиков, поговорим про детерминированность UDF-функций и особенности их обработки оптимизатором SQL-запросов Catalyst. На практических примерах рассмотрим, как оптимизатор Spark SQL обрабатывает недетерминированные выражения и зачем кэшировать промежуточные результаты, чтобы гарантированно получить корректный выход. Еще раз про детерминированность функций и планы выполнения...

06Авг
2021

Новый релиз Apache Hadoop 3.3.1: ТОП-15 обновлений

Автор Анна Вичуговав категории Блог, Статьи

обновления Hadoop 2021, Hadoop администратор обучение курсы, администрирование кластера Hadoop, Hadoop для инженеров данных, YARN в кластере Apache Hadoop, курсы Hadoop администратор кластера обучение, Apache Hadoop для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Постоянно обновляя наши курсы по Apache Hadoop для администраторов кластеров и инженеров данных, сегодня рассмотрим главные новинки июньского релиза 2021. Читайте далее, как поддержка Erasure Coding сэкономит место в HDFS, зачем обновляться до 8-ой версии Java, чем хорош YARN Timeline Service v.2, как повысить надежность кластера Hadoop еще больше и...

04Авг
2021

Под капотом кластера Apache Hadoop: как работает YARN, где он может сломаться и что чинить

Автор Анна Вичуговав категории Use Cases, Блог

Hadoop администратор обучение курсы, администрирование кластера Hadoop, как работает YARN, YARN в кластере Apache Hadoop, курсы Hadoop администратор кластера обучение, Школа Больших Данных Учебный центр Коммерсант

Продолжая обучение основам Apache Hadoop для начинающих администраторов, сегодня рассмотрим архитектуру и принципы работы YARN в кластере. Также разберем, какие отказы могут случиться на каждом из его компонентов и как Resource Manager системы YARN обеспечивает высокую доступность кластера Apache Hadoop. Зачем Apache Hadoop нужен YARN и как он работает Поскольку...

03Авг
2021

ksqlDB 0.19.0: июньские новинки для разработчиков Kafka от Confluent

Автор Анна Вичуговав категории Kafka, Блог

ksqlDB курсы Kafka, обучение Kafka Streams для разработчиков, обучение Apache Kafka, курсы Apache Kafka, обучение KSQL, курсы KSQL, Школа Больших Данных Учебный центр Коммерсант

6 июня 2021 года компания Confluent, которая продвигает коммерческую версию платформы Apache Kafka, выпустила новый релиз ksqlDB. Сегодня рассмотрим самые важные исправления ошибок и новые функции ksqlDB 0.19.0, уделив особое внимание SQL-запросам соединения таблиц через JOIN по внешнему ключу. ТОП-10 исправленных ошибок в новом релизе ksqlDB Напомним, ksqlDB – это...