Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

20Янв
2022

Где развернуть Greenplum: программно-аппаратное окружение серверов и достоинства Arenadata DB для администратора кластера

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, установка и развертывание Greenplum Arenadata DB, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пару важных тем для администратора Greenplum: требования к программно-аппаратному окружению, а также особенности установки и настройки этой MPP-СУБД. Еще разберем, как Arenadata Cluster Manager облегчает и автоматизирует эти процессы в Arenadata DB. Программное окружение Greenplum: операционные системы и Java Greenplum 6 работает на следующих платформах операционных систем: Red...

15Янв
2022

Преобразования типов в SQL-запросов Apache Hive и не только: сравнение разных версий и СУБД

Автор Анна Вичуговав категории Hive, Блог

обучение Apache Hive, Hive курсы примеры обучение, SQL-on-Hadoop примеры курсы обучение, HiveQL курсы, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим тему, полезную для обучения администраторов SQL-on-Hadoop и разработчиков распределенных приложений: операции сравнения и арифметические вычисления между строковыми и десятичными типами в Apache Hive 1.2.0 и 3.1.0, а также MySQL и Microsoft SQL Server 2017. Про типы данных и SQL-запросы в Apache Hive Чтобы упростить сравнение, будем считать типы...

08Янв
2022

Greenplum под защитой: настраиваем Kerberos

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB Kerberos обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, настройка безопасности Kerberos Greenplum Arenadata, Школа Больших Данных Учебный центр Коммерсант

В этой статье для администраторов Greenplum рассмотрим, как настроить систему сетевой защиты Kerberos для этой MPP-СУБД, чтобы контролировать доступ к хранящимся в ней данным с помощью сервера аутентификации. А также рассмотрим основные понятия и термины Kerberos применительно к Greenplum. Что такое Kerberos и зачем это в Greenplum Напомним, Kerberos –...

06Янв
2022

Обработка вложенных структур в JSON-файлах для Hive Metastore c Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop курсы примеры обучение, Hive Metastore JSON Spark, Apache Hive Spark, обучение Spark Hive курсы, обучение Spark SQL, примеры Spark Hive для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чем хороши JSON-файлы и как с ними работать в Apache Spark и Hive: проблемы обработки вложенных структур данных и способы их решения на практических примерах. Как автоматизировать переименование некорректных названий полей во вложенных структурах данных JSON-файлов на любом количестве таблиц со множеством полей, чтобы создать таблицу в Hive Metastore и...

05Янв
2022

Сложности перехода: миграция из Apache HBase в Google BigTable – кейс компании Box

Автор Анна Вичуговав категории HBase, Use Cases, Блог

обучение Hadoop, курсы Hadoop HBase, обучение дата-инженеров и администраторов Hadoop HBase, HBase BigTable migration, обучение большим данным примеры кейсы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про пользу snapshot’ов Apache HBase на примере компании Vimeo. Сегодня рассмотрим кейс корпорации Box, которая специализируется на облачных enterprise-продуктах совместного управления контентом и файлами. Переход от локальной HBase к Google Cloud BigTable: сложности миграции и способы их обхода. Сходства и различия Apache HBase с Google Cloud BigTable...

31Дек
2021

Размер имеет значение: Spark и Phoenix для больших запросов в Apache HBase

Автор Анна Вичуговав категории Spark, Блог

HBase курсы примеры обучение, обучение Hadoop, курсы SQL-on-Hadoop, обучение разработчиков Hadoop HBase примеры, Spark Phoenix Hadoop HBase курсы примеры обучение, обучение дата-инженеров и разработчиков Hadoop HBase, Школа Больших Данных Учебный Центр Коммерсант

Добавляя новые интересные примеры в наши курсы для дата-аналитиков, разработчиков распределенных приложений и администраторов SQL-on-Hadoop, сегодня рассмотрим опыт видеоаналитики в компании Vimeo с использованием Apache Spark. Как быстро запросить множество данных из Apache HDFS через Phoenix и Spark из моментальных снимков HBase с минимальным влиянием на кластер. Аналитика очень больших...

27Дек
2021

UDF в Apache Hive: создание, регистрация и эксплуатация

Автор Анна Вичуговав категории Hive, NoSql, Блог

обучение Apache Hive, курсы Apache Hiveб курсы Hadoop SQL, SQL-on-Hadoop Hive примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-аналитиков и разработчиков распределенных приложений, рассмотрим, что такое пользовательские функции в Apache Hive, как их создать и использовать. А также в чем проблема вызова UDF-функции, зарегистрированной в Hive, из Impala и при чем здесь Sentry. Простые и сложные UDF в Apache Hive Пользовательские функции в Hive...

17Дек
2021

Диску больше не наливать: проблема spill-файлов в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры, Greenplum для инженеров данных и разработчиков обучение курс примеры, spill файлы Greenplum Arenadata Greenplum примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

О том, что такое spill-эффект, мы недавно писали на примере Apache Spark. Однако, проблема переброса данных из оперативной памяти на жёсткий диск и обратна характерна и для Greenplum. Где посмотреть количество и объем spill-файлов, а также как устранить причину их образования с помощью конфигурационных параметров и инструментов администратора. Что такое...

15Дек
2021

Потоки и пакеты: унифицированная аналитика больших данных c Apache Flink в Pinterest

Автор Анна Вичуговав категории Flink, Use Cases, Блог

курсы Apache Kafka примеры обучение, Kafka Flinkпримеры обучение курсы, обучение большим данных, курсы по kafka, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Ранее мы писали о том, как фотохостинг Pinterest с помощью новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, объединяет пакетную и потоковую аналитику больших данных, чтобы еще лучше обслуживать более 475 миллионов своих пользователей. Сегодня поговорим про контроль сетевого трафика и синхронизацию источников данных через генерацию...

11Дек
2021

Зачем нужна статистика таблиц Apache Hive и как ее собрать

Автор Анна Вичуговав категории Hive, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop примеры курсы обучение, Apache Hadoop SQL администратор аналитик данных примеры курсы обучение, обучение аналитиков больших данных, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали, зачем нужна статистика таблиц при оптимизации SQL-запросов на примере Greenplum. Сегодня рассмотрим, как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop. Еще раз о пользе статистики для оптимизации запросов в...