Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

11Июн
2022

Автор Анна Вичуговав категории Hive, Блог

курсы Hive, курсы Spark SQL, курсы NoSQL, обучение дата-инженер, курсы дата-инженер, SQL-on-Hadoop примеры курсы обучение, Spark SQL курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров, аналитиков данных и разработчиков распределенных приложений рассмотрим один из методов оптимизации SQL-запросов в Apache Hive. Что такое оператор MapJoin, в каких условиях и как он работает, чем выгоден для HiveQL-запросов и почему при его выполнении с движком Tez может возникнуть нехватка памяти. Что такое...

26Май
2022

Как связать Apache Kafka с Hive: разбор интеграционного коннектора

Автор Анна Вичуговав категории Hive, Kafka, Блог

курсы Hive, курсы Kafka, обучение дата-инженер, курсы дата-инженер, SQL-on-Hadoop примеры курсы обучение, Kafka Streams курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, кому и зачем нужно связывать Apache Hive с Kafka, каким образом реализуется эта интеграция, как получить доступ к данным из платформы потоковой передачи событий средствами SQL-on-Hadoop, при чем здесь режимы Kerberos и механизмы безопасности Ranger. Зачем нужна интеграция Apache Hive с Kafka Необходимость связать Apache Hive с Kafka...

10Май
2022

Интеграция Apache NiFi и Hive в ETL-конвейере

Автор Анна Вичуговав категории Hive, NiFi, Блог

ETL NiFi Hive примеры курсы обучение, NiFi для инженеров данных, обучение дата-инженеров, курсы NiFi Hive, обучение большим данным, NoSQL Hadoop NiFi курсы примеры обучение, SQL-on-Hadoop обучение курсы, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров рассмотрим пример интеграции Apache NiFi c Hive в рамках ETL-конвейера потокового веб-скрейпинга, который будет получать данные с веб-страницы практически без кода, обрабатывать их и загружать в таблицу NoSQL-СУБД в реальном времени. Постановка задачи: ETL-процесс веб-скрейпинга В реальной жизни задача считать данные с веб-сайта для последующей...

29Апр
2022

Настройка кластера Apache Spark и Hive на Hadoop

Автор Анна Вичуговав категории Hive, Spark, Блог

администрирование кластера Hadoop SQL Hive Spark, обучение Spark Hive администратор кластера, курсы администратор Big Data Haddop Spark Hive SQL, инженерия данных Spark Hive , обучение Apache Spark Hive курсы примеры, Spark Hive для администраторов разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как настроить Apache Spark 3.0.1 и Hive 3.1.2 на Hadoop 3.3.0: тонкости установки и конфигурирования для обучения администраторов кластера и инженеров с примерами команд и кода распределенных приложений. Запуск Spark-приложения на Hadoop-кластере Прежде всего, для настройки кластера Apache Spark нужен работающий кластер Hadoop. Сама установка и настройка выполняется в 2...

13Апр
2022

От Derby к Hive: хранилище метаданных для Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Spark Hive дата-инженер, курсы инженер данных, инженерия данных Spark Hive , обучение Apache Spark Hive курсы примеры, Spark Hive для разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот Apache Spark и разберем, для чего этому популярному вычислительному движку база метаданных, как ее назначить и что не так с хранилищем данных по умолчанию. Зачем уходить от Apache Derby к Hive и как это сделать: краткий ликбез с примерами для обучения дата-инженеров и разработчиков распределенных приложений....

14Мар
2022

Apache Spark и Hive для обработки партиционированных Parquet-файлов

Автор Анна Вичуговав категории Hive, NoSql, Spark, Блог

Spark SQL Hive Paruet HDFS Hadoop курсы примеры обучение, обучение Hadoop Hive SQL, примеры курсы Hive Hadoop HDFS SQL, курсы дата-инженеров, инженерия данных Hadoop Hive SQL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про обновление хранилища метаданных Apache Hive с помощью команды MSCK REPAIR TABLE, операторов AirFlow и Spark-заданий. В продолжение этой темы про работу с партиционированными Parquet-файлами сегодня рассмотрим применение Spark SQL для этого случая, чтобы использовать таблицу Hive вместо временного представления Spark. Временные таблицы Hive/Spark и разделы в Parquet-файлах...

06Мар
2022

Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark

Автор Анна Вичуговав категории Hive, NoSql, Блог

обучение Hadoop Hive SQL, примеры курсы Hive Hadoop HDFS SQL, курсы дата-инженеров, инженерия данных Hadoop Hive SQL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на примере конвейера обработки данных в ML-приложениях при работе с Data Lake. Команда MSCK REPAIR TABLE в Apache Hive В ML-приложениях особенно важно, как озеро данных (Data...

22Фев
2022

Не только SQL-операторы: Transform для манипулирования данными в Apache Hive

Автор Анна Вичуговав категории Hive, NoSql, Блог

Apache Hive обучение курсы примеры, SQL-on-Hadoop курсы примеры обучение, Hive QL для адат-инженера аналитика и разработчика примеры курсы обучение, Hive SQL курсы примеры обучение, HDFS SQL Hadoop Hive курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа операций с данными в Apache Hive, его возможности и ограничения, а также связь с HiveQL. Преобразования в Apache Hive Apache Hive – это популярная экосистема...

08Фев
2022

Дедупликация, нумерация и ранжирование строк в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

обучение Apache Hive, курсы SQL-on-Hadoop, Hive Hadoop курсы примеры обучение, обучение дата-инженеров, нумерация с трок в Hive, Hive SQL Примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по SQL-on-Hadoop для дата-инженеров и разработчиков распределенных приложений интересные примеры, сегодня рассмотрим пару практических техник по работе с Apache Hive. Читайте далее, как автоматически пронумеровать строки Hive-таблицы, исключив дубликаты в последовательности, и чем аналитическая функция row_number() отличается от rank() с dense_rank(). Генерация порядкового номера строки...

25Янв
2022

Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Автор Анна Вичуговав категории Hive, Trino, Блог

Trino Hive курсы примеры обучение, обучение Apache Hive, Hive курсы примеры обучение, SQL-on-Hadoop примеры курсы обучение, HiveQL курсы, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop, рассмотрим, что такое Trino и как это работает с Apache Hive. А также при чем здесь Presto и зачем коннектор со своей средой выполнения использует Hive Metastore. Что такое Trino и при чем здесь Presto SQL Trino – это механизм запросов для...

24Янв
2022

10 вопросов на знание основных функций в Hive: открытый комплексный тест для начинающих изучать распределённую структуру Apache Hive

Автор administratorв категории Тесты

курсы etl, курсы nosql в москве, курсы по sparksql, курсы по apache spark, курсы для инженеров данных, курсы по sparksql, курсы по apache phoenix, курсы apache impala, big data курсы москва

Чтобы самостоятельное обучение по Hive стало еще интереснее, сегодня мы предлагаем вам простой комплексный тест по основам работы с различными функциями в этой распределенной СУБД, включая особенности их применения. Комплексный тест по основам работы с функциями в Hive для новичков Для тех, кто начинает самостоятельное обучение по Apache Hive, мы...

15Янв
2022

Преобразования типов в SQL-запросов Apache Hive и не только: сравнение разных версий и СУБД

Автор Анна Вичуговав категории Hive, Блог

обучение Apache Hive, Hive курсы примеры обучение, SQL-on-Hadoop примеры курсы обучение, HiveQL курсы, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим тему, полезную для обучения администраторов SQL-on-Hadoop и разработчиков распределенных приложений: операции сравнения и арифметические вычисления между строковыми и десятичными типами в Apache Hive 1.2.0 и 3.1.0, а также MySQL и Microsoft SQL Server 2017. Про типы данных и SQL-запросы в Apache Hive Чтобы упростить сравнение, будем считать типы...

06Янв
2022

Обработка вложенных структур в JSON-файлах для Hive Metastore c Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop курсы примеры обучение, Hive Metastore JSON Spark, Apache Hive Spark, обучение Spark Hive курсы, обучение Spark SQL, примеры Spark Hive для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чем хороши JSON-файлы и как с ними работать в Apache Spark и Hive: проблемы обработки вложенных структур данных и способы их решения на практических примерах. Как автоматизировать переименование некорректных названий полей во вложенных структурах данных JSON-файлов на любом количестве таблиц со множеством полей, чтобы создать таблицу в Hive Metastore и...

27Дек
2021

UDF в Apache Hive: создание, регистрация и эксплуатация

Автор Анна Вичуговав категории Hive, NoSql, Блог

обучение Apache Hive, курсы Apache Hiveб курсы Hadoop SQL, SQL-on-Hadoop Hive примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-аналитиков и разработчиков распределенных приложений, рассмотрим, что такое пользовательские функции в Apache Hive, как их создать и использовать. А также в чем проблема вызова UDF-функции, зарегистрированной в Hive, из Impala и при чем здесь Sentry. Простые и сложные UDF в Apache Hive Пользовательские функции в Hive...

26Дек
2021

10 вопросов на знание основ операций DDL в Hive: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hive

Автор administratorв категории Тесты

обучение arenadata hadoop, курсы по apache spark, курсы spark sql, курсы администраторов spark, курсы основы Hadoop, курс администраторов greenplum, курс разработчиков greenplum, big data курсы москва, курсы по greenplum, курс разработчиков arenadata db

Чтобы самостоятельное обучение по Hive стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы DDL-операциями в этой распределенной СУБД, включая особенности их применения. Тест по основам работы с DDL-операциями для новичков Для тех, кто начинает самостоятельное обучение по Apache Hive, мы предлагаем простой интерактивный тест по этой...

24Дек
2021

Базовые DDL-операции в Apache Hive: основы NoSQL Big Data для начинающих

Автор administratorв категории Hive, NoSql, Блог

курсы администраторов spark, курсы по mongodb, курсы arenadata hadoop, курсы по sparksql, курс разработчиков arenadata db, курсы nosql в москве, big data курсы москва, курсы по sparksql

В прошлый раз мы говорили про DML-операции в Hive. Сегодня поговорим про DDL-операции в этой распределённой Big Data платформе. Также рассмотрим применение этих операций к объектам, хранящимся в этой СУБД. Читайте далее про особенности работы DDL-операции в Hive. DDL-операции в СУБД Apache Hive DDL-операции (Data Definition Language, Язык Определения Данных)...

22Дек
2021

10 вопросов на знание основ операций DML в Hive: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hive

Автор administratorв категории Тесты

курсы по apache spark, курсы spark sql, курсы администраторов spark, курсы основы Hadoop, курс администраторов greenplum, курс разработчиков greenplum, big data курсы москва, курсы по greenplum

Чтобы самостоятельное обучение по Hive стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы DML-операциями в этой распределенной СУБД, включая особенности их применения. Тест по основам работы с DML-операциями для новичков Для тех, кто начинает самостоятельное обучение по Apache Hive, мы предлагаем простой интерактивный тест по этой...

20Дек
2021

Базовые DML-операции в Apache Hive: основы NoSQL Big Data для начинающих

Автор administratorв категории Hive, NoSql, Блог

big data курсы москва, курсы по greenplum, курс разработчиков arenadata db, курсы по sparksql, курсы spark sql, apache hive, курсы etl, курсы для инженеров данных, курсы по apache spark, курсы по kafkasql, курсы администраторов spark

В прошлый раз мы говорили про индексы в Hive. Сегодня поговорим про DML-операции в этой распределённой Big Data платформе. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД. Читайте далее про DML-операции в Hive и их особенности. DML-операции в СУБД Apache Hive DML-операции (Data Manipulation Language) -...

11Дек
2021

Зачем нужна статистика таблиц Apache Hive и как ее собрать

Автор Анна Вичуговав категории Hive, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop примеры курсы обучение, Apache Hadoop SQL администратор аналитик данных примеры курсы обучение, обучение аналитиков больших данных, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали, зачем нужна статистика таблиц при оптимизации SQL-запросов на примере Greenplum. Сегодня рассмотрим, как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop. Еще раз о пользе статистики для оптимизации запросов в...

08Дек
2021

Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps курсы обучение примеры, инженерия данных курсы, обучение дата-инженеров, обучение Data Science, курсы Data Science, аналитика больших данных Machine Learning примеры курсы обучение, ML Feature Engineering примеры обучение курсы, обучение аналитик больших данных Data Scientist, курсы аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

В рамках наших курсов для дата-инженеров и специалистов в области Data Science, сегодня рассмотрим, как реализовать один из важнейших этапов машинного обучения – Feature Engineering. Читайте далее, как генерировать признаки для ML-модели с помощью SQL, напрямую обращаясь к источникам данных и хранилищам фич, а также что такое Apache Hivemall и...