Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

18Апр
2022

2 подхода к динамической фильтрации потоковых данных в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink для инженеров данных, инженерия данных с Apache Flink Spark, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Как изменять правила фильтрации данных без перезапуска потокового Flink-приложения: практический пример для разработчиков и дата-инженеров. Чем подход с ключами состояний отличается от широковещательных соединений, каковы достоинства и недостатки этих альтернатив. Фильтрация данных в статике и динамике Практически каждая платформа потоковой передачи событий позволяет использовать фильтрацию операторов для отбора данных согласно...

14Апр
2022

Как связать Greenplum и Hadoop: интеграция c PXF

Автор Анна Вичуговав категории Greenplum, Hive, Блог

Hadoop Greenplum integration PXF, Hadoop Greenplum PXF курсы примеры обучение интеграция, Hadoop для дата-инженеров примеры курсы обучение, Greenplum для инженеров данных примеры курсы обучение, Greenplum HDFS, Школа БОльших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов кластера рассмотрим, как считать данные из распределенной файловой системы Apache Hadoop в MPP-СУБД Greenplum. Архитектура и принцип работы PXF-коннектора к HDFS с примерами команд. Интеграция Greenplum и Hadoop через PXF-коннекторы Мы уже писали, что представляет собой интеграционный фреймворк PXF (Platform Extension Framework), который...

13Апр
2022

От Derby к Hive: хранилище метаданных для Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Spark Hive дата-инженер, курсы инженер данных, инженерия данных Spark Hive , обучение Apache Spark Hive курсы примеры, Spark Hive для разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот Apache Spark и разберем, для чего этому популярному вычислительному движку база метаданных, как ее назначить и что не так с хранилищем данных по умолчанию. Зачем уходить от Apache Derby к Hive и как это сделать: краткий ликбез с примерами для обучения дата-инженеров и разработчиков распределенных приложений....

07Апр
2022

Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива

Автор Анна Вичуговав категории Greenplum, Блог

PostgreSQL Arenadata, обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata авторизованные курсы цена стоимость обучение сертификацияпримеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разговор про импортозамещение, сегодня рассмотрим новый продукт от «Аренадата Софтвер» - разработчика широкой линейки российских решений для хранения и аналитики больших данных. Компания адаптирует открытые дистрибутивы Big Data фреймворков к специфике корпоративного использования и предоставляет русскоязычную поддержку 24/7. Что такое Arenadata Postgres, кому и зачем нужен этот продукт, и...

04Апр
2022

ETL с Apache NiFi: практический пример

Автор Анна Вичуговав категории NiFi, Блог

NiFi ETL pipeline пример курсы обучение, процессоры NiFi ETL, курсы Apache NiFi, Apache NiFi для инженеров данных и разработчиков Data Flow, data pipeline Apache NiFi example, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы на наглядном примере показать, чем Apache NiFi полезен для дата-инженера, сегодня рассмотрим практический кейс построения простого ETL-конвейера. Как собрать данные из разных API, записать их в СУБД и отправить уведомление о результатах с готовыми процессорами NiFi. Постановка задачи: ETL-конвейер тревел-приложения В качестве примера рассмотрим корпоративное приложение для путешественников, которое...

03Апр
2022

Широковещательное соединение в Apache Spark SQL: ликбез и примеры

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL, курсы Spark SQL, примеры Spark SQL, BROADCAST JOIN Spark SQL, хинты Spark SQL, оптимизация запросов Spark SQL, Spark SQL для аналитиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и аналитиков данных, рассмотрим, что такое широковещательные соединение в Apache Spark SQL, чем оно полезно и как работает на практических примерах. BROADCAST JOIN в SELECT-запросах Spark SQL, а также краткий ликбез по подсказкам или хинтам. Что такое широковещательное соединение в Apache Spark SQL Распределенная природа...

31Мар
2022

Самообслуживаемый ETL-конвейер с Apache Airflow и Amazon Athena: кейс hipages

Автор Анна Вичуговав категории AirFlow, Блог

DAG Apache AirFlow, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, запуск DAG по расписанию airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем опыт австралийской ИТ-компании hipages по построению самообслуживаемого ETL-конвейера с Apache Airflow и Amazon Athena, призванного обеспечить высокое качество данных и облегчить дата-инженерам управление информационными активами. Изящное решение сложных проблем управления данными с примерами SQL-запросов к корпоративному Data Lake на AWS S3. Что не так с монолитной архитектурой платформы данных...

25Мар
2022

Greenplum 6.20: что нового?

Автор Анна Вичуговав категории Greenplum, Блог

Tanzu Greenplum Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, Greenplum Arenadata DB для разработчиков и аналитиков курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

15 марта 2022 года вышло очередное обновление MPP-СУБД VMware Tanzu Greenplum, в основе которой лежит одноименный open-source проект. Читайте далее, какие новые фичи добавлены в выпуск 6.20 и что за проблемы устранены в этом минорном релизе. Самое главное: краткий обзор новых фич Greenplum 6.20 Greenplum 6.20.0 включает следующие новые и...

06Мар
2022

Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark

Автор Анна Вичуговав категории Hive, NoSql, Блог

обучение Hadoop Hive SQL, примеры курсы Hive Hadoop HDFS SQL, курсы дата-инженеров, инженерия данных Hadoop Hive SQL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на примере конвейера обработки данных в ML-приложениях при работе с Data Lake. Команда MSCK REPAIR TABLE в Apache Hive В ML-приложениях особенно важно, как озеро данных (Data...

04Мар
2022

Не просто Apache Solr: краткий обзор Tanzu Greenplum Text

Автор Анна Вичуговав категории Greenplum, Блог

Tanzu Greenplum Text Apache Solr Elasticsearch полнотекстовый анализ Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, Greenplum Arenadata DB для разработчиков и аналитиков курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем под капот Tanzu Greenplum Text: архитектура и принципы работы этого средства поиска и анализа текстов, интегрированного с популярной MPP-СУБД. Как движок наподобие Elasticsearch связывает кластер Apache Solr с базой данных Greenplum и зачем здесь нужен Zookeeper. Что такое Tanzu Greenplum Text Мы уже рассказывали про основные функциональные возможности...

27Фев
2022

Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix

Автор Анна Вичуговав категории HBase, NoSql, Блог

Cloudera Data Platform Operational Database HBase, HBase Phoenix курсы примеры обучение, обучение Hadoop SQL администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные из кластера HBase в Cloudera Operational Database, избежав их потери и других подводных камней. Что такое Cloudera Operational Database: назначение...

22Фев
2022

Не только SQL-операторы: Transform для манипулирования данными в Apache Hive

Автор Анна Вичуговав категории Hive, NoSql, Блог

Apache Hive обучение курсы примеры, SQL-on-Hadoop курсы примеры обучение, Hive QL для адат-инженера аналитика и разработчика примеры курсы обучение, Hive SQL курсы примеры обучение, HDFS SQL Hadoop Hive курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа операций с данными в Apache Hive, его возможности и ограничения, а также связь с HiveQL. Преобразования в Apache Hive Apache Hive – это популярная экосистема...

17Фев
2022

Зачем вам GreenplumR: синергия MPP-СУБД и интерпретируемого языка для статистики

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum R клиент статистический анализ данных Arenadata DB обучение курсы примеры, Greenplum для дата-аналитика обучение курс примеры, GreenplumR примеры курсы обучение, Arenadata DB примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как использовать статистический язык R для анализа данных в Greenplum. Что такое GreenplumR, как работает этот интерактивный клиент, чем он полезен специалисту по Data Science и каковы недостатки этого инструмента аналитики больших данных. Что такое GreenplumR Хотя основным языком в области Data Science сегодня считается Python, иногда специалисты...

08Фев
2022

Дедупликация, нумерация и ранжирование строк в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

обучение Apache Hive, курсы SQL-on-Hadoop, Hive Hadoop курсы примеры обучение, обучение дата-инженеров, нумерация с трок в Hive, Hive SQL Примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по SQL-on-Hadoop для дата-инженеров и разработчиков распределенных приложений интересные примеры, сегодня рассмотрим пару практических техник по работе с Apache Hive. Читайте далее, как автоматически пронумеровать строки Hive-таблицы, исключив дубликаты в последовательности, и чем аналитическая функция row_number() отличается от rank() с dense_rank(). Генерация порядкового номера строки...

07Фев
2022

Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и с Phoenix: кейс Salesforce

Автор Анна Вичуговав категории HBase, Блог

вторичный индекс HBase, HBase Phoenix вторичная индексация, обучение Hadoop SQl администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно на примере ИТ-компании Salesforce мы рассказывали про вторичную индексацию таблиц Apache HBase с помощью Phoenix – средства обращения к NoSQL-хранилищу через SQL-запросы. В продолжение этого кейса, сегодня рассмотрим, как были перепроектированы глобальные вторичные индексы для обеспечения более высокого уровня согласованности, чем предлагает Apache Phoenix. Реализация вторичных индексов в таблицах...

01Фев
2022

Лямбда-архитектура IoT-системы на Apache Kafka, Flink и Cassandra

Автор Анна Вичуговав категории Flink, Internet of Things, Блог

архитектура данных курсы обучение, архитектура больших данных, курсы Apache Flink Kafka Cassandra примеры обучение, обучение большим данным, курсы дата-инженер, инженерия данных обучение, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров интересные кейсы, сегодня рассмотрим, как реализовать Лямбда-архитектуру для комплексной аналитики больших данных с помощью Apache Flink, Kafka и Cassandra на примере системы интернета вещей. Объединение пакетной и потоковой обработки данных средствами Flink API и библиотек этого фреймворка. Постановка задачи на примере IoT-системы Несмотря на...

31Янв
2022

Сложности индексации таблиц Apache HBase и способы их обхода с Phoenix

Автор Анна Вичуговав категории HBase, Блог

В Apache HBase индексация таблиц возможна только по одному полю. Обойти это ограничение позволяет Apache Phoenix - инструмент обращения к NoSQL-хранилищу средствами SQL-запросов. В этой статье для дата-инженеров, архитекторов ИТ-решений и аналитиков данных рассмотрим типы вторичной индексации таблиц HBase в Phoenix и проблемы согласованности вторичных индексов, с которыми столкнулись специалисты...

29Янв
2022

Не только PXF: краткий обзор интеграции Greenplum с другими Big Data системами и инструменты полнотекстового поиска

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum коннекторы полнотекстовый анализ Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, установка и развертывание Greenplum Arenadata DB, Школа Больших Данных Учебный центр Коммерсант

Мы уже рассказывали про связь Greenplum с другими источниками и приемниками данных с помощью PXF-фреймворка, а также отдельных коннекторов к некоторым системам. Сегодня рассмотрим, какие вообще есть коннекторы данных в этой MPP-СУБД и что такое Tanzu Greenplum Text. Коннекторы и фреймворки для интеграции GP и Arenadata DB с внешними системами...

25Янв
2022

Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Автор Анна Вичуговав категории Hive, Trino, Блог

Trino Hive курсы примеры обучение, обучение Apache Hive, Hive курсы примеры обучение, SQL-on-Hadoop примеры курсы обучение, HiveQL курсы, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop, рассмотрим, что такое Trino и как это работает с Apache Hive. А также при чем здесь Presto и зачем коннектор со своей средой выполнения использует Hive Metastore. Что такое Trino и при чем здесь Presto SQL Trino – это механизм запросов для...

22Янв
2022

SQL-запросы к Apache HBase через Phoenix с HUE

Автор Анна Вичуговав категории HBase, Hive, Блог

обучение Hadoop SQl администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS Hue, обучение большим данным, Школа Больших Данных Учебный центр Коммерсантв

Для дата-инженеров и аналитиков про манипулирование данными в Apache Hadoop HDFS средствами SQL-запросов с помощью удобных инструментов. Apache Phoenix для обращения к таблицам NoSQL-хранилища HBase через SQL-запросы из графического интерфейса Hue. Как обратиться к таблицам HBase через SQL-запросы с Phoenix Apache HBase как хранилище данных над Hadoop HDFS предоставляет множество...