Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

11Дек
2021

Зачем нужна статистика таблиц Apache Hive и как ее собрать

Автор Анна Вичуговав категории Hive, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop примеры курсы обучение, Apache Hadoop SQL администратор аналитик данных примеры курсы обучение, обучение аналитиков больших данных, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали, зачем нужна статистика таблиц при оптимизации SQL-запросов на примере Greenplum. Сегодня рассмотрим, как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop. Еще раз о пользе статистики для оптимизации запросов в...

08Дек
2021

Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps курсы обучение примеры, инженерия данных курсы, обучение дата-инженеров, обучение Data Science, курсы Data Science, аналитика больших данных Machine Learning примеры курсы обучение, ML Feature Engineering примеры обучение курсы, обучение аналитик больших данных Data Scientist, курсы аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

В рамках наших курсов для дата-инженеров и специалистов в области Data Science, сегодня рассмотрим, как реализовать один из важнейших этапов машинного обучения – Feature Engineering. Читайте далее, как генерировать признаки для ML-модели с помощью SQL, напрямую обращаясь к источникам данных и хранилищам фич, а также что такое Apache Hivemall и...

01Дек
2021

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Hadoop, курсы Apache Hadoop, обучение Hive Hadoop, курсы Apache Hive Hadoop SQL, Hadoop Hive Spark администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS S3 с помощью заданий Hive и Spark. А также заглянем внутрь конфигурационных xml-файлов Hadoop и Hive. Еще раз о разнице...

30Ноя
2021

Что такое метаданные таблиц в Apache Impala

Автор Сергей Ушаковв категории NoSql, Блог

курсы по apache spark, курсы etl, курсы для инженеров данных, big data курсы москва, курсы по sparksql, apache hive, impala, big data

В прошлый раз мы говорили про особенности работы механизмов группировки и сортировки в распределенной среде Impala. Сегодня поговорим про метаданные таблиц в Impala и про то, как их извлекать и выводить на экран. Читайте далее про табличные метаданные в Impala, благодаря которым становится доступным и весьма удобным legacy-проектирование. Что из...

25Ноя
2021

Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

Автор Анна Вичуговав категории HBase, Блог

обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

В статье для дата-инженеров и администраторов Apache Hadoop разберем, как реализовать инкрементное резервное копирование таблиц HBase из кластеров CDH/CDP в облачное объектное хранилище AWS S3. Практический пример от международной ИТ-компании Clairvoyant. 5 способов резервного копирования в Apache HBase Apache HBase - это популярная колоночная NoSQL-СУБД, которая работает поверх распределенной файловой...

22Ноя
2021

ACID-транзакции в Apache Hive: настройка, принципы работы и ограничения

Автор Анна Вичуговав категории Hive, Блог

ACID Compaction Apache Hive, транзакции Apache Hive, Apache Hive примеры курсы обучение, SQL on Hadoop Hive, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения аналитиков данных и дата-инженеров тонкостям работы с Apache Hive, сегодня разберем особенности ACID-транзакций в этом популярном инструменте класса SQL-on-Hadoop. Зачем и когда нужны ACID-транзакции в Apache Hive, какие параметры нужно настроить для их выполнения, при чем здесь блокировки, каковы ограничения и особенности уплотнения дельта-каталогов. Еще раз про...

12Ноя
2021

Потоковая аналитика больших данных в Udemy: система отслеживания событий на Apache Hive и Kafka в AWS

Автор Анна Вичуговав категории Hive, Kafka, Блог

аналитика больших данных примеры кейсы обучение курсы, курсы Apache Kafka, курсы Hive SQL, обучение большим данным на практических примерах, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс платформы онлайн-обучения Udemy по разработке собственной системы потоковой аналитики больших данных о событиях пользовательского поведения на Apache Kafka, Hive и сервисах Amazon. Про требования к инфраструктуре отслеживания событий и их реализацию с помощью Apache Kafka, Hive, Kubernetes, AWS S3 и EMR, а также чем AVRO лучше Protobuf....

11Ноя
2021

10 вопросов на знание основ работы с Hbase: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hbase

Автор Сергей Ушаковв категории Тесты

hadoop hive, курсы по sparksql, курсы по apache spark, курсы для инженеров данных, курсы по apache phoenix, курсы arenadata Hadoop, курсы по sparksql

Чтобы самостоятельное обучение по Hbase стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с этой СУБД в этой распределенной СУБД, включая ее особенности работы и архитектуру. Тест по основам работы с СУБД Hbase для новичков Для тех, кто начинает самостоятельное обучение по Apache Hbase, мы предлагаем...

08Ноя
2021

Базовые операции в Hbase: основы Big Data для начинающих

Автор Сергей Ушаковв категории NoSql, Блог

В этой статье мы поговорим про основные базовые операции распределенной СУБД Hbase. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД на практических примерах. Читайте далее про базовые CRUD-операции в Hbase и их особенности. Основные CRUD-операции в распределенной СУБД Hbase HBase - это распределенная NoSQL столбцово-ориентированная (данные представлены...

08Ноя
2021

Как передать данные из GridDB в Apache Kafka через JDBC-коннектор

Автор Анна Вичуговав категории Kafka, Блог

GridDB Kafka Connect пример, Kafka Connect коннекторы кафка курсы обучение, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, Apache Kafka для разработчика примеры обучение курсы, Обучение Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Добавляя в наши курсы по Apache Kafka еще больше полезных кейсов, сегодня рассмотрим пример интеграции этой распределенной платформы потоковой передачи событий с масштабируемой key-value СУБД GridDB через JDBC-коннекторы Kafka Connect. Apache Kafka как источник данных: source-коннектор JDBC Apache Kafka часто используется в качестве источника или приемника данных для аналитической обработки...

05Ноя
2021

От Cassandra к Google Cloud Spanner: опыт Uber

Автор Анна Вичуговав категории Use Cases, Блог

графовые алгоритмы курсы обучение, аналитика больших данных геоинформационные системы, геоинформационные сиcтемы курсы обучение кейсы примеры Big Data, аналитика больших данных для руководителей курсы примеры обучение, Cassandra NoSQL курсы обучение, NewSQL Google Cloud Spanner Uber case h3, Школа Больших Данных Учебный центр Коммерсантобучение примеры

Сегодня рассмотрим, как Uber эффективно обрабатывает миллионы запросов на поездки c помощью технологий надежного хранения и быстрой аналитики больших данных. Вас ждет краткий ликбез по системе геопространственной индексации H3 и рассказ о том, почему компания заменила NoSQL-Cassandra c компонентом Saga интеграционного фреймворка Camel на геораспределенную облачную NewSQL-СУБД Spanner от Google....

04Ноя
2021

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

пример конвейера в Apache NiFi, обучение Apache NiFi, Apache NiFi курсы, обучение дата-инженеров курсы примеры, принципы работы и примеры Apache NiFi, GridDB ETL пример ML, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий ликбез по GridDB и Apache NiFi в кейсе построения ML-системы для анализа данных временных рядов. Анализ данных временных рядов c...

26Окт
2021

Бакетирование vs партиционирование в Apache Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

партиционирование таблицы Spark SQL Hive, бакетирование Spark SQL Hive, курсы Spark Hive обучение, примеры Spark Hive обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

В этой статье рассмотрим 2 способа физической группировки данных для ускорения последующей обработки в Apache Hive и Spark: партиционирование и бакетирование. Чем они отличаются друг от друга, что между ними общего и какой рост производительности дает каждый из методов в зависимости от задач аналитики больших данных средствами Spark SQL. Еще...

19Окт
2021

Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Iceberg NoSQL SQL-on-Hadoop Data Lake, Обучение дата-инженеров, озеро данных курсы ИТ-архитекторов Big Data обучение инженеров данных, обучение большим данным, курсы по большим данным озеро данных примеры обучение, Data Lake курсы Hadoop HDFS примеры обучение, Школа Больших Данных Учебный центр Коммерсант

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных. Он добавляет высокопроизводительные SQL-подобные таблицы в вычислительные механизмы Spark, Trino, Presto, Flink и Hive. Сегодня рассмотрим подробнее, что такое Apache Iceberg и...

10Окт
2021

Что такое индекс и почему его использование так важно при работе в Hive

Автор Сергей Ушаковв категории Hive, NoSql, Блог

курсы по apache phoenix, курсы по nosql, курсы по sparksql, курсы по greenplum, big data курсы москва, курсы администраторов spark, курс администраторов greenplum, курсы для инженеров данных, курс hbase

В прошлый раз мы говорили про драйвер JDBC и его использование в Hive. Сегодня поговорим про особенности создания и работы индекса в распределенной Big Data платформе Apache Hive. Читайте далее про особенности работы с индексами в распределенной среде Big Data СУБД Hive. Какую роль играет использование индекса при обработке Big...

01Окт
2021

Перспективы Apache Hive: развитие или забвение?

Автор Анна Вичуговав категории Hive, Блог

обучение Hadoop Hive SQL администратор, курсы SQL-on-Hadoop Hive, Обучение Hadoop, курсы Hadoop, Школа Больших Данных Учебный центр Коммерсант

Появившись более 10 лет назад, Apache Hive до сих пор является самым популярным инструментом стека SQL-on-Hadoop и активно используется для аналитики больших данных. Однако, технологии Big Data постоянно развиваются: Spark все чаще заменяет Hadoop MapReduce, а вместо HDFS все чаще используются объектные облачные хранилища: AWS S3, Delta Lake, Apache Ozone...

20Сен
2021

Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Hive SQL-on-Hadoop, обучение разработчиков Hadoop NoSQL, разработка Apache Spark Hive обучение курсы, Apache Spark для разработчиков курс обучение примеры, Apache Spark примеры, Apache Hive администрирование аналитика данных примеры обучение курсы, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений Apache Spark, администраторов SQL-on-Hadoop и дата-аналитиков рассмотрим особенности аутентификации удаленного пользователя, а также отслеживание измененных данных в таблицах Apache Hive. Читайте далее, зачем ограничивать доступ к keytab-файлу в кластерах с поддержкой защищенного протокола Kerberos, а также как реализовать отслеживание медленно меняющихся измерений в...

16Сен
2021

Что такое группировка и сортировка и какую роль они играют для Impala

Автор Сергей Ушаковв категории NoSql, Блог

курсы по apache phoenix, курсы spark sql, курс администраторов greenplum, big data курсы москва, курсы arenadata hadoop, курсы для инженеров данных, курсы по nosql, курс hbase, курсы nosql в москве

В этой статье мы поговорим про функции группировки и сортировки в распределенной СУБД Apache Impala. Читайте далее про особенности работы механизма группировки и сортировки Big Data, которые позволяют Impala-разработчику обрабатывать большие массивы данных любых типов с минимальными временными затратами. Как работает механизм группировки и сортировки данных: особенности обработки Big Data...

09Сен
2021

От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark

Автор Анна Вичуговав категории HBase, Hive, Блог

обучение NoSQL, SQL-on-Hadoop курсы обучение, курсы HBase, обучение HBase, курсы Hive, обучение Hive, аналитика больших данных, обучение data analyst Big Data, обучение большим данным, инженерия больших данных, Hadoop для аналитиков и дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов по Apache Hadoop для дата-аналитиков и инженеров данных сегодня рассмотрим пару практических примеров работы с популярным SQL-on-Hadoop инструментом этой экосистемы. Читайте далее, как настроить соединение удаленного сервера Apache Hive к Spark-приложению через JDBC и решить проблему запроса таблицы HBase в Hive вместо повторной репликации данных. Подключение удаленного...

25Авг
2021

Что такое модификация вывода существующих записей в Impala

Автор Сергей Ушаковв категории NoSql, Блог

Impala, Big Data, Data Science, SQL, таблица, записи, курс администраторов greenplum, курсы по sparksql, обучение arenadata hadoop, курсы по apache spark, курсы для инженеров данных

В прошлый раз мы говорили про особенности работы и создания представлений в Impala. Сегодня поговорим про модифицированный вывод в распределенной SQL-платформе Apache Impala. Читайте далее про особенности модификации вывода записей в Impala, включая базовые операторы, которые применяются для вывода конкретных записей. Базовые SQL-операторы для модификации вывода записей в распределенной СУБД...