Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

01Дек
2021

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Hadoop, курсы Apache Hadoop, обучение Hive Hadoop, курсы Apache Hive Hadoop SQL, Hadoop Hive Spark администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS S3 с помощью заданий Hive и Spark. А также заглянем внутрь конфигурационных xml-файлов Hadoop и Hive. Еще раз о разнице...

22Ноя
2021

ACID-транзакции в Apache Hive: настройка, принципы работы и ограничения

Автор Анна Вичуговав категории Hive, Блог

ACID Compaction Apache Hive, транзакции Apache Hive, Apache Hive примеры курсы обучение, SQL on Hadoop Hive, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения аналитиков данных и дата-инженеров тонкостям работы с Apache Hive, сегодня разберем особенности ACID-транзакций в этом популярном инструменте класса SQL-on-Hadoop. Зачем и когда нужны ACID-транзакции в Apache Hive, какие параметры нужно настроить для их выполнения, при чем здесь блокировки, каковы ограничения и особенности уплотнения дельта-каталогов. Еще раз про...

20Ноя
2021

Один на всех: реализация единого API для унифицированной аналитики больших данных c Apache Flink и Kafka в Pinterest

Автор Анна Вичуговав категории Flink, Kafka, Use Cases, Блог

курсы Apache Kafka примеры обучение, Kafka Flinkпримеры обучение курсы, обучение большим данных, курсы по kafka, обучение Apache Hadoop Flink SQL, новинки Flink 1.14, курсы Apache Hadoop Flink SQL, курсы Hadoop Для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали, что в новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, сделаны попытки объединения потоковой и пакетной парадигм обработки данных. Сегодня рассмотрим, как подобное стремление к унификации реализуется на практике дата-инженерами фотохостинга Pinterest, которые используют Apache Flink как универсальный инструмент аналитики больших данных в...

12Ноя
2021

Потоковая аналитика больших данных в Udemy: система отслеживания событий на Apache Hive и Kafka в AWS

Автор Анна Вичуговав категории Hive, Kafka, Блог

аналитика больших данных примеры кейсы обучение курсы, курсы Apache Kafka, курсы Hive SQL, обучение большим данным на практических примерах, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс платформы онлайн-обучения Udemy по разработке собственной системы потоковой аналитики больших данных о событиях пользовательского поведения на Apache Kafka, Hive и сервисах Amazon. Про требования к инфраструктуре отслеживания событий и их реализацию с помощью Apache Kafka, Hive, Kubernetes, AWS S3 и EMR, а также чем AVRO лучше Protobuf....

26Окт
2021

Бакетирование vs партиционирование в Apache Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

партиционирование таблицы Spark SQL Hive, бакетирование Spark SQL Hive, курсы Spark Hive обучение, примеры Spark Hive обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

В этой статье рассмотрим 2 способа физической группировки данных для ускорения последующей обработки в Apache Hive и Spark: партиционирование и бакетирование. Чем они отличаются друг от друга, что между ними общего и какой рост производительности дает каждый из методов в зависимости от задач аналитики больших данных средствами Spark SQL. Еще...

21Окт
2021

Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы Hadoop Spark YARN обучение примеры, курсы Spark SQL обучение, Apache Livy Spark примеры кейсы обучение курсы, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня в качестве полезного примера для обучения дата-инженеров и разработчиков Spark-приложений, разберем кейс компании Pinterest по интерактивной аналитике больших данных средствами SQL-модуля этого популярного фреймворка. Читайте далее, почему дата-инженеры решили заменить HiveServer2 на Spark Thrift JDBC/ODBC, зачем понадобилось писать собственный клиент поверх Apache Livy и как это было сделано. Зачем...

19Окт
2021

Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Iceberg NoSQL SQL-on-Hadoop Data Lake, Обучение дата-инженеров, озеро данных курсы ИТ-архитекторов Big Data обучение инженеров данных, обучение большим данным, курсы по большим данным озеро данных примеры обучение, Data Lake курсы Hadoop HDFS примеры обучение, Школа Больших Данных Учебный центр Коммерсант

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных. Он добавляет высокопроизводительные SQL-подобные таблицы в вычислительные механизмы Spark, Trino, Presto, Flink и Hive. Сегодня рассмотрим подробнее, что такое Apache Iceberg и...

10Окт
2021

Что такое индекс и почему его использование так важно при работе в Hive

Автор administratorв категории Hive, NoSql, Блог

курсы по apache phoenix, курсы по nosql, курсы по sparksql, курсы по greenplum, big data курсы москва, курсы администраторов spark, курс администраторов greenplum, курсы для инженеров данных, курс hbase

В прошлый раз мы говорили про драйвер JDBC и его использование в Hive. Сегодня поговорим про особенности создания и работы индекса в распределенной Big Data платформе Apache Hive. Читайте далее про особенности работы с индексами в распределенной среде Big Data СУБД Hive. Какую роль играет использование индекса при обработке Big...

01Окт
2021

Перспективы Apache Hive: развитие или забвение?

Автор Анна Вичуговав категории Hive, Блог

обучение Hadoop Hive SQL администратор, курсы SQL-on-Hadoop Hive, Обучение Hadoop, курсы Hadoop, Школа Больших Данных Учебный центр Коммерсант

Появившись более 10 лет назад, Apache Hive до сих пор является самым популярным инструментом стека SQL-on-Hadoop и активно используется для аналитики больших данных. Однако, технологии Big Data постоянно развиваются: Spark все чаще заменяет Hadoop MapReduce, а вместо HDFS все чаще используются объектные облачные хранилища: AWS S3, Delta Lake, Apache Ozone...

20Сен
2021

Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Hive SQL-on-Hadoop, обучение разработчиков Hadoop NoSQL, разработка Apache Spark Hive обучение курсы, Apache Spark для разработчиков курс обучение примеры, Apache Spark примеры, Apache Hive администрирование аналитика данных примеры обучение курсы, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений Apache Spark, администраторов SQL-on-Hadoop и дата-аналитиков рассмотрим особенности аутентификации удаленного пользователя, а также отслеживание измененных данных в таблицах Apache Hive. Читайте далее, зачем ограничивать доступ к keytab-файлу в кластерах с поддержкой защищенного протокола Kerberos, а также как реализовать отслеживание медленно меняющихся измерений в...

09Сен
2021

От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark

Автор Анна Вичуговав категории HBase, Hive, Блог

обучение NoSQL, SQL-on-Hadoop курсы обучение, курсы HBase, обучение HBase, курсы Hive, обучение Hive, аналитика больших данных, обучение data analyst Big Data, обучение большим данным, инженерия больших данных, Hadoop для аналитиков и дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов по Apache Hadoop для дата-аналитиков и инженеров данных сегодня рассмотрим пару практических примеров работы с популярным SQL-on-Hadoop инструментом этой экосистемы. Читайте далее, как настроить соединение удаленного сервера Apache Hive к Spark-приложению через JDBC и решить проблему запроса таблицы HBase в Hive вместо повторной репликации данных. Подключение удаленного...

23Авг
2021

Еще 4 полезных совета по Apache Spark для разработчиков и дата-аналитиков

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark курсы обучение, Spark курсы обучение разработчиков и дата-аналитиков, Apache Spark SQL примеры, обработка данных в Apache Spark SQL, аналитика больших данных с Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-аналитиков и разработчиков Spark-приложений, рассмотрим еще несколько особенностей этого фреймворка. Почему count() работает по-разному для RDD и DataFrame, как отличается уровень хранения при применении метода cache() для этих структур, когда использовать SortWithinPartitions() вместо sort(), а также парочка тонкостей обработки Parquet-таблиц в Spark SQL и кэширование метаданных...

18Авг
2021

Зачем вам Beekeeper или как очистить метаданные таблицы Apache Hive

Автор Анна Вичуговав категории Hive, Блог

Beekeeper Hive, обучение Hadoop SQL администратор, курсы Hive, обучение Hive Hadoop, курсы Hadoop, обучение Hive SQL, курсы Hive, обучение Hadoop, курсы Hadoop, администрирование кластера Hadoop курсы обучение, Школа Больших ДАнных Учебный центр Коммерсант

Сегодня рассмотрим, что такое Beekeeper и как этот сервис помогает администраторам Hadoop и пользователям Apache Hive очищать метаданные этого NoSQL-хранилища. Читайте далее, зачем удалять устаревшие пути из Metastore и как настроить конфигурацию Hive-таблиц для автоматического прослушивания событий их изменения. Для чего очищать потерянные метаданные в Apache Hive Напомним, Apache Hive...

16Авг
2021

10 вопросов на знание основ работы с драйвером JDBC в Hive: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hive

Автор administratorв категории Тесты

Big Data, JDBC, Hive, драйвер, приложение, Java, SQL, hadoop hive, обучение arenadata hadoop, курсы nosql, обучение nosql, mongodb nosql, курсы nosql в Москве, hbase курсы, курсы по mongodb, курс разработчиков arenadata db, Java, метод, приложение

Чтобы самостоятельное обучение по Hive стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с драйвером-коннектором JDBC в этой распределенной СУБД, включая его особенности работы и взаимодействия с Java-приложениями. Тест по основам работы драйвера JDBC для новичков Для тех, кто начинает самостоятельное обучение по Apache Hive, мы...

11Авг
2021

Что такое драйвер JDBC и почему он важен для распределенной работы в Hive

Автор administratorв категории Hive, NoSql, Блог

В прошлый раз мы говорили про особенности работы с основными join-операциями в Hive. Сегодня поговорим про использование JDBC-драйвера при работе в распределенной Big Data платформе Apache Hive. Читайте далее про особенности использования этого драйвера при работе в распределенной среде Hive. Использование драйвера JDBC в распределенной СУБД Apache Hive Драйвер JDBC...

10Авг
2021

Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Arenadata, курсы Arenadata, обучение Spark, курсы Spark, обучение Hive, курсы Hive, обучение Hadoop, курсы Hadoop, администрирование кластера Hadoop курсы обучение, Школа Больших ДАнных Учебный центр Коммерсант

В июле 2021 года «Аренадата Софтвер», российская ИТ-компания разработчик отечественных решений для хранения и аналитики больших данных, представила минорный релиз корпоративного дистрибутива на базе Apache Hadoop — Arenadata Hadoop 2.1.4. Главными фишками этого выпуска стало наличие 3-й версии Apache Spark и External PostgreSQL для Hive MetaStore. Сегодня рассмотрим, что именно...

27Июл
2021

Tez vs Spark: что выбрать для Apache Hive

Автор Анна Вичуговав категории Hive, Spark, Блог

Tez vs Spark for Hive, обучение инженеров и аналитиков больших данных Apache Hive Hadoop SQL, Apache Hive Hadoop SQL курсы, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Вчера мы упоминали, что использование Spark или Tez в качестве движка исполнения SQL-запросов в Apache Hive вместо классического Hadoop MapReduce намного ускоряет аналитику больших данных. Сегодня рассмотрим подробнее, чем отличаются эти механизмы и какой из них выбирать в разных случаях использования. Что такое Apache Tez и как он работает с...

26Июл
2021

Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Автор Анна Вичуговав категории Hive, Блог

обучение инженеров и аналитиков больших данных Apache Hive Hadoop SQL, Apache Hive Hadoop SQL курсы, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Apache Hive – востребованный инструмент класса SQL-on-Hadoop, который также активно используется в работе с фреймворком Spark. Поэтому сегодня разберем важную тему из обучения дата-инженеров и аналитиков больших данных про оптимизацию SQL-запросов в этом NoSQL-хранилище. Смотрите, чем полезна векторизация HiveQL-операций, какие форматы файлов обрабатываются быстрее, почему денормализация данных в Hive –...

07Июл
2021

Основные join-операции в Apache Hive: основы NoSQL Big Data для начинающих

Автор administratorв категории Hive, NoSql, Блог

обучение arenadata hadoop, курсы nosql, обучение nosql, mongodb nosql, курсы nosql в Москве, hbase курсы, курсы по mongodb, курс разработчиков arenadata db

В прошлый раз мы говорили про особенности работы с базовыми CRUD-операциями в Hive. Сегодня поговорим про основные join-операции в распределенной Big Data платформе Apache Hive. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД. Читайте далее про особенности работы с join-операциями в распределенной СУБД Apache Hive. Join-операции в...

07Июл
2021

3 вопроса про Apache NiFi от дата-инженеров: отвечает Cloudera

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Clouder NiFi, Школа Больших Данных Учебный центр Коммерсант

Запуская наш новый курс по Эксплуатация Apache NIFI, сегодня рассмотрим 3 популярных вопроса про этот Big Data фреймворк с комментариями компании Cloudera. Читайте далее, может ли NiFi заменить пакетные ETL-оркестраторы, как использовать REST API для управления потоками данных в этом фреймворке, а также где настраивать политики управления доступом в многопользовательской...