Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

09Сен
2021

От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark

Автор Анна Вичуговав категории HBase, Hive, Блог

обучение NoSQL, SQL-on-Hadoop курсы обучение, курсы HBase, обучение HBase, курсы Hive, обучение Hive, аналитика больших данных, обучение data analyst Big Data, обучение большим данным, инженерия больших данных, Hadoop для аналитиков и дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов по Apache Hadoop для дата-аналитиков и инженеров данных сегодня рассмотрим пару практических примеров работы с популярным SQL-on-Hadoop инструментом этой экосистемы. Читайте далее, как настроить соединение удаленного сервера Apache Hive к Spark-приложению через JDBC и решить проблему запроса таблицы HBase в Hive вместо повторной репликации данных. Подключение удаленного...

23Авг
2021

Еще 4 полезных совета по Apache Spark для разработчиков и дата-аналитиков

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark курсы обучение, Spark курсы обучение разработчиков и дата-аналитиков, Apache Spark SQL примеры, обработка данных в Apache Spark SQL, аналитика больших данных с Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-аналитиков и разработчиков Spark-приложений, рассмотрим еще несколько особенностей этого фреймворка. Почему count() работает по-разному для RDD и DataFrame, как отличается уровень хранения при применении метода cache() для этих структур, когда использовать SortWithinPartitions() вместо sort(), а также парочка тонкостей обработки Parquet-таблиц в Spark SQL и кэширование метаданных...

18Авг
2021

Зачем вам Beekeeper или как очистить метаданные таблицы Apache Hive

Автор Анна Вичуговав категории Hive, Блог

Beekeeper Hive, обучение Hadoop SQL администратор, курсы Hive, обучение Hive Hadoop, курсы Hadoop, обучение Hive SQL, курсы Hive, обучение Hadoop, курсы Hadoop, администрирование кластера Hadoop курсы обучение, Школа Больших ДАнных Учебный центр Коммерсант

Сегодня рассмотрим, что такое Beekeeper и как этот сервис помогает администраторам Hadoop и пользователям Apache Hive очищать метаданные этого NoSQL-хранилища. Читайте далее, зачем удалять устаревшие пути из Metastore и как настроить конфигурацию Hive-таблиц для автоматического прослушивания событий их изменения. Для чего очищать потерянные метаданные в Apache Hive Напомним, Apache Hive...

16Авг
2021

10 вопросов на знание основ работы с драйвером JDBC в Hive: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hive

Автор Сергей Ушаковв категории Тесты

Big Data, JDBC, Hive, драйвер, приложение, Java, SQL, hadoop hive, обучение arenadata hadoop, курсы nosql, обучение nosql, mongodb nosql, курсы nosql в Москве, hbase курсы, курсы по mongodb, курс разработчиков arenadata db, Java, метод, приложение

Чтобы самостоятельное обучение по Hive стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с драйвером-коннектором JDBC в этой распределенной СУБД, включая его особенности работы и взаимодействия с Java-приложениями. Тест по основам работы драйвера JDBC для новичков Для тех, кто начинает самостоятельное обучение по Apache Hive, мы...

11Авг
2021

Что такое драйвер JDBC и почему он важен для распределенной работы в Hive

Автор Сергей Ушаковв категории Hive, NoSql, Блог

В прошлый раз мы говорили про особенности работы с основными join-операциями в Hive. Сегодня поговорим про использование JDBC-драйвера при работе в распределенной Big Data платформе Apache Hive. Читайте далее про особенности использования этого драйвера при работе в распределенной среде Hive. Использование драйвера JDBC в распределенной СУБД Apache Hive Драйвер JDBC...

10Авг
2021

Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Arenadata, курсы Arenadata, обучение Spark, курсы Spark, обучение Hive, курсы Hive, обучение Hadoop, курсы Hadoop, администрирование кластера Hadoop курсы обучение, Школа Больших ДАнных Учебный центр Коммерсант

В июле 2021 года «Аренадата Софтвер», российская ИТ-компания разработчик отечественных решений для хранения и аналитики больших данных, представила минорный релиз корпоративного дистрибутива на базе Apache Hadoop — Arenadata Hadoop 2.1.4. Главными фишками этого выпуска стало наличие 3-й версии Apache Spark и External PostgreSQL для Hive MetaStore. Сегодня рассмотрим, что именно...

27Июл
2021

Tez vs Spark: что выбрать для Apache Hive

Автор Анна Вичуговав категории Hive, Spark, Блог

Tez vs Spark for Hive, обучение инженеров и аналитиков больших данных Apache Hive Hadoop SQL, Apache Hive Hadoop SQL курсы, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Вчера мы упоминали, что использование Spark или Tez в качестве движка исполнения SQL-запросов в Apache Hive вместо классического Hadoop MapReduce намного ускоряет аналитику больших данных. Сегодня рассмотрим подробнее, чем отличаются эти механизмы и какой из них выбирать в разных случаях использования. Что такое Apache Tez и как он работает с...

26Июл
2021

Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Автор Анна Вичуговав категории Hive, Блог

обучение инженеров и аналитиков больших данных Apache Hive Hadoop SQL, Apache Hive Hadoop SQL курсы, оптимизация SQL-запросов в Apache Hive, Школа Больших Данных Учебный центр Коммерсант

Apache Hive – востребованный инструмент класса SQL-on-Hadoop, который также активно используется в работе с фреймворком Spark. Поэтому сегодня разберем важную тему из обучения дата-инженеров и аналитиков больших данных про оптимизацию SQL-запросов в этом NoSQL-хранилище. Смотрите, чем полезна векторизация HiveQL-операций, какие форматы файлов обрабатываются быстрее, почему денормализация данных в Hive –...

07Июл
2021

Основные join-операции в Apache Hive: основы NoSQL Big Data для начинающих

Автор Сергей Ушаковв категории Hive, NoSql, Блог

обучение arenadata hadoop, курсы nosql, обучение nosql, mongodb nosql, курсы nosql в Москве, hbase курсы, курсы по mongodb, курс разработчиков arenadata db

В прошлый раз мы говорили про особенности работы с базовыми CRUD-операциями в Hive. Сегодня поговорим про основные join-операции в распределенной Big Data платформе Apache Hive. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД. Читайте далее про особенности работы с join-операциями в распределенной СУБД Apache Hive. Join-операции в...

07Июл
2021

3 вопроса про Apache NiFi от дата-инженеров: отвечает Cloudera

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Clouder NiFi, Школа Больших Данных Учебный центр Коммерсант

Запуская наш новый курс по Эксплуатация Apache NIFI, сегодня рассмотрим 3 популярных вопроса про этот Big Data фреймворк с комментариями компании Cloudera. Читайте далее, может ли NiFi заменить пакетные ETL-оркестраторы, как использовать REST API для управления потоками данных в этом фреймворке, а также где настраивать политики управления доступом в многопользовательской...