Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

07Июл
2021

Основные join-операции в Apache Hive: основы NoSQL Big Data для начинающих

Автор Сергей Ушаковв категории Hive, NoSql, Блог

обучение arenadata hadoop, курсы nosql, обучение nosql, mongodb nosql, курсы nosql в Москве, hbase курсы, курсы по mongodb, курс разработчиков arenadata db

В прошлый раз мы говорили про особенности работы с базовыми CRUD-операциями в Hive. Сегодня поговорим про основные join-операции в распределенной Big Data платформе Apache Hive. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД. Читайте далее про особенности работы с join-операциями в распределенной СУБД Apache Hive. Join-операции в...

25Май
2021

Зачем вам Hue или как писать SQL-запросы к Apache Spark еще проще

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Spark, обучение Apache Spark SQL, Spark Hue Livy курсы инженеров данных, анализ больших данных в Apache Spark SQL, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим инструмент, который облегчает практическое использование Apache Spark, позволяя дата-аналитику и разработчику распределенных приложений быстро писать и выполнять SQL-запросы в рамках удобного веб-редактора. Читайте далее, что такое Hue, как он связан со Spark SQL и Hive, а также причем здесь Livy. Что Hue и при чем здесь Apache Livy...

08Май
2021

Еще 4 особенности бакетирования таблиц в Apache Spark и 7 конфигураций их настройки

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark Hive бакетирование таблиц, Spark bucketing инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разбирать особенности бакетирования таблиц в Apache Spark, сегодня мы рассмотрим несколько примеров, как дата-инженер и аналитик данных могут работать с этим методом оптимизации SQL-запросов. Также читайте далее, какие конфигурации Apache Spark SQL связаны с бакетированием таблиц и что нового появилось в 3-ей версии этого Big Data фреймворка, чтобы такой...

07Май
2021

Apache Spark для дата-инженеров: трудности бакетирования и способы их решения

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Spark для инженеров данных и разработчиков, разработка Spark, Apache Spark Hive бакетирование таблиц, Spark bucketing инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Бакетирование таблиц в Apache Spark – один из самых популярных методов оптимизации производительности задач последовательного чтения данных. Сегодня поговорим про сложности бакетирования с точки зрения дата-инженера, а также рассмотрим факторы, от которых зависит оптимальное количество бакетов. Большая проблема маленьких файлов и бакетирование таблиц в Apache Spark Напомним, бакетирование ускоряет выполнение...

12Фев
2021

3 задания по Apache Hadoop для чайников: развлекательная проверка знаний

Автор Анна Вичуговав категории Hive, Spark, Тесты

курсы Hadoop, Apache Hadoop Обучение, бесплатный тест по большим даннымBig Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hive, HDFS, Hadoop

Сегодня в качестве пятничного развлечения для дата-инженеров, разработчиков распределенных приложений, администраторов, аналитиков и других специалистов по большим данным мы приготовили небольшой квиз по Apache Hadoop. Проверьте свое знание главной технологии Big Data, решив кроссворд, филворд и небольшой тест по основным компонентам и главным принципам работы этой платформы хранения и аналитики...

10Фев
2021

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы Apache Hadoop, Hive SQL Hadoop курсы, обучение инженеров данных, обучение аналитиков данных, Big Data, Большие данные, обработка данных, Spark, Hadoop, SQL, Spark SQL, Delta Lake, DWH, Hive

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache Spark и Presto в Delta Lake для ускорения OLAP-процессов при работе с Big Data. Еще раз об OLAP: схема звезды...

15Янв
2021

Как работают пользовательские функции в Apache Hive

Автор Сергей Ушаковв категории Hive, NoSql, Блог

Hive, курсы по hive, обучение hadoop, курсы hadoop hive

В прошлый раз мы говорили про виды таблиц для быстрой работы с Big Data в Apache Hive. Сегодня поговорим про создание пользовательских функций и их применение в Hive. Читайте далее про особенности создания и применения UDF для работы с Big Data в распределенной платформе Apache Hive. Что такое пользовательские функции...

03Янв
2021

Что под капотом ретаргетинга: прогнозирование намерений пользователя с Apache Hadoop и Spark Structured Streaming на сервисах Amazon

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы по большим данным, обучение Big Data, аналитика больших данных в реальном времени, Big Data, Kafka, Spark, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, SQL, Hive, Hadoop, Amazon Web Services, AWS Kinesis

Мы уже рассказывали о возможностях ретаргетинга и использовании Apache Spark Structured Streaming для реализации этого рекламного подхода на примере Outbrain. Такое применение технологий Big Data сегодня считается довольно распространенным. Чтобы понять, как это работает на практике, рассмотрим кейс маркетинговой ИТ-компании MIQ, которая запускает Spark-приложения на платформе Qubole и сервисах Amazon,...

28Дек
2020

Какие бывают таблицы для быстрой работы с Big Data в Hive

Автор Сергей Ушаковв категории Hive, NoSql, Блог

В прошлой статье мы рассматривали архитектуру Apache Hive и ее основные элементы. Сегодня поговорим про основные виды таблиц в Hive. Также подробно рассмотрим создание этих таблиц на практических примерах. Читайте далее про виды таблиц в Hive и их особенности. 2 основных вида таблиц для быстрой работы с большими данными в...

24Дек
2020

Архитектура СУБД Apache Hive: основы Big Data для начинающих

Автор Сергей Ушаковв категории Hive, NoSql, Блог

В этой статье мы поговорим про структуру системы управления базами данных (СУБД) Apache Hive. Также рассмотрим, какие базовые компоненты входят в структуру известной SQL-подобной СУБД, входящей в экосистему Hadoop. Читайте далее про основные компоненты структуры Apache Hive, которые делают эту СУБД весьма удобным и мощным средством хранения и обработки больших...