Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

17Май
2021

Трудности перекоса: как устранить неравномерность данных и вычислений в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

курсы Greenplum, обучение Greenplum, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный Центр Коммерсант

Партиционирование таблиц – надежный способ повышения производительности Greenplum, который тесно связан с особенностями распределения данных по сегментам кластера. Читайте далее, чем опасно неравномерное распределение данных и вычислений по узлам, а также как найти дата-инженеру и устранить эти перекосы в MPP-СУБД, чтобы повысить скорость выполнения SQL-запросов и решить проблемы с нехваткой...

15Май
2021

Партиционирование таблиц в Greenplum: 10 лучших практик и особенности распределения по сегментам

Автор Анна Вичуговав категории Greenplum, Блог

Мы уже рассказывали про основы хранения и аналитики больших данных в Greenplum, а также рассматривали особенности индексации и сжатия данных в этой MPP-СУБД. Продолжая разговор о нашем новом курсе «Greenplum для инженеров данных», сегодня разберем лучшие практики разбиения данных на разделы и пример их распределения по сегментам кластера. Кратко о...

13Май
2021

Индексируем и сжимаем: особенности хранения и аналитики Big Data в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

В продолжение вчерашней статьи по нашему новому курсу «Greenplum для инженеров данных», сегодня рассмотрим особенности индексации и сжатия данных в этой MPP-СУБД. Читайте далее, почему в Greenplum можно обойтись без индексов, когда выбирать RLE-сжатие вместо zlib, зачем сжимать рабочие файлы при выполнении SQL-запросов и что такое селективность индекса. ТОП-10 советов по...

11Май
2021

Как хранить большие данных в Greenplum: ТОП-15 рекомендаций

Автор Анна Вичуговав категории Greenplum, Блог

Продвигая наш новый курс «Greenplum для инженеров данных», сегодня мы рассмотрим особенности организации таблиц в этой MPP-СУБД, типы данных и оптимальное расположение столбцов. Читайте далее, чем heap storage отличается от append-optimized, когда выбирать колоночную, а когда – строковую модель хранения данных для таблицы, почему BIGINT с TIMESTAMP следует размещать перед...

08Май
2021

Еще 4 особенности бакетирования таблиц в Apache Spark и 7 конфигураций их настройки

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark Hive бакетирование таблиц, Spark bucketing инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разбирать особенности бакетирования таблиц в Apache Spark, сегодня мы рассмотрим несколько примеров, как дата-инженер и аналитик данных могут работать с этим методом оптимизации SQL-запросов. Также читайте далее, какие конфигурации Apache Spark SQL связаны с бакетированием таблиц и что нового появилось в 3-ей версии этого Big Data фреймворка, чтобы такой...

07Май
2021

Apache Spark для дата-инженеров: трудности бакетирования и способы их решения

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Spark для инженеров данных и разработчиков, разработка Spark, Apache Spark Hive бакетирование таблиц, Spark bucketing инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Бакетирование таблиц в Apache Spark – один из самых популярных методов оптимизации производительности задач последовательного чтения данных. Сегодня поговорим про сложности бакетирования с точки зрения дата-инженера, а также рассмотрим факторы, от которых зависит оптимальное количество бакетов. Большая проблема маленьких файлов и бакетирование таблиц в Apache Spark Напомним, бакетирование ускоряет выполнение...

01Май
2021

На заметку разработчику: 3 причуды Apache Spark и как с ними бороться

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark для разработчиков, разработка Spark, Apache Spark AWS S3 коннекторы, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы по Apache Spark, сегодня мы рассмотрим несколько особенностей, с разработчик которыми может столкнуться при выполнении обычных операции, от чтения архивированного файла до обращения к сервисам Amazon. Читайте далее, что не так с методом getDefaultExtension(), зачем к AWS S3 так много коннекторов и почему PySpark нужно дополнительно конфигурировать...

26Апр
2021

Вспомнить все: 6 сегментов памяти Apache Spark и параметры их конфигурирования

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark для разработчиков, память Spark, Apache Spark JVM Heap Memory, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье продолжим говорить про обучение разработчиков Apache Spark и рассмотрим, какие сегменты памяти есть в этом Big Data фреймворке и как с ними работать наиболее эффективно. Читайте далее, почему процессы PySpark и SparkR потребляют внешнюю память, чем пользовательская память кучи JVM отличается от памяти хранилища и какие конфигурации...

23Апр
2021

Как помочь Apache Spark SQL обрабатывать большие датасеты быстрее: 5 простых способов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Apache Spark, Spark SQL для разработчиков, оптимизация Spark SQL, курсы по большим данным для аналитиков и Data Scientist, обучение Big Data Analyst, Школа Больших Данных Учебный центр Коммерсант

Продолжая разговор про практическое обучение разработчиков Apache Spark, сегодня рассмотрим пример повышения скорости выполнения SQL-запросов к большому датафрейму. Читайте далее, как определить и исправить асимметрию распределения данных по разделам, зачем добавлять контрольные точки в длинные DAG и в чем здесь опасность, чем хороша широковещательная трансляция, для чего фильтровать данные перед...

22Апр
2021

Как устранить дубли в датасете: 5 методов для разработчика Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Big Data обучение, курсы инженеров данных, обучение дата-инженеров, разработка Apache Spark курсы, обучение Data Scientist, курсы Data Analyst, Школа Больших Данных Учебный центр Коммерсант

На практике каждый аналитик Big Data и Data Scientist часто сталкивается с удалением дублирующихся значений в датасете. Поэтому, чтобы добавить в наши курсы по Apache Spark еще больше полезных примеров, сегодня рассмотрим 5 простых способов решения этой востребованной задачи. Читайте далее, чем distinct() отличается от dropDuplicates(), а reduceByKey() - от...