Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

26Окт
2021

Бакетирование vs партиционирование в Apache Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

партиционирование таблицы Spark SQL Hive, бакетирование Spark SQL Hive, курсы Spark Hive обучение, примеры Spark Hive обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

В этой статье рассмотрим 2 способа физической группировки данных для ускорения последующей обработки в Apache Hive и Spark: партиционирование и бакетирование. Чем они отличаются друг от друга, что между ними общего и какой рост производительности дает каждый из методов в зависимости от задач аналитики больших данных средствами Spark SQL. Еще...

25Окт
2021

Графовая аналитика больших данных с DataStax Enterprise Graph на Cassandra и Spark SQL

Автор Анна Вичуговав категории Spark, Блог

графовая аналитика больших данных, аналитика Big Data на графах, Spark GraphFrames GraphX SQL, Cassandra Spark example DataStax Enterprise Graph , Spark GraphFrames GraphX, DataStax Enterprise Graph Spark SQl Cassandra обучение пример курсы, аналитика больших данных на графах курсы обучение пример, аналитика Big Data Примеры кейсы обучение бизнес-приложения, Школа Больших Данных Учебный центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, что такое DataStax Enterprise Graph. Читайте далее, как немецкая ИТ-компания Traversals с помощью этой распределенной графовой СУБД построила масштабное аналитическое решение для кибербезопасности, обнаружения мошенничества, анализа конкурентов и оповещения клиентов в реальном времени. Также разберем, при...

21Окт
2021

Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы Hadoop Spark YARN обучение примеры, курсы Spark SQL обучение, Apache Livy Spark примеры кейсы обучение курсы, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня в качестве полезного примера для обучения дата-инженеров и разработчиков Spark-приложений, разберем кейс компании Pinterest по интерактивной аналитике больших данных средствами SQL-модуля этого популярного фреймворка. Читайте далее, почему дата-инженеры решили заменить HiveServer2 на Spark Thrift JDBC/ODBC, зачем понадобилось писать собственный клиент поверх Apache Livy и как это было сделано. Зачем...

19Окт
2021

Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Iceberg NoSQL SQL-on-Hadoop Data Lake, Обучение дата-инженеров, озеро данных курсы ИТ-архитекторов Big Data обучение инженеров данных, обучение большим данным, курсы по большим данным озеро данных примеры обучение, Data Lake курсы Hadoop HDFS примеры обучение, Школа Больших Данных Учебный центр Коммерсант

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных. Он добавляет высокопроизводительные SQL-подобные таблицы в вычислительные механизмы Spark, Trino, Presto, Flink и Hive. Сегодня рассмотрим подробнее, что такое Apache Iceberg и...

16Окт
2021

Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Kafka Spark Flink Redpanda пример курсы обучение, Kafka Redpanda, Flink SQL Spark обучение курсы примеры, обучение Kafka, курсы Apache Kafka, обучение Spark, курсы Apache Spark, обучение Flink, курсы Apache Flink, Kafka для дата-инженеров и разработчиков примеры обучение курс, тренинги по Apache Kafka Spark Flink SQL, обучение Kafka Redpanda примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka, Школа Больших Данных Учебный центр Коммерсант

В продолжение недавней статьи для дата-инженеров про альтернативные платформы потоковой передачи событий вместо Apache Kafka, сегодня рассмотрим пример аналитики больших данных средствами Flink SQL, записи результатов в Elasticsearch и их визуализации в Kibana. Читайте далее, чем Redpanda отличается от Kafka, а Flink – от Apache Spark с точки зрения потоковой...

15Окт
2021

Как повысить прозрачность Apache Spark: 3 способа мониторинга качества данных

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, Spark предобработка данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения разработчиков Spark-приложений, аналитиков данных и дата-инженеров, сегодня рассмотрим, как улучшить и визуализировать понимание обработки данных в этом Big Data фреймворке. Читайте далее про API встроенных механизмов наблюдения за качеством данных в Apache Spark и открытые библиотеки профилирования на примере Deequ. 2 уровня абстракции мониторинга Spark-приложений для дата-инженера...

12Окт
2021

Сеансовые окна в Apache Spark Structured Streaming: кейсы, примеры и ограничения

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, Spark Structured Streaming курсы обучениеб Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark Structured Streaminng window session пример, сеансовые окна Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Анализ данных в рамках пользовательский сеансов (сессий) – довольно востребованный кейс в Apache Spark, который не так просто реализовать из-за особенностей потоковой и пакетной обработки, а также эксплуатационных расходов. Сегодня рассмотрим, как работают сеансовые окна Spark Structured Streaming и каковы ограничения этого фреймворка. Что такое сеансовые окна: краткий ликбез по...

09Окт
2021

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Анна Вичуговав категории AirFlow, Flink, Greenplum, Kafka, NiFi, Spark, Блог

курсы дата-инженеров, курсы Apache Kafka NiFi Greenplum AirFlow Spark Flink обучение, практическое обучение инженеров данных курсы, аналитика больших данных примеровы кейсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как сотрудники российского отделения этой международной компании интегрировали в единую платформу более 350 реляционных СУБД и NoSQL-источников с помощью CDC-подхода на...

05Окт
2021

От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

Автор Анна Вичуговав категории Spark, Блог

аналитика больших данных примеры кейсы курсы обучение, курсы Apache Spark SQL, обучение Spark SQL Google BigQuery, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим кейс компании PayPal, которая переводит свои аналитические рабочие нагрузки из локального кластера Apache Spark в Google Cloud Processing. Читайте далее, чем это решение оказалось лучше выполнения Spark-заданий в кластере DataProc с использованием данных BigQuery и облачного хранилища Google (GCS, Google Cloud Storage) для потоковой...

02Окт
2021

Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames

Автор Анна Вичуговав категории Spark, Блог

Spark GraphX курсы примеры обучение, Spark GraphX и GraphFrame, Spark GraphX vs GraphFrame, аналитика больших данных на графах примеры курсы обучение

Продвигая наш новый курс по графовым алгоритмам на больших данных, сегодня рассмотрим, почему концепция графов сегодня так востребована в Big Data и Machine Learning. Вас ждет краткий ликбез по модулю GraphX в Apache Spark и его отличия от API GraphFrames, а также особенности кластерной обработки и сохранения данных графа свойств....

28Сен
2021

Правила оптимизации в Spark SQL и их улучшения в Radiant

Автор Анна Вичуговав категории Spark, Блог

Spark SQL обучение курсы, обучение разработчиков Спарк, разработка Apache Spark SQL обучение курсы, Apache Sparkдля разработчиков курс обучение примеры, Apache Spark примеры, управление памятью в Apache Spark, Spark SQL Catalyst, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений и дата-аналитиков рассмотрим новый оптимизатор этого фреймворка, Radiant. Он основан на SQL-оптимизаторе Catalyst и представляет собой open-source проект от энтузиастов сообщества Apache Spark. Читайте далее, чем хорош Spark-Radiant и как использовать его для оптимизации SQL-запросов при аналитике больших данных. Что такое SQL-оптимизатор Spark-Radiant и...

20Сен
2021

Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Hive SQL-on-Hadoop, обучение разработчиков Hadoop NoSQL, разработка Apache Spark Hive обучение курсы, Apache Spark для разработчиков курс обучение примеры, Apache Spark примеры, Apache Hive администрирование аналитика данных примеры обучение курсы, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений Apache Spark, администраторов SQL-on-Hadoop и дата-аналитиков рассмотрим особенности аутентификации удаленного пользователя, а также отслеживание измененных данных в таблицах Apache Hive. Читайте далее, зачем ограничивать доступ к keytab-файлу в кластерах с поддержкой защищенного протокола Kerberos, а также как реализовать отслеживание медленно меняющихся измерений в...

16Сен
2021

Как сохранить датафрейм вне кучи: секреты Apache Spark для разработчиков

Автор Анна Вичуговав категории Spark, Блог

GUI курсы Спарк, обучение разработчиков Спарк, разработка Apache Spark обучение курсы, Apache Sparkдля разработчиков курс обучение примеры, Apache Spark примеры, управление памятью в Apache Spark, обучение большим данным курсы, обучение Big Data разработчик, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения разработчиков Spark-приложений, сегодня рассмотрим, как сохранить датафрейм в памяти вне кучи исполнителя и зачем это нужно. Вас ждет краткий ликбез по управлению памятью в Apache Spark с описанием настраиваемых конфигураций. Также на простом практическом примере разберем, как это сделать и где в пользовательском веб-интерфейсе фреймворка посмотреть результаты...

13Сен
2021

Строим масштабируемые ETL/ELT-конвейеры обработки данных с Apache Spark и AirFlow: 4 совета дата-инженеру

Автор Анна Вичуговав категории AirFlow, Spark, Блог

озеро данных для дата-инженера курсы обучение, ETL ELT процессы Data Lake курсы обучение, обучение инженеров данных, Apache AirFlow курсы обучение, озеро данных Hadoop курсы обучение, курсы Spark для разработчиков и инженеров данных обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров мы собрали лучшие практики построения масштабируемых конвейеров обработки данных, а также популярные рекомендации по проектированию ETL/ELT-процессов с Apache Spark, AirFlow и другими технологиями Big Data. Читайте далее, когда ELT лучше ETL и наоборот, чем хорош Apache Spark в конвейерах обработки Big Data, зачем нужен AirFlow,...

07Сен
2021

Динамическое сжатие файлов в Apache Spark: опыт Databricks и не только

Автор Анна Вичуговав категории Spark, Блог

обучение Spark, курсы Spark, Apache Spark Для разработчиков и дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Spark является одной из главных технологий стека Big Data, этот фреймворк не очень хорошо работает с множеством файлов небольшого размера. Поэтому в рамках обучения дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим, почему это происходит, зачем динамически сжимать файлы в Apache Spark и как это делает платформа...

01Сен
2021

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Анна Вичуговав категории Spark, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, аналитика больших данных для руководителей примеры и кейсы из промышленности, обучение Apache Spark, курсы Apache Spark, инженерия данных, обучение Big Data, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики больших данных с производства средствами Google сервисов и снижение затрат на облако в 2 раза через изменение конфигурации Spark SQL....

31Авг
2021

Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Kafka, обучение Kafka, курсы по Spark, обучение Spark, аналитика больших данных курсы обучение, примеры конвейера аналитики больших данных, аналитика больших данных с Kafka и Spark Для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов для дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим пример построения системы потоковой передачи для аналитики больших данных на базе Apache Kafka, Spark и Google BigQuery. Читайте далее про Proof of Concept для конвейера продуктовой аналитики, который обрабатывает 50 миллиардов событий каждый день, и какие важные уроки ИТ-архитектор...

26Авг
2021

Управление кластерами Apache Hadoop и Spark с YARN: 3 варианта планирования ресурсов

Автор Анна Вичуговав категории Spark, Блог

обучение Hadoop, Hadoop YARN Для инженера данных и администратора обучение курсы, курсы по Apache Hadoop Для инженеров и администраторов, основы Apache Hadoop YARN, администрирование кластера Apache Hadoop Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

YARN считается самым распространенным диспетчером ресурсов в кластерах Apache Hadoop и Spark, отвечая за выделение ресурсам распределенным приложениям. Сегодня в рамках обучения дата-инженеров и администраторов Hadoop рассмотрим достоинства и недостатки 3-х вариантов планирования ресурсов в YARN. Читайте далее, что такое иерархия очереди и как вычисляется ее мгновенная справедливая доля. Планирование...

23Авг
2021

Еще 4 полезных совета по Apache Spark для разработчиков и дата-аналитиков

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark курсы обучение, Spark курсы обучение разработчиков и дата-аналитиков, Apache Spark SQL примеры, обработка данных в Apache Spark SQL, аналитика больших данных с Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-аналитиков и разработчиков Spark-приложений, рассмотрим еще несколько особенностей этого фреймворка. Почему count() работает по-разному для RDD и DataFrame, как отличается уровень хранения при применении метода cache() для этих структур, когда использовать SortWithinPartitions() вместо sort(), а также парочка тонкостей обработки Parquet-таблиц в Spark SQL и кэширование метаданных...

14Авг
2021

5 лайфхаков по Apache Spark для разработчиков и дата-аналитиков

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark курсы обучение, Spark курсы обучение разработчиков и дата-аналитиков, Data Science с Apache Spark примеры, обработка данных в Apache Spark JSON CSV примеры, Школа Больших Данных Учебный Центр Коммерсант

Специально для разработчиков распределенных приложений, Data Scientist’ов и аналитиков больших данных, работающих с Apache Spark, в этой статье мы собрали несколько полезных советов по ежедневным операциям в этом фреймворке. Читайте далее, как добавить библиотеку TypeSafe в файл sbt-конфигурации Spark-приложения, получить датафреймы из JSON-массивов и структур, а также обработать CSV-формат с...