Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

11Фев
2021

Большие данные с малыми затратами: как снизить стоимость OLAP-аналитики Big Data в Delta Lake на AWS с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы дата-инженеров, обучение инженеров данные, курсы Big Data инженер, курсы Apache Spark, обучение Spark, курсы Apache Kafka, обучение Kafka, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, облака

Хорошие курсы инженеров данных – это не просто обучение отдельной Big Data технологии, такой как Apache Hadoop, Spark или Kafka, а жизненные примеры их практического использования в реальном бизнесе. Поэтому сегодня мы приготовили для вас кейс оптимизации стоимости и скорости OLAP-аналитики больших данных в облачном Delta Lake на Amazon Web...

10Фев
2021

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы Apache Hadoop, Hive SQL Hadoop курсы, обучение инженеров данных, обучение аналитиков данных, Big Data, Большие данные, обработка данных, Spark, Hadoop, SQL, Spark SQL, Delta Lake, DWH, Hive

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache Spark и Presto в Delta Lake для ускорения OLAP-процессов при работе с Big Data. Еще раз об OLAP: схема звезды...

02Янв
2021

Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Spark SQL, Delta Lake, Data Lake, Data Lake, Hadoop, HDFS, DBIO commit-protocol for Spark transactions by Databricks, курсы Hadoop, обучение Apache Hadoop

Продолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big Data решений, компания Databricks, разработала собственный алгоритм. Читайте далее про сравнение протоколов фиксации заданий в Spark-приложениях: результаты оценки производительности и...

30Дек
2020

Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Сегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в облако с локального кластера. Читайте далее, как найти компромисс между безопасностью и высокой производительностью, а также чем облачные хранилища отличаются...

25Ноя
2020

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

обучение инженеров данных, курсы по инженерии больших данных, Data Engineer курсы, инженер Big Data обучение, Big Data, Большие данные, обработка данных, архитектура, DataOps, DWH, Kafka, Delta Lake, Data Lake, NiFi, Spark

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным массивам Big Data, применяя передовые методы проектирования данных и реализации конвейеров их обработки. В этой статье мы собрали для вас...

05Ноя
2020

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность, Delta Lake, курсы Hadoop, обучение хадуп

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную инфраструктуру для запуска заданий Apache Hadoop и Spark в системах хранения и обработки больших данных (Big Data). Шаги переноса Data...

22Окт
2020

Как построить ETL-pipeline на Apache Spark или что под капотом StreamSets Transformer

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Spark, обработка данных, большие данные, Big Data, NiFi, ETL, Data Lake, Machine Learning, машинное обучение, Delta Lake, Kafka, StreamSets Transformer

Однажды мы уже рассказывали про StreamSets Data Collector, сравнивая его с Apache NiFi. Сегодня рассмотрим, как устроен этот исполнительный движок для запуска конвейеров обработки больших данных, каким образом он связан с Apache Spark и чем полезен инженеру Big Data при организации ETL-процессов на локальных и облачных озерах данных (Data Lake,...

02Окт
2020

Заменит ли Apache Kafka прочие СУБД в мире Big Data: за и против

Автор Анна Вичуговав категории Kafka, Блог

Big Data, Большие данные, обработка данных, Kafka, архитектура, администрирование, SQL, NoSQL, Data Lake, Delta Lake, Elasticsearch, ClickHouse, DWH, обучение Apache Kafka, курсы по Apache Kafka

В этой статье мы поговорим про возможность нехарактерного использования Apache Kafka: не как распределенной стримминговой платформы или брокера сообщений, а в виде базы данных. Читайте далее, как Apache Kafka дополняет другие СУБД, не заменяя их полностью, почему такой вариант использования возможен в Big Data и когда он не совсем корректен....

30Сен
2020

Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

Автор Анна Вичуговав категории Hive, Spark, Блог

Spark, архитектура, обработка данных, большие данные, Big Data, Hadoop, Data Lake, Hive, SQL, NoSQL, MLOps, DataOps, Delta Lake, обучение Apache Spark, курсы по Spark

При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит ожидать от этого быстрого облачного хранилище для больших данных на Apache Spark и как можно обойти эти ограничения. Читайте далее,...

29Сен
2020

Облачное Delta Lake на Apache Spark от Databricks vs классическое озеро данных на Hadoop: 5 главных отличий

Автор Анна Вичуговав категории Spark, Блог

Delta Lake Databricks, курсы по Spark, архитектура, обработка данных, большие данные, Big Data, курсы Hadoop, Data Lake

Продолжая разговор про Delta Lake, сегодня мы рассмотрим, чем это быстрое облачное хранилище для больших данных в реализации компании Databricks отличается от классического озера данных (Data Lake) на Apache Hadoop HDFS. Читайте далее, как коммерческое Cloud-решение на Apache Spark облегчает профессиональную деятельность аналитиков, разработчиков и администраторов Big Data. Больше, чем...

28Сен
2020

Как ускорить озеро данных или что такое Delta Lake на Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог, Цифровая трансформация

Spark, архитектура, обработка данных, большие данные, Big Data, Hadoop, Data Lake, Delta Lake

Озеро данных (Data Lake) на Apache Hadoop HDFS в мире Big Data стало фактически стандартом де-факто для хранения полуструктурированной и неструктурированной информации с целью последующего использования в задачах Data Science. Однако, недостатком этой архитектуры является низкая скорость вычислительных операций в HDFS: классический Hadoop MapReduce работает медленнее, чем аналоги на Apache...