Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

13Фев
2021

Apache Hadoop 3.2.2 — свежий релиз 2021: краткий обзор главной технологии Big Data

Автор Анна Вичуговав категории Блог, Статьи

курсы Hadoop, Apache Hadoop Обучение, бесплатный тест по большим даннымBig Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hive, HDFS, Hadoop

Месяц назад, в начале января 2021 года вышел новый релиз Apache Hadoop 3.2.2. Читайте далее, чего ждать от самой главной технологии Big Data, какие ошибки исправлены, зачем внесены изменения и кому они будут особенно полезны. 7 главных обновлений Apache Hadoop 3.2.2 Этот второй выпуск версии 3.2 содержит 516 исправлений ошибок,...

12Фев
2021

3 задания по Apache Hadoop для чайников: развлекательная проверка знаний

Автор Анна Вичуговав категории Hive, Spark, Тесты

Сегодня в качестве пятничного развлечения для дата-инженеров, разработчиков распределенных приложений, администраторов, аналитиков и других специалистов по большим данным мы приготовили небольшой квиз по Apache Hadoop. Проверьте свое знание главной технологии Big Data, решив кроссворд, филворд и небольшой тест по основным компонентам и главным принципам работы этой платформы хранения и аналитики...

11Фев
2021

Большие данные с малыми затратами: как снизить стоимость OLAP-аналитики Big Data в Delta Lake на AWS с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы дата-инженеров, обучение инженеров данные, курсы Big Data инженер, курсы Apache Spark, обучение Spark, курсы Apache Kafka, обучение Kafka, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, облака

Хорошие курсы инженеров данных – это не просто обучение отдельной Big Data технологии, такой как Apache Hadoop, Spark или Kafka, а жизненные примеры их практического использования в реальном бизнесе. Поэтому сегодня мы приготовили для вас кейс оптимизации стоимости и скорости OLAP-аналитики больших данных в облачном Delta Lake на Amazon Web...

10Фев
2021

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы Apache Hadoop, Hive SQL Hadoop курсы, обучение инженеров данных, обучение аналитиков данных, Big Data, Большие данные, обработка данных, Spark, Hadoop, SQL, Spark SQL, Delta Lake, DWH, Hive

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache Spark и Presto в Delta Lake для ускорения OLAP-процессов при работе с Big Data. Еще раз об OLAP: схема звезды...

09Фев
2021

Насколько ты знаком с Apache AirFlow: открытый тест для инженеров Big Data

Автор Анна Вичуговав категории AirFlow, Тесты

курсы инженеров данных, обучение дата-инженеров, курсы инженеров big Data, курсы Apache AirFlow, обучение разработчиков Data Flow, AirFlow обучение, большие данные, Big Data, AirFlow, Spark, Python, Kubernetes

Хорошие курсы дата-инженеров предполагают не только изучение теории и практики, но и проверку полученных знаний. Поэтому сегодня мы предлагаем вам открытый интерактивный тест по Apache AirFlow. Ответьте на 10 простых вопросов и узнайте, насколько хорошо вы знакомы с особенностями администрирования и эксплуатации этого популярного фреймворка для автоматизации batch-заданий обработки и...

08Фев
2021

Как читать медицинские снимки с Apache Spark: Big Data библиотека для быстрой обработки DICOM-файлов

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Spark, Apache Spark Для разработчиков, разработка Spark-приложений, Big Data, Большие данные, обработка данных, Spark, Hadoop, Machine Learning, Машинное обучение, Elasticsearch, Kafka, Python

Продвигая наши курсы для разработчиков Spark с примерами реальных систем аналитики больших данных, сегодня рассмотрим библиотеку для чтения файлов формата DICOM от индийской компании Abzooba. Читайте далее, как автоматизировать поиск по миллиардам медицинских изображений с помощью машинного обучения и технологий Big Data: Apache Spark, Hadoop, Kafka, Elasticsearch и Kibana. Что...

05Фев
2021

Как протестировать Big Data Pipeline: тесты для Hadoop-конвейеров в Spark и Airflow

Автор Анна Вичуговав категории AirFlow, Spark, Блог

курсы Hadoop для инженеров данных, обучение дата-инженеров, инженер Big Data обучние, курсы Spark, курсы Airflow, курсы Hadoop, обучение Spark, обучение Airflow, обучение Hadoop, Hadoop для инженеров данных

Поскольку курсы инженеров Big Data предполагают практическое обучение на реальных кейсах, сегодня поговорим про тестирование конвейеров обработки и аналитики больших данных и разберем несколько прикладных примеров для компонентов экосистемы Apache Hadoop. Читайте далее про проверку работоспособности, а также поиск ошибок в Spark-заданиях и DAG-цепочках Airflow. Конвейер для конвейера: сложности тестирования...

04Фев
2021

Быстрее и безопаснее: потоковая аналитика больших данных для трекинга самолетов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, инженерия данных обучение, дата-инженер курсы, Apache Spark для инженеров больших данных и разработчиков обучение, Amazon Web Services Kinesism Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, SQL, предиктивная аналитика

Чтобы показать, насколько разной бывает аналитика больших данных, сегодня рассмотрим кейс международной компании Spidertracks, которая с помощью технологий Big Data создает ИТ-решения для отслеживания, связи и управления безопасностью воздушных судов. Читайте далее, почему для потоковой обработки событий был выбран Kinesis Analytics for SQL, а не конвейер из Apache Kafka и...

03Фев
2021

Конвейер CDC для Databricks Delta Lake: пример быстрого сбора и аналитики Big Data с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Apache Kafka для разработчиков, обучение Kafka, курсы Apache Kafka, Apache Spark для разработчиков, обучение Spark, курсы Apache Spark, интеграция Kafka Spark Streaming, аналитика Big Data, аналитика больших данных примеры и кейсы, обучение инженеров данных, курсы дата-инженеров, CDC Big Data, Change Data Capture Kafka Spark, аналитика Big Data, Школа Больших Данных Учебный центр Коммерсант, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hadoop

Сегодня продолжим разбираться с реализацией CDC-подхода в современных Big Data решениях и погрузимся в Databricks Delta Lake – облачный уровень хранения и аналитики больших данных с поддержкой ACID-транзакций. Читайте далее про переход от ночных ETL-пакетов с Informatica к быстрому обновлению данных в Amazon S3 на конвейере Spark и Kafka. Возможности...

02Фев
2021

CDC для потоковой аналитики Big Data с Apache Kafka и Spark: 3 практических примера

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Вчера мы упоминали про CDC-подход в проектировании транзакционных систем аналитики больших данных на базе Apache Kafka и Spark Streaming. Сегодня рассмотрим подробнее примеры такого применения технологий Big Data и лучшие практики Change Data Capture в потоковой обработке финансовых и других транзакций. Зачем нужны потоковые конвейеры транзакционной обработки Big Data на...