Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

17Фев
2021

ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data

Автор Анна Вичуговав категории Kafka, Блог

что такое ksqlDB, курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL

Продолжая разговор про обучение разработчиков Apache Kafka, сегодня рассмотрим, чем ksqlDB отличается от Kafka Streams. Также читайте далее про основные достоинства и недостатки перезапуска KSQL в виде отдельной базы данных потоковой передачи событий с API-интерфейсом на основе SQL для запроса и обработки информации из топиков Kafka. ksqlDB vs Kafka Streams:...

16Фев
2021

Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных, архитектура, Kafka, облака, SQL, DevOps, Kubernetes

В этой статье поговорим про KSQL на примере кейса компании американской компании Pluralsight, которая предлагает различные обучающие видео-курсы для разработчиков ПО, ИТ-администраторов и творческих профессионалов. Читайте далее, как использовать Apache Kafka с Kubernetes для построения надежных систем потоковой аналитики больших данных, а также чем ksqlDB отличается от KSQL. Apache Kafka...

15Фев
2021

Почему ваши Spark-приложения такие медленные: устраняем задержки аналитики Big Data

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и инженеров данных, разработка Spark-приложений, Big Data, Большие данные, обработка данных, Spark, Hadoop,

Недавно мы уже рассказывали про ускорение целых аналитических конвейеров на Apache Spark и отдельных задач, а также рассматривали способы оптимизации Shuffle-операций в SQL-модуле этого Big Data фреймворка. Сегодня разберем, какие факторы провоцируют задержки в Spark-приложениях, и как дата-инженер может их найти, чтобы устранить причины и следствия этих проблем. Задержки Spark-приложений...

13Фев
2021

Apache Hadoop 3.2.2 — свежий релиз 2021: краткий обзор главной технологии Big Data

Автор Анна Вичуговав категории Блог, Статьи

курсы Hadoop, Apache Hadoop Обучение, бесплатный тест по большим даннымBig Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hive, HDFS, Hadoop

Месяц назад, в начале января 2021 года вышел новый релиз Apache Hadoop 3.2.2. Читайте далее, чего ждать от самой главной технологии Big Data, какие ошибки исправлены, зачем внесены изменения и кому они будут особенно полезны. 7 главных обновлений Apache Hadoop 3.2.2 Этот второй выпуск версии 3.2 содержит 516 исправлений ошибок,...

11Фев
2021

Большие данные с малыми затратами: как снизить стоимость OLAP-аналитики Big Data в Delta Lake на AWS с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы дата-инженеров, обучение инженеров данные, курсы Big Data инженер, курсы Apache Spark, обучение Spark, курсы Apache Kafka, обучение Kafka, Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, облака

Хорошие курсы инженеров данных – это не просто обучение отдельной Big Data технологии, такой как Apache Hadoop, Spark или Kafka, а жизненные примеры их практического использования в реальном бизнесе. Поэтому сегодня мы приготовили для вас кейс оптимизации стоимости и скорости OLAP-аналитики больших данных в облачном Delta Lake на Amazon Web...

10Фев
2021

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы Apache Hadoop, Hive SQL Hadoop курсы, обучение инженеров данных, обучение аналитиков данных, Big Data, Большие данные, обработка данных, Spark, Hadoop, SQL, Spark SQL, Delta Lake, DWH, Hive

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache Spark и Presto в Delta Lake для ускорения OLAP-процессов при работе с Big Data. Еще раз об OLAP: схема звезды...

09Фев
2021

Насколько ты знаком с Apache AirFlow: открытый тест для инженеров Big Data

Автор Анна Вичуговав категории AirFlow, Тесты

курсы инженеров данных, обучение дата-инженеров, курсы инженеров big Data, курсы Apache AirFlow, обучение разработчиков Data Flow, AirFlow обучение, большие данные, Big Data, AirFlow, Spark, Python, Kubernetes

Хорошие курсы дата-инженеров предполагают не только изучение теории и практики, но и проверку полученных знаний. Поэтому сегодня мы предлагаем вам открытый интерактивный тест по Apache AirFlow. Ответьте на 10 простых вопросов и узнайте, насколько хорошо вы знакомы с особенностями администрирования и эксплуатации этого популярного фреймворка для автоматизации batch-заданий обработки и...

08Фев
2021

Как читать медицинские снимки с Apache Spark: Big Data библиотека для быстрой обработки DICOM-файлов

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Spark, Apache Spark Для разработчиков, разработка Spark-приложений, Big Data, Большие данные, обработка данных, Spark, Hadoop, Machine Learning, Машинное обучение, Elasticsearch, Kafka, Python

Продвигая наши курсы для разработчиков Spark с примерами реальных систем аналитики больших данных, сегодня рассмотрим библиотеку для чтения файлов формата DICOM от индийской компании Abzooba. Читайте далее, как автоматизировать поиск по миллиардам медицинских изображений с помощью машинного обучения и технологий Big Data: Apache Spark, Hadoop, Kafka, Elasticsearch и Kibana. Что...

05Фев
2021

Как протестировать Big Data Pipeline: тесты для Hadoop-конвейеров в Spark и Airflow

Автор Анна Вичуговав категории AirFlow, Spark, Блог

курсы Hadoop для инженеров данных, обучение дата-инженеров, инженер Big Data обучние, курсы Spark, курсы Airflow, курсы Hadoop, обучение Spark, обучение Airflow, обучение Hadoop, Hadoop для инженеров данных

Поскольку курсы инженеров Big Data предполагают практическое обучение на реальных кейсах, сегодня поговорим про тестирование конвейеров обработки и аналитики больших данных и разберем несколько прикладных примеров для компонентов экосистемы Apache Hadoop. Читайте далее про проверку работоспособности, а также поиск ошибок в Spark-заданиях и DAG-цепочках Airflow. Конвейер для конвейера: сложности тестирования...

04Фев
2021

Быстрее и безопаснее: потоковая аналитика больших данных для трекинга самолетов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, инженерия данных обучение, дата-инженер курсы, Apache Spark для инженеров больших данных и разработчиков обучение, Amazon Web Services Kinesism Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, SQL, предиктивная аналитика

Чтобы показать, насколько разной бывает аналитика больших данных, сегодня рассмотрим кейс международной компании Spidertracks, которая с помощью технологий Big Data создает ИТ-решения для отслеживания, связи и управления безопасностью воздушных судов. Читайте далее, почему для потоковой обработки событий был выбран Kinesis Analytics for SQL, а не конвейер из Apache Kafka и...