Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Статьи

Информационно-аналитические статьи и новости о технологиях анализа и хранения Больших Данных (Big Data), машинного обучения (Machine Learning), администрирования кластеров (Hadoop, Kafka, Spark, AirFlow), а также реальные истории и лучшие практики их прикладного использования в российских и зарубежных компаниях

01Мар
2021

Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Автор Анна Вичуговав категории Spark, Блог

Spark Structured Streaming and Kafka data pipeline, курсы по Spark, Apache Spark Для разработчиков и инженеров данных, Apache Spark для инженеров, данных курсы обучение, экономика больших данных, Big Data AWS кейс оптимизации расходов

Чтобы дополнить наши курсы по Spark для разработчиков распределенных приложений и инженеров данных практическими примерами, сегодня рассмотрим кейс американской ИТ-компании ThousandEyes, которая разрабатывает программное обеспечение для анализа производительности локальных и глобальных сетей. Читайте далее, как создать надежный конвейер и устойчивое озеро данных (Data Lake) для быстрой аналитики Big Data в...

27Фев
2021

Конфигурирование исполнителей Spark-заданий в AWS: ядра ЦП и проблемы с памятью

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Apache Spark Для инженеров данных курсы обучение, экономика больших данных, Big Data AWS кейс оптимизации расходов

Продолжая вчерашний разговор про оптимизацию Spark-приложений в облачном кластере Amazon Web Services, сегодня рассмотрим типовую последовательность действий по конфигурированию заданий и настройке узлов для снижения затрат на аналитику больших данных. А также разберем, какие проблемы с памятью исполнителей могут при этом возникнуть, и как инженеру Big Data их решить. Еще...

26Фев
2021

Бесплатный день обучения ЗА ОТЗЫВЫ в 2021 году!

Автор Andrey Sokolovв категории Новости, Статьи

С 1-го марта и до 31 декабря 2021 года ежемесячно Школа Больших Данных проводит для своих слушателей Акцию: напиши и опубликуй отзыв по прослушанному курсу на странице отзывов Школы Больших Данных в Google, Yandex, Zoon, YELP, Youtube, VK, Facebook и участвуй в розыгрыше Сертификата на бесплатное обучение. Победители апреля В апреле...

25Фев
2021

Как сэкономить на AWS-кластере: экономика Big Data и конфигурирование облачных Spark-приложений

Автор Анна Вичуговав категории Spark, Use Cases, Блог

В рамках обучения администраторов Apache Hadoop и инженеров Big Data, сегодня поговорим про стоимость аналитики больших данных с помощью Spark-приложений в облачном кластере Amazon Web Services и способы снижения этих затрат за счет конфигурирования заданий и настройки узлов. Читайте в этой статье, как число процессорных ядер в исполнителях Spark-заданий формирует...

21Фев
2021

Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных

Автор Анна Вичуговав категории Spark, Блог

spark sql bucketing, бакетирование таблиц Спарк и Хайв, курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Spark SQL Optimization

Сегодня поговорим про бакетирование таблиц в Apache Spark для оптимизации производительности заданий и снижения затрат на кластер при их выполнении. Читайте далее, что такое Bucketing в Spark SQL и как это предотвращает операции перетасовки в приложениях аналитики больших данных. Что такое Bucketing и зачем это нужно в Big Data Бакетирование...

19Фев
2021

Как перейти на Apache Kafka без Zookeeper: готовимся к KIP-500 в релизе 2.8.0

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Zookeeper, курсы Kafka, обучение Apache Kafka, курсы Kafka администратор кластера, администрирование Big Data кластера Кафка обучение, Big Data, Большие данные, обработка данных

Спустя пару месяцев с выпуска Apache Kafka 2.7.0, Confluent анонсировал новый релиз этой платформы потоковой передачи событий, в котором, наконец, случится долгожданный отказ от Zookeeper. Читайте далее, как это облегчит жизнь администратору Kafka-кластера и разработчику распределенных приложений потоковой аналитики больших данных, а также как подготовить свою Big Data инфраструктуру к...

18Фев
2021

Apache Kafka 2.7.0: ТОП-15 обновлений декабря 2020 года

Автор Анна Вичуговав категории Kafka

Kafka, Zookeeper, курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных

В конце декабря 2020 года вышел новый релиз Apache Kafka – главной Big Data технологии для потоковой передачи событий, интеграции распределенных систем и аналитики больших данных. Читайте далее о новых функциональных возможностях и исправленных ошибках в свежей версии 2.7.0: еще один шаг к отказу от Zookeeper, генерация уведомительных исключений и улучшения...

17Фев
2021

ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data

Автор Анна Вичуговав категории Kafka, Блог

что такое ksqlDB, курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL

Продолжая разговор про обучение разработчиков Apache Kafka, сегодня рассмотрим, чем ksqlDB отличается от Kafka Streams. Также читайте далее про основные достоинства и недостатки перезапуска KSQL в виде отдельной базы данных потоковой передачи событий с API-интерфейсом на основе SQL для запроса и обработки информации из топиков Kafka. ksqlDB vs Kafka Streams:...

16Фев
2021

Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных, архитектура, Kafka, облака, SQL, DevOps, Kubernetes

В этой статье поговорим про KSQL на примере кейса компании американской компании Pluralsight, которая предлагает различные обучающие видео-курсы для разработчиков ПО, ИТ-администраторов и творческих профессионалов. Читайте далее, как использовать Apache Kafka с Kubernetes для построения надежных систем потоковой аналитики больших данных, а также чем ksqlDB отличается от KSQL. Apache Kafka...

15Фев
2021

Почему ваши Spark-приложения такие медленные: устраняем задержки аналитики Big Data

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и инженеров данных, разработка Spark-приложений, Big Data, Большие данные, обработка данных, Spark, Hadoop,

Недавно мы уже рассказывали про ускорение целых аналитических конвейеров на Apache Spark и отдельных задач, а также рассматривали способы оптимизации Shuffle-операций в SQL-модуле этого Big Data фреймворка. Сегодня разберем, какие факторы провоцируют задержки в Spark-приложениях, и как дата-инженер может их найти, чтобы устранить причины и следствия этих проблем. Задержки Spark-приложений...