Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

24Июн
2022

Происхождение данных в Apache Spark со Spline и не только

Автор Анна Вичуговав категории Spark, Блог

Spline spark data lineage, происхождение данных Spark, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark инженерия данных, Apache Spark разработчик дата-инженер примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы рассказывали, почему важна наблюдаемость данных какие платформы помогают комплексно обеспечить все ее аспекты. В продолжение этой темы сегодня заглянем под капот происхождения данных в Apache Spark с помощью агента Spline и других способов. Трудности data lineage в Apache Spark Когда конвейер данных выходит из строя, дата-инженеру нужно скорее...

18Июн
2022

Потоки и пакеты: сходства, отличия и примеры применения

Автор Анна Вичуговав категории Блог

курсы Kafka Spark Flink, Архитектура данных Лямбда Каппа курсы примеры обучение, архитектор Big Data курсы примеры обучение, потоковая пакетная парадигма обработки данных примеры кейсы курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим 2 основные категории технологий обработки данных: пакетную и потоковую. Что общего между batch и stream processing, где они применяются, какими технологиями поддерживаются, можно ли их использовать вместе и как это сделать: ликбез по архитектуре больших данных. Потоковая и пакетная обработка: краткий обзор с примерами Обработки данных в режиме...

14Июн
2022

Мониторинг заданий Apache Spark с помощью слушателей

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Что такое SparkListener, какие встроенные слушатели бывают в Apache Spark, как написать собственный перехватчик событий и зачем это нужно разработчику распределенного приложения. Также рассмотрим, как реализовать свой слушатель для приложения на PySpark и зачем включать уровень логирования INFO для SparkContext. Что такое слушатель Spark Apache Spark позволяет быстро обрабатывать большие...

08Июн
2022

Как определить оптимальную конфигурацию Spark-приложения

Автор Анна Вичуговав категории Spark, Блог

Сколько ядер ЦП выделить на каждый исполнитель и каково оптимальное количество памяти для Spark-приложения при статическом и динамическом выделении ресурсов. Важные вопросы эффективной утилизации кластера, с которыми сталкивается каждый дата-инженер и разработчик распределенных программ. Запуск распределенного приложения через spark-submit Повысить эффективность работы приложения Apache Spark можно не только через оптимизацию...

01Июн
2022

От Лямбда до Data Mesh: 7 архитектур данных для Big Data систем

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог

Архитектура данных Лямбда Каппа Data fabric Data Mesh курсы примеры обучение, архитектор Big Data курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Что такое архитектура данных, какие модели чаще всего используются в современных Big Data системах, почему традиционные BI-системы не справляются со всем разнообразием текущих бизнес-сценариев, чем Лямбда отличается от Каппа, а Data Fabric от Data Mesh и зачем внедрять MLOps-инструменты в аналитическую платформу. Немного истории: почему архитектуры данных до сих пор...

31Май
2022

Роль Tungsten в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark SQL, Spark Tungsten SQL для разработчика примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Что такое Tungsten, зачем он нужен в Apache Spark и как этот проект устраняет узкие места вычислительного движка, чтобы повысить его производительность и эффективность утилизации ресурсов за счет приближения JVM к bare metal. Рассматриваем самые важные для разработчика распределенных приложений особенности и разбираемся, при чем здесь вольфрам и почему с...

30Май
2022

Вместо Git и Python: MLOps для разработки и развертывания ML-систем

Автор Анна Вичуговав категории Machine Learning, Блог

ML MLOps Machine Learning, MLOps курсы примеры обучение, машинное обучение примеры курсы, обучение Data Science, развертывание DS, Школа Больших Данных Учебный Центр Коммерсант

Что не так с традиционными методами и инструментами разработки ПО для систем машинного обучения и как MLOps решает эти инженерные проблемы ML. Почему не стоит размещать файлы моделей Machine Learnig и датасеты в Git, а также зачем MLOps-инженеру решать вопросы архитектуры и управляться с Kubernetes. MLOps вместо Git-репозиториев Традиционные рабочие...

28Май
2022

Детективная история про SCR-конфигурации HDFS в региональных серверах Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и администраторов кластера Apache HBase разберем, почему региональные сервера могут работать некорректно при высокой нагрузке и при чем здесь SCR-конфигурация файловой системы Hadoop. Что такое Short-Circuit Read в HDFS и почему оно может снижать скорость потокового чтения в приложениях Spark Streaming. Постановка задачи: проблема...

21Май
2022

Оконные функции PySpark в Google Colab: пара примеров

Автор Анна Вичуговав категории Spark, Блог

обучение Spark примеры курсы обучение, анализ данных Spark PySpark, PySpark Google Colab примеры курсы обучение, обучение большим данным, курсы дата-аналитик, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения начинающих аналитиков данных и дата-инженеров сегодня рассмотрим примеры выполнения простых SQL-запросов и оконных функций в Apache Spark на Google Colab. Как быстро проанализировать датафрейм из CSV-файлов с помощью нескольких строк на PySpark. Запуск и использование PySpark в Google Colab Предположим, необходимо определить потенциальный доход от проведения обучающих...

19Май
2022

Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming

Автор Анна Вичуговав категории Kafka, NiFi, Spark, Блог

NiFi для инженера данных примеры курсы обучение, аналитический конвейер NiFi Kafka Spark Streaming, обучение большим данным, курсы дата-инженеров, обучение инженер данных, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа потоковых данных с Youtube Потоковые данные непрерывно генерируются тысячами источников, которые отправляют записи одновременно и в небольших размерах (порядка килобайт)....

11Май
2022

3 режима вывода в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

Spark Structured Streaming примеры курсы обучение output modes отличия сходства, режимы вывода в Apache Spark Structured Streaming, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Какие бывают режимы вывода в структурированной потоковой передаче Spark, чем они отличаются и как их использовать на практике: разбираемся на практическом примере. Краткий ликбез по output modes в Apache Spark Structured Streaming для обучения дата-инженеров и разработчиков распределенных приложений. Что такое режимы вывода в Apache Spark Structured Streaming Apache Spark...

05Май
2022

3 метода управления разделами в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Spark coalesce repartition partitionBy примеры курсы обучение отличия сходства, управление разделами в Apache Spark, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали про функции перераспределения данных по разделам coalesce() и repartition(). Сегодня сравним их работу с еще одним методом управления разделами в Apache Spark и разберем, как все они могут помочь дата-инженеру и разработчику распределенных приложений повысить эффективность этого популярного фреймворка аналитики больших данных. Отобрать и поделить: лучшие практики партиционирования данных...

01Май
2022

Обнаружение мошенничества при скимминге банковских карт c Apache Kafka, Flink и HBase

Автор Анна Вичуговав категории Flink, HBase, Kafka, Блог

Обнаружение мошеннических операций Big Data, примеры курсы обучение Apache Kafka Spark Hadoop Flink HBase, Школа бОльших Данных Учебный центр Коммерсант

Пример выявления финансового мошенничества при скимминге банковских карт в банкоматах с помощью технологий Big Data. Как Apache Kafka, Flink и HBase помогут обнаружить злоумышленников в режиме реального времени. Что такое скимминг, как это работает и чем опасно Скимминг является одним из частых видов мошенничества с банковскими картами, представляющий собой считывание...

29Апр
2022

Настройка кластера Apache Spark и Hive на Hadoop

Автор Анна Вичуговав категории Hive, Spark, Блог

администрирование кластера Hadoop SQL Hive Spark, обучение Spark Hive администратор кластера, курсы администратор Big Data Haddop Spark Hive SQL, инженерия данных Spark Hive , обучение Apache Spark Hive курсы примеры, Spark Hive для администраторов разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как настроить Apache Spark 3.0.1 и Hive 3.1.2 на Hadoop 3.3.0: тонкости установки и конфигурирования для обучения администраторов кластера и инженеров с примерами команд и кода распределенных приложений. Запуск Spark-приложения на Hadoop-кластере Прежде всего, для настройки кластера Apache Spark нужен работающий кластер Hadoop. Сама установка и настройка выполняется в 2...

21Апр
2022

Тонкости SparkSession в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

обучение Spark дата-инженер, курсы инженер данных, инженерия данных Spark Session сеанс спарк, обучение Apache Spark Session курсы примеры, Spark для разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Может ли быть несколько сеансов в одном Spark-приложении с разной конфигурацией, зачем нужен метод foreachBatch() в структурированной потоковой передаче и чем он отличается от foreach(), почему возникает ошибка Table or view not found: microBatch и как ее обойти. В рамках обучения разработчиков Apache Spark и дата-инженеров заглядываем под капот этого...

18Апр
2022

2 подхода к динамической фильтрации потоковых данных в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink для инженеров данных, инженерия данных с Apache Flink Spark, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Как изменять правила фильтрации данных без перезапуска потокового Flink-приложения: практический пример для разработчиков и дата-инженеров. Чем подход с ключами состояний отличается от широковещательных соединений, каковы достоинства и недостатки этих альтернатив. Фильтрация данных в статике и динамике Практически каждая платформа потоковой передачи событий позволяет использовать фильтрацию операторов для отбора данных согласно...

17Апр
2022

Практический MLOps: 4 стратегии развертывания систем Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа БОльших Данных Учебный Центр Коммерсант

Сегодня рассмотрим наиболее распространенные в MLOps стратегии развертывания, т.е. подходы к внедрению моделей машинного обучения в производство. Выбор стратегии зависит от бизнес-требований и от контекста применения результатов ML-моделирования. Какие бывают стратегии и как они реализуются: краткий ликбез с примерами для ML-инженеров и MLOps-специалистов. Пакетное прогнозирование и веб-сервисы для MLOps Это...

13Апр
2022

От Derby к Hive: хранилище метаданных для Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Spark Hive дата-инженер, курсы инженер данных, инженерия данных Spark Hive , обучение Apache Spark Hive курсы примеры, Spark Hive для разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот Apache Spark и разберем, для чего этому популярному вычислительному движку база метаданных, как ее назначить и что не так с хранилищем данных по умолчанию. Зачем уходить от Apache Derby к Hive и как это сделать: краткий ликбез с примерами для обучения дата-инженеров и разработчиков распределенных приложений....

11Апр
2022

Бессерверный Apache Spark в Google Dataproc

Автор Анна Вичуговав категории AirFlow, Spark, Блог

обучение дата-инженеров, курсы инженер данных, инженерия данных Spark AirFlow, обучение Apache Spark AirFlow курсы примеры, развертывание Spark AirFlow в облаке Google, Школа Больших Данных Учебный Центр Коммерсант

Недавно в Google Dataproc появился бессерверный Apache Spark. Разбираемся, что это такое и зачем нужно дата-инженерам. Как работает serverless Spark в облачной платформе Google и почему выбирать между Dataflow и Dataproc стало еще сложнее. Блеск и нищета Google Dataproc Напомним, Google Dataproc – это облачный Hadoop, который работает аналогично другим...

03Апр
2022

Широковещательное соединение в Apache Spark SQL: ликбез и примеры

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL, курсы Spark SQL, примеры Spark SQL, BROADCAST JOIN Spark SQL, хинты Spark SQL, оптимизация запросов Spark SQL, Spark SQL для аналитиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и аналитиков данных, рассмотрим, что такое широковещательные соединение в Apache Spark SQL, чем оно полезно и как работает на практических примерах. BROADCAST JOIN в SELECT-запросах Spark SQL, а также краткий ликбез по подсказкам или хинтам. Что такое широковещательное соединение в Apache Spark SQL Распределенная природа...