Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

23Июн
2021

Преобразования vs действия: под капотом операций Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разговор про вычислительные операции над датафреймами в Apache Spark, сегодня рассмотрим, какие преобразования (transformations) и действия (actions) чаще всего используются при разработке распределенных приложений и аналитике больших данных. Читайте далее, про виды столбцовых преобразования и отличия действия collect() от take(). Преобразования в Apache Spark: виды и особенности реализации Напомним,...

22Июн
2021

Как быстрее обработать массив в Apache Spark 3.1: сравнение 9 разных методов

Автор Анна Вичуговав категории Spark, Блог

Apache Spark предоставляет для разработчика распределенных приложений множество возможностей, позволяя достигать одной целей разными способами. Чтобы проиллюстрировать это, сегодня рассмотрим бенчмаркинговое сравнение 9 методов обработки массивов в Spark 3.1, обращая внимание на их производительность и особенности использования. Также разберем важные для обучения разработчиков Spark темы про отличия преобразований от действий...

18Июн
2021

Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами

Автор Анна Вичуговав категории Flink, Greenplum, Kafka, Machine Learning, Spark, Use Cases, Блог

курсы аналитики больших данных, примеры и кесы аналитика Big Data, обучение большим данным, курсы Spark, обучение курс Kafka, обучение курс Greenplum, курсы Flink, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим пример построения системы потоковой аналитики больших данных на базе Apache Kafka, Spark, Flink, NoSQL-СУБД, BI-системой Tableau или визуализацией в Kibana. Читайте далее, кому и зачем исследовать Twitter-посты в реальном времени, как это реализовать технически, визуализировать в наглядных BI-дэшбордах для принятия data-driven решений и при чем здесь Kappa-архитектура. Еще...

16Июн
2021

Не только AirFlow: как упростить тестирование и отладку Big Data конвейеров из Spark-приложений с Dagster

Автор Анна Вичуговав категории AirFlow, Spark, Блог

курсы по Spark, обучение Apache Spark, Dagster, курсы по Airflow, Apache Airflow обучение, курсы дата-инженеров, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение

Apache Spark + AirFlow – известная каждому дата-инженеру комбинация технологий Big Data для запуска сложных конвейеров обработки данных. Но совместное использование этих фреймворков ограничено недостатками AirFlow, часть из которых можно обойти с помощью Apache Livy. Однако эксплуатация AirFlow менее удобна, чем Dagster. Поэтому сегодня рассмотрим, как этот альтернативный оркестратор данных...

10Июн
2021

Как избавиться от перекосов в Apache Spark: coalesce vs repartition

Автор Анна Вичуговав категории Spark, Блог

Spark, SQL, обучение Spark SQL, курсы Spark SQL, Data Skew Apache Spark, Coalesce vs Repartition Apache Spark, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать обучение разработчиков Apache Spark, дата-аналитиков и инженеров Big Data еще более наглядным, сегодня рассмотрим проблему JOIN-соединений при неравномерном распределении данных по узлам кластера и способы ее решения. Читайте далее, как избавиться от перекосов и ускорить выполнение SQL-запросов в Spark-приложениях. Перекосы данных в Apache Spark: что это и чем...

03Июн
2021

Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы Spark, курсы Kafka, обучение Spark, обучение Kafka, конвейер аналитики больших данных, анализ сетевого трафика в реальном времени, NetFlow аналитика, Школа Больших Данных Учебный Центр Коммерсант

Продолжая добавлять в наши практические курсы по Apache Kafka и Spark еще больше интересных примеров, сегодня рассмотрим, как с помощью этих технологий Big Data анализировать метаданные сетевых потоков в реальном времени. В этой статье мы приготовили для вас кейс по потоковой аналитики больших данных о сетевом трафике с помощью Apache...

01Июн
2021

Что такое Apache Sedona или GeoSpark: Spark-фреймворк для обработки пространственных геоданных

Автор Анна Вичуговав категории Spark, Блог

курсы Spark, обучение Apache Spark SQL, Apache Sedona, GeoSpark, обработка и анализ пространственных геоданных в Apache Spark SQL, Школа Больших Данных Учебный центр Коммерсант

Сегодня поговорим про обработку геопространственных данных с Apache Spark и рассмотрим, что такое Apache Sedona, как этот фреймворк связан с GeoSpark, какие форматы и структуры данных он поддерживает. Читайте далее про пространственные RDD, Spatial SQL-запросы и построение конвейеров обработки геоданных в облачных сервисах Amazon. Как обработать геопространственные данные в...

25Май
2021

Зачем вам Hue или как писать SQL-запросы к Apache Spark еще проще

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Spark, обучение Apache Spark SQL, Spark Hue Livy курсы инженеров данных, анализ больших данных в Apache Spark SQL, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим инструмент, который облегчает практическое использование Apache Spark, позволяя дата-аналитику и разработчику распределенных приложений быстро писать и выполнять SQL-запросы в рамках удобного веб-редактора. Читайте далее, что такое Hue, как он связан со Spark SQL и Hive, а также причем здесь Livy. Что Hue и при чем здесь Apache Livy...

19Май
2021

Аналитика больших данных со Apache Spark SQL из внешних СУБД: про JDBC-драйверы

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark JDBC для разработчиков, Spark JDBC инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье рассмотрим особенности подключения Apache Spark к внешним СУБД как к источникам данных для аналитики Big Data средствами SQL-модуля этого фреймворка. Читайте далее о том, что такое JDBC-драйвер, чем источник данных JDBC отличается от сервера Spark SQL JDBC, при чем здесь RPC-фреймворк и язык описания интерфейсов Thrift, а...

09Май
2021

Машинное обучение с Apache Spark: битва пакетов или отличия библиотек MLLib от ML

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

курсы Apache Spark ML для аналитиков данных и разработчиков, анализ данных и Machine Learning с Apache Spark, Apache Spark машинное обучение, Spark Data Science, обучение ML-разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим Apache Spark с точки зрения Data Science специалиста: поговорим про сходства и отличия библиотек машинного обучения в этом фреймворке. Также ответим на вопрос «Spark ML vs MLLib», разберем, зачем Data Scientist’у и аналитику больших данных нужны курсы по Apache Spark, а в заключение отметим наиболее важные улучшения библиотеки...

08Май
2021

Еще 4 особенности бакетирования таблиц в Apache Spark и 7 конфигураций их настройки

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark Hive бакетирование таблиц, Spark bucketing инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разбирать особенности бакетирования таблиц в Apache Spark, сегодня мы рассмотрим несколько примеров, как дата-инженер и аналитик данных могут работать с этим методом оптимизации SQL-запросов. Также читайте далее, какие конфигурации Apache Spark SQL связаны с бакетированием таблиц и что нового появилось в 3-ей версии этого Big Data фреймворка, чтобы такой...

07Май
2021

Apache Spark для дата-инженеров: трудности бакетирования и способы их решения

Автор Анна Вичуговав категории Hive, Spark, Блог

курсы Apache Spark для инженеров данных и разработчиков, разработка Spark, Apache Spark Hive бакетирование таблиц, Spark bucketing инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Бакетирование таблиц в Apache Spark – один из самых популярных методов оптимизации производительности задач последовательного чтения данных. Сегодня поговорим про сложности бакетирования с точки зрения дата-инженера, а также рассмотрим факторы, от которых зависит оптимальное количество бакетов. Большая проблема маленьких файлов и бакетирование таблиц в Apache Spark Напомним, бакетирование ускоряет выполнение...

06Май
2021

Масштабируемая видеоаналитика в реальном времени с нейросетями YOLO на Apache Kafka, Spark Structured Streaming и Cassandra

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

аналитика больших данных в реальном времени примеры , курсы Big Data Spark Kafka NoSQL обучение, машинное обучение кейсы, YOLO Big Data, Школа Больших ДАнных Учебный центр Коммерсант

В рамках обучения аналитиков Big Data и разработчиков Apache Spark и Kafka, сегодня рассмотрим кейс ИТ-компании Southworks по онлайн-обработке потокового видео как наглядный пример эффективного сочетания этих потоковых фреймворков с пакетными задачами. Читайте далее, как реализовать лямбда-архитектуру масштабируемой Big Data системы на базе Apache Kafka, Spark Structured Streaming и NoSQL-СУБД...

01Май
2021

На заметку разработчику: 3 причуды Apache Spark и как с ними бороться

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark для разработчиков, разработка Spark, Apache Spark AWS S3 коннекторы, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы по Apache Spark, сегодня мы рассмотрим несколько особенностей, с разработчик которыми может столкнуться при выполнении обычных операции, от чтения архивированного файла до обращения к сервисам Amazon. Читайте далее, что не так с методом getDefaultExtension(), зачем к AWS S3 так много коннекторов и почему PySpark нужно дополнительно конфигурировать...

26Апр
2021

Вспомнить все: 6 сегментов памяти Apache Spark и параметры их конфигурирования

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark для разработчиков, память Spark, Apache Spark JVM Heap Memory, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье продолжим говорить про обучение разработчиков Apache Spark и рассмотрим, какие сегменты памяти есть в этом Big Data фреймворке и как с ними работать наиболее эффективно. Читайте далее, почему процессы PySpark и SparkR потребляют внешнюю память, чем пользовательская память кучи JVM отличается от памяти хранилища и какие конфигурации...

23Апр
2021

Как помочь Apache Spark SQL обрабатывать большие датасеты быстрее: 5 простых способов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Apache Spark, Spark SQL для разработчиков, оптимизация Spark SQL, курсы по большим данным для аналитиков и Data Scientist, обучение Big Data Analyst, Школа Больших Данных Учебный центр Коммерсант

Продолжая разговор про практическое обучение разработчиков Apache Spark, сегодня рассмотрим пример повышения скорости выполнения SQL-запросов к большому датафрейму. Читайте далее, как определить и исправить асимметрию распределения данных по разделам, зачем добавлять контрольные точки в длинные DAG и в чем здесь опасность, чем хороша широковещательная трансляция, для чего фильтровать данные перед...

22Апр
2021

Как устранить дубли в датасете: 5 методов для разработчика Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Big Data обучение, курсы инженеров данных, обучение дата-инженеров, разработка Apache Spark курсы, обучение Data Scientist, курсы Data Analyst, Школа Больших Данных Учебный центр Коммерсант

На практике каждый аналитик Big Data и Data Scientist часто сталкивается с удалением дублирующихся значений в датасете. Поэтому, чтобы добавить в наши курсы по Apache Spark еще больше полезных примеров, сегодня рассмотрим 5 простых способов решения этой востребованной задачи. Читайте далее, чем distinct() отличается от dropDuplicates(), а reduceByKey() - от...

20Апр
2021

От пакетов к потокам с Kafka и Flink: аналитика больших данных по пользовательским сеансам в Spotify

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы Hadoop Spark Kafka, потоковая аналитика больших данных обучение, анализ пользовательских сеансов Big Data, кейсы по большим данным,, обучение технологиям Big Data, обучение Kafka Spark Hadoop, аналитика больших данных примеры, Spotify Big Data cases

Сегодня рассмотрим преимущества потоковой обработки данных с Apache Kafka и Flink над пакетными Big Data технологиями в виде Hadoop, Spark и Oozie. В качестве примера разберем реальный кейс аналитики больших данных по пользовательским сеансам в музыкальном онлайн-сервисе Spotify, а также возможность замены Apache Flink на Spark Structured Streaming. От рекламы...

12Апр
2021

Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Сегодня рассмотрим, что такое Data Build Tool, как этот ETL-инструмент связан с корпоративным хранилищем и озером данных, а также чем полезен дата-инженеру. В качестве практического примера разберем кейс подключения DBT к Apache Spark, чтобы преобразовать данные в таблице Spark SQL на Amazon Glue со схемой поверх набора файлов в AWS...

09Апр
2021

От контекста до драйвера: что под капотом Spark-приложения

Автор Анна Вичуговав категории Spark, Блог

Поскольку наши курсы по Apache Spark предполагают практическое обучение с глубоким погружением в особенности разработки и настройки распределенных приложений, сегодня рассмотрим, как именно выполняются кластерные вычисления в рамках этого Big Data фреймворка. Читайте далее, из чего состоит архитектура Spark-приложения, как связаны SparkContext и SparkConf, а также зачем ограничивать размер драйвера...