Core Spark - основы для разработчиков
4-дневный практический курс для разработчиков Apache Spark, дата инженеров, аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных.
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
CORS | 12 мая 2025 04 августа 2025 |
48 000 руб. | 16 ак.часов Количество дней: 4 |
Дистанционный |
Регистрация |

О продукте
Apache Spark – это фреймворк с открытым исходным кодом для разработки приложений распределённых пакетных и потоковых вычислений над большим объемом неструктурированных и слабоструктурированных данных. Он входит в экосистему проектов Hadoop, поддерживает вычислительную модель MapReduce, но сохраняет промежуточные результаты вычислений в памяти вместо записи на диск. Поэтому Spark работает гораздо быстрее и позволяет создавать высокопроизводительные приложения, способные быстро выполнять множество операций с огромными объемами данных. Фреймворк имеет модульный состав, поддерживая различные сценарии использования распределенных приложений, от интернета вещей до машинного обучения. Поэтому Spark-приложения активно используются в различных бизнес-задачах анализа и обработки больших данных.
Аудитория
- разработчики Big Data;
- дата инженеры;
- аналитики данных;
- Data Scientist;
- другие специалисты по большим данным, которые хотят получить опыт настройки и использования базовых компонентов Apache Spark: Low Level API, Structured API и Spark SQL.
Уровень подготовки
- Опыт работы в Unix/SQL;
- Уверенный опыт программирования (Python/Scala);
- Начальный опыт в экосистеме Hadoop.
О курсе
Наш курс поможет освоить Apache Spark с нуля или углубить свои знания. В рамках курса вы познакомитесь с архитектурой Spark, его основными компонентами и API, научитесь работать с данными и оптимизировать процессы обработки, сможете самостоятельно разрабатывать и настраивать Spark-приложения, эффективно работать с большими объемами данных и использовать Spark для решения задач анализа и обработки данных.
Практические занятия будут проводиться на языках Python или Scala.
Программа курса «Core Spark — основы для разработчиков»
1. Обзор Apache Spark
-
- Архитектура Spark
- Обзор компонентов Spark и их назначения
- Spark API и разработка программ.
2. Основные абстракции — знакомство со Spark RDD и Dataframe
-
- Low Level API, использование Resilient Distributed Dataset
- Structured API и основная абстракция Spark – Dataframe
- Основные трансформации и действия.
3. Работа с источниками данных
-
- Ввод и вывод данных в Spark
- Работа с файлами и базами данных
- Совместная работа с Apache Hive
4. Apache Spark SQL
-
- Получение данных из SQL-источников
- Обработка данных с помощью Spark SQL
- Интероперабельность Dataframe и SQL
5. Основы настройки и конфигурирования
-
- Знакомство с основными Shell
- Запуск приложений с помощью spark-submit
- Конфигурирование Spark
- Планы запросов и Web GUI
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Чему вы научитесь
- Понимать архитектуру Apache Spark и его компоненты, такие как Spark Core, Spark SQL и другие.
- Работать с основными абстракциями Spark: Resilient Distributed Dataset (RDD) и Dataframe.
- Использовать Low Level API для работы с RDD и Structured API для работы с Dataframe.
- Выполнять основные трансформации и действия над данными.
- Подключаться к различным источникам данных, включая файлы, базы данных и Apache Hive.
- Применять Spark SQL для обработки данных и интеграции с SQL-источниками.
- Настраивать и конфигурировать Spark-приложения, включая использование spark-submit и анализ планов запросов.
Что Вы получите
Окончив курс «Core Spark — основы для разработчиков» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Arenadata Hadoop, Arenadata DB)
- Организация ETL-конвейеров (Airflow, Spark, Flink, Trino)
- Обработка потоковых данных (Kafka, Kafka Streams, Flink)
- Поддержка и развитие инфраструктуры больших данных
Отзывы наших клиентов о курсе
Чтобы записаться на курс CORS: Core Spark - основы для разработчиков позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.