Школа Больших Данных проводит бесплатный митап для дата-инженеров, разработчиков и администраторов «Apache Spark на Kubernetes своими руками». Митап состоится 30 мая 2024 года в 17:00 МСК. Мероприятие рассчитано на инженеров данных, разработчиков и просто интересующихся. Специальной подготовки не требуется: неплохо немного уметь программировать на Python, но это не обязательно. В среде Jupyter на Яндекс облаке напишем код на PySpark и запустим его в Managed Kubernetes от Yandex. После 2-х часового митапа вы сможете работать со своим Spark на Kubernetes, например, в Minikube, а все материалы (Jupyter ноутбуки и пр.) позволят вам практиковаться самостоятельно.
Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop. При этом Spark не привязан к кластеру Hadoop и может использоваться без него. Благодаря обработке промежуточных результатов в памяти без записи на диск MapReduce в Spark работает гораздо быстрее Hadoop. На митапе разберем эти и другие особенности использования Spark для распределенной обработки больших данных, а также познакомимся с тем, как работать с ним в кластере Kubernetes.
Программа митапа
- Теория: краткое знакомство с Apache Spark
- Немного теории: состав, архитектура, основные абстракции и принципы работы фреймворка
- Практика: Spark на Kubernetes
- Установка и настройка
- Особенности использования
- Выполнение своего PySpark-кода в интерактивном и batch-режимах (client & cluster execution modes)
- Работа с источниками (S3, JDBC)
Продолжительность митапа — 2 часа.
МЕРОПРИЯТИЕ БУДЕТ ПРОВОДИТЬСЯ НА ПЛАТФОРМЕ WEBINAR. Ссылка придет на почту за час до начала мероприятия.
Контактная информация: info@bigdataschool.ru или +7 (495) 41-41-121, +7 (915) 307 0074, @Bigdataschool_mck