Практические курсы Apache Spark

Курсы по Apache Spark для аналитиков, разработчиков и инженеров Big Data,
а также специалистов в Data Science и Machine Learining

Что такое Apache Spark и где это используется

Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop. Он позволяет создавать высокопроизводительные приложения, способные быстро выполнять множество операций с огромными объемами данных. Высокая скорость работы достигается за счет распределенного движка и хранения промежуточных вычислений в памяти без записи на диск.

Apache Spark состоит из следующих компонентов:

Благодаря такому разнообразию инструментов интерактивной аналитики данных, фреймворк позволяет создавать мощные приложения, которые активно используются в системах интернета вещей (IoT/IIoT), а также в различных бизнес-задачах, от анализа больших данных до машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.
Фреймворк может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра Хадуп, в частности, на базе системы управления кластером Mesos. Apache Spark поддерживает несколько популярных распределённых систем хранения данных: HDFS, OpenStack Swift, Cassandra, Amazon S3. Также этот фреймворк отлично интегрируется с реляционными и нереляционными СУБД, потоковыми платформами передачи событий (Kafka, RabbitMQ и пр.), и предоставляет API-интерфейсы для самых популярных в области Big Data языков программирования: Java, Scala, Python и R.

Расписание курсов по Apache Spark

Код курса Название курса Дата начала курса Цена Ак.часов Дней
CORSCore Spark - основы для разработчиков16 Дек17 Фев48 000162
SPOTПотоковая обработка в Apache Spark06 Фев48 000162
SPARKАнализ данных с помощью современного Apache Spark16 Дек17 Фев96 000324

Кому нужны курсы по Apache Spark

Наши практические курсы по Apache Spark предназначены для разработчиков распределенных приложений, инженеров больших данных, аналитиков Big Data, DataOps и DevOps-инженерам, а также специалистов по Data Science и Machine Learning, которые хотят получить следующие знания и навыки:

Познакомиться с основными функциональными возможностями и базовыми компонентами Apache Spark Core для анализа больших данных и разработки распределенных приложений

Понять особенности потоковой и микро-пакетной обработки данных в режиме near real-time со Spark Streaming

Освоить аналитику больших данных с помощью стандартного языка структурированных запросов на Spark SQL

Изучить графовые алгоритмы обработки информации, парадигму Pregel и ее представление в Spark Graphframe

Разобраться с реализацией нейросетевых алгоритмов и других методов Machine Learning в Spark MLLib

Знать методы интеграции Spark-приложений с другими Big Data системами и внешними источниками данных; уметь строить эффективные конвейеры обработки больших данных (Pipelines) на базе Apache Spark, Airflow, Livy и других технологий Big Data

Понимать способы и возможности оптимизации каждого компонента платформы Apache Spark, от производительности кластера до SQL-запросов и накладных расходов в Big Data Pipeline

Наши курсы по практическому администрированию, разработке и эксплуатации Apache Spark помогут вам развить профессиональную карьеру инженера данных (Data Engineer), аналитика данных (Data Analyst), ученого по данным (Data Scientist) и разработчика программных решений для Big Data (Data Developer). Выбирайте свою специализацию, а мы подберем для вас нужный обучающий курс или разработаем индивидуальную образовательную программу.

Как проходят курсы
по Apache Spark в Школе Больших Данных

Курсы Apache Spark в нашем учебном центре организованы в виде краткосрочных интенсивов. Программы обучения включают все теоретические знания и практические навыки, необходимые для эффективной работы с этим Big Data фреймворком в качестве Data Engineer, Data Analyst, Data Scientist и Data Developer.

Обучение проходит в формате практического семинара (workshop) и предусматривает индивидуальный фидбэк для каждого слушателя. Практическая часть предусматривает самостоятельную разработку Spark-приложений для потоковой или пакетной обработки информации в рамках систем аналитики больших данных.

Окончив курсы по Apache Spark в нашем лицензированном учебном центре, вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельства о повышении квалификации.

Станьте востребованным специалистом по разработке распределенных приложений, анализу больших данных и машинному обучению вместе с BigDataSchool!
Поиск по сайту