Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

11Май
2023

Apache Spark 3.4.0: обзор апрельского релиза

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.4.0 новые возможности, Apache Spark 3.4.0 обзор релиза, Spark Structured Streaming SQL PySpark примеры курсы обучение, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

12 апреля 2023 года вышел очередной релиз Apache Spark. Разбираемся с самыми главными новинками этого выпуска, которые порадуют аналитиков, разработчиков, инженеров данных и специалистов по Data Science. Расширенная поддержка Python, улучшения Spark SQL и Structured Streaming. Обновления Spark SQL и новинки для пользователей Python Apache Spark 3.4.0 — это пятый...

21Янв
2023

3 способа подключить сервер Jupyter к защищенному кластеру Spark на Hadoop YARN с Kerberos

Автор Анна Вичуговав категории Spark, Блог

Sparkmagic Lighter Jupyter Notebook Spark Python, PySpark примеры курсы обучение, Apache Spark разработка дата-инженер примеры курсы обучение, Livy Spark Hadoop yarn Kerberos, Школа Больших Данных учебный Центр Коммерсант

Интерактивные блокноты Jupyter стали фактически стандартом де-факто для Data Scientist’ов, использующих Python. Многие дата-инженеры и разработчики Spark тоже используют этот легковесный, но очень удобный инструмент. Однако, чтобы применять его для промышленной разработки Big Data приложений, нужно подключить сервер Jupyter к кластеру Spark. Читайте, как это сделать, если кластер Apache Spark...

20Ноя
2022

Как безопасно читать данные из AWS S3 с Apache Spark и boto3

Автор Анна Вичуговав категории Spark, Блог

Python boto3 AWS S3 Apache Spark примеры курсы обучение, безопасность и защита данных в Big Data, шифрование Apache Spark примеры курсы обучение, курсы Apache Spark для разработчиков и дата-инженеров, анализ данных с Apache Spark, аналитика больших данных курсы, криптография в Apache Spark, обучение большим данным для разработчиков и инженеров данных примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Spark для дата-инженеров еще более полезными, сегодня рассмотрим, как PySpark-задания могут считывать данные из корзин объектного хранилища AWS S3, используя Python-пакет boto3. Читайте далее, что представляет собой этот SDK, как использовать его вместе с IAM-ролями, а также как обеспечить безопасность конфиденциальных данных с помощью...

10Окт
2022

Криптография на PySpark: PyCryptodome для Apache Spark

Автор Анна Вичуговав категории Spark, Блог

безопасность и защита данных в Big Data, шифрование Apache Spark примеры курсы обучение, курсы Apache Spark для разработчиков и дата-инженеров, анализ данных с Apache Spark, аналитика больших данных курсы, криптография в Apache Spark, обучение большим данным для разработчиков и инженеров данных примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали про использование криптографии в Apache Spark. Сегодня в рамках обучения дата-инженеров и разработчиков распределенных приложений рассмотрим, как шифровать столбцы датафрейма в PySpark и расшифровывать их с использованием алгоритма шифрования AES. Основы кибербезопасности: ликбез по шифрованию данных Шифрование данных преобразует данные в другую форму или код, чтобы их...

30Сен
2022

Как ускорить чтение из JDBC-источников для Apache Spark: 3 метода

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark JDBC для разработчиков, Spark JDBC инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем тему, важную для обучения дата-инженеров и разработчиков распределенных Spark-приложений. Почему чтение данных из реляционных баз в Apache Spark может быть медленным и как его ускорить, изменив SQL-запрос или структуру таблицы. JDBC-источники данных для Apache Spark Apache Spark является средством обработки, а не хранения больших данных. Поэтому, чтобы использовать...

16Сен
2022

4 способа упаковать PySpark-приложение для отправки в кластер Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark Python для инженеров данных и разработчиков, разработка PySpark, Apache Spark для разработчиков, Spark Python инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши практические курсы по Apache Spark еще больше приемов, полезных для дата-инженеров и разработчиков, сегодня рассмотрим, как упаковать PySpark-приложение, используя нативные Python-функции и сторонние решения. Отличия Virtualenv от PEX и Conda. 4 способа упаковать PySpark-приложение для запуска в кластере Apache Spark Разработчики распределенных приложений знают, что недостаточно...

06Авг
2022

Как определить задержку потребителя Apache Kafka в Spark Structured Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

обучение Spark SQL Structured Streaming Kafka PySpark примеры курсы обучение, разработка Spark Structured Streaming Kafka PySpark , Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров и разработчиков распределенных приложений еще больше практических примеров, сегодня рассмотрим, как написать Python-код для вычисления задержки потребителя Apache Kafka, расширив типовой слушатель StreamingQueryListener, который есть в Java и Scala API библиотеки Spark Structured Streaming, но недоступен в PySpark. Проблема отставания потребителя Apache Kafka...

05Июл
2022

Spark vs Dask для Data Science-проектов

Автор Анна Вичуговав категории Spark, Блог

Spark vs Dask, обучение Data Science Dask Spark примеры курсы, машинное обучение Dask Spark примеры курсы, курсы Machine Learning Spark ML Dask, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберемся, когда для Data Science-проектов вместо Apache Spark, самого популярного вычислительного движка аналитики больших данных, стоить выбрать Dask – легковесную Python-библиотеку для параллельных вычислений. И, наоборот, в каких случаях инженер данных и Data Scientist получают преимущества, выбирая Spark. Что такое Dask и зачем он нужен Data Scientist’у Прежде чем...

27Июн
2022

Apache Spark 3.3.0: ТОП-10 новинок июльского релиза 2022

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

16 июня 2022 года вышла новая версия Apache Spark – 3.3.0. Разбираем главные фичи этого минорного релиза, особенно важные для дата-инженера и разработчика распределенных приложений: от расширения поддержки ANSI SQL до профилирования UDF на Python. Главные изменения Apache Spark 3.3.0 Apache Spark 3.3.0 — это четвертый релиз линейки 3.x, в...

30Май
2022

Вместо Git и Python: MLOps для разработки и развертывания ML-систем

Автор Анна Вичуговав категории Machine Learning, Блог

ML MLOps Machine Learning, MLOps курсы примеры обучение, машинное обучение примеры курсы, обучение Data Science, развертывание DS, Школа Больших Данных Учебный Центр Коммерсант

Что не так с традиционными методами и инструментами разработки ПО для систем машинного обучения и как MLOps решает эти инженерные проблемы ML. Почему не стоит размещать файлы моделей Machine Learnig и датасеты в Git, а также зачем MLOps-инженеру решать вопросы архитектуры и управляться с Kubernetes. MLOps вместо Git-репозиториев Традиционные рабочие...

21Май
2022

Оконные функции PySpark в Google Colab: пара примеров

Автор Анна Вичуговав категории Spark, Блог

обучение Spark примеры курсы обучение, анализ данных Spark PySpark, PySpark Google Colab примеры курсы обучение, обучение большим данным, курсы дата-аналитик, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения начинающих аналитиков данных и дата-инженеров сегодня рассмотрим примеры выполнения простых SQL-запросов и оконных функций в Apache Spark на Google Colab. Как быстро проанализировать датафрейм из CSV-файлов с помощью нескольких строк на PySpark. Запуск и использование PySpark в Google Colab Предположим, необходимо определить потенциальный доход от проведения обучающих...

05Май
2022

3 метода управления разделами в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Spark coalesce repartition partitionBy примеры курсы обучение отличия сходства, управление разделами в Apache Spark, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали про функции перераспределения данных по разделам coalesce() и repartition(). Сегодня сравним их работу с еще одним методом управления разделами в Apache Spark и разберем, как все они могут помочь дата-инженеру и разработчику распределенных приложений повысить эффективность этого популярного фреймворка аналитики больших данных. Отобрать и поделить: лучшие практики партиционирования данных...

21Апр
2022

Тонкости SparkSession в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

обучение Spark дата-инженер, курсы инженер данных, инженерия данных Spark Session сеанс спарк, обучение Apache Spark Session курсы примеры, Spark для разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Может ли быть несколько сеансов в одном Spark-приложении с разной конфигурацией, зачем нужен метод foreachBatch() в структурированной потоковой передаче и чем он отличается от foreach(), почему возникает ошибка Table or view not found: microBatch и как ее обойти. В рамках обучения разработчиков Apache Spark и дата-инженеров заглядываем под капот этого...

03Апр
2022

Широковещательное соединение в Apache Spark SQL: ликбез и примеры

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL, курсы Spark SQL, примеры Spark SQL, BROADCAST JOIN Spark SQL, хинты Spark SQL, оптимизация запросов Spark SQL, Spark SQL для аналитиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и аналитиков данных, рассмотрим, что такое широковещательные соединение в Apache Spark SQL, чем оно полезно и как работает на практических примерах. BROADCAST JOIN в SELECT-запросах Spark SQL, а также краткий ликбез по подсказкам или хинтам. Что такое широковещательное соединение в Apache Spark SQL Распределенная природа...

27Мар
2022

Ускорение PySpark-приложений с PyArrow: лайфхаки Apache Spark для разработчиков

Автор Анна Вичуговав категории Spark, Блог

PyArrow Spark, Apache Arrow Spark примеры курсы обучение, обучение Apache Spark, Apache Spark для дата-инженеров, Apache Spark для разработчиков курсы примеры обучение, инженерия данных с Apache Spark, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения разработчиков Spark-приложений и дата-инженеров, сегодня рассмотрим, как повысить эффективность выполнения Python-кода с помощью кросс-языковой платформы Apache Arrow. Что такое PyArrow и как это улучшает производительность PySpark-программ. Почему Spark Java быстрее PySpark и как это исправить с Apache Arrow Будучи популярным вычислительным движком в области Big Data, Apache...

19Мар
2022

MLOps на коленке: простое развертывание ML-модели с Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

MLOPS Spark примеры курсы обучение, Spark MLLib, курсы Spark для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по Apache Spark и машинному обучению практические примеры для эффективного повышения квалификации Data Scientist’ов и инженеров данных, сегодня рассмотрим задачу пакетного прогнозирования и планирование ее запуска по расписанию без применения масштабных MLOps-решений. Apache Spark для пакетного прогнозирования Есть много готовых решений и инструментов для пакетного...

18Мар
2022

MLOps и переносимость ML-моделей с помощью ONNX и Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Обучая специалистов по Data Science, аналитиков и инженеров данных лучшим практикам MLOps, сегодня поговорим про переносимость моделей машинного обучения между разными этапами жизненного цикла ML-систем, от разработки до развертывания в production. А в качестве примера разберем, как использовать обученную ML-модель из Apache Spark за пределами кластера, упаковав ее в ONNX...

01Мар
2022

Аналитика больших данных в реальном времени с Apache Kafka, Spark, ClickHouse и S3

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы Kafka Spark ClickHouse обучение архитектура пример, аналитика больших данных, дата-инженер курсы примеры обучение Kafka Spark, обучение разработчиков распределенных приложений и ИТ-архитекторов большим данным, Школа Больших Данных Учебный Центр Коммерсант

Практический пример аналитики больших данных в реальном времени с Apache Spark, Kafka, ClickHouse и AWS S3: возможности, архитектура, также специально для дата-инженеров и разработчиков распределенных приложений рассмотрим, сколько времени нужно для разрешения каждого вызова API в определенном временном диапазоне. Анализ событий пользовательского поведения в реальном времени Основным продуктом международной ИТ-компании...

26Фев
2022

Аналитика больших данных с Apache Spark: UDF на Pyspark для вызова внешних REST API

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчиков аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark REST API UDF курсы, примеры Spark парсинг JSON, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как загружать большие объемы данных из REST API-сервисов с Apache Spark, написав на PySpark собственную UDF-функцию с преобразованием withColumn(), чтобы воспользоваться всеми преимуществами распределенных вычислений этого фреймворка. Локальное исполнение на драйвере и распараллеливание REST-API вызовов в Apache Spark Мы уже рассказывали, что конвертация Python-скрипта в распределенный код Apache...

14Фев
2022

Анализ данных временных рядов с Apache Spark: пара примеров c Flint и Pandas

Автор Анна Вичуговав категории Spark, Блог

анализ данных временных рядов Spark Flint пример, курсы аналитик больших данных, Apache Spark для аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark курсы, примеры Spark обработка CSV, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и аналитиков рассмотрим пример мониторинга состояния электрогенераторов с помощью анализа данных временных рядов и ранжирования в pandas для предупреждения выхода оборудования из строя. А также разберем основы анализа временных рядов на больших данных с открытой библиотекой Flint для Apache Spark. Постановка задачи: температура и производительность...