Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

30Ноя
2020

Как перейти от Python к PySpark: ТОП-10 рекомендаций по настройке Spark-заданий

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Apache Spark, обучение Spark, курсы по PySpark, обучение Python, курсы Python, обучение PySpark, курсы для разработчиков больших данных, обучение дата-инженеров, обработка данных, большие данные, Big Data, Spark

Говоря про обучение Apache Spark для разработчиков, сегодня мы рассмотрим, как быстро конвертировать Python-скрипты в задания PySpark и какие конфигурационные параметры при этом нужно настроить, чтобы эффективно использовать все возможности распределенных вычислений над большими данными (Big Data). Читайте далее, чем отличаются датафреймы в Pandas и Apache Spark, для чего нужны...

28Ноя
2020

Преобразование столбцов в PySpark

Автор administratorв категории Machine Learning, Spark, Блог

Обработка данных является одной из самых первоочередных задач анализа Big Data. Сегодня мы расскажем о самых полезных преобразованиях PySpark, которые можно выполнить над столбцами. Читайте далее, как привести значения к 0 или 1, как преобразовать из строк в числа и обратно, а также как обработать недостающие значения(Nan) с примерами в...

27Ноя
2020

От open-source до Confluent: 3 клиента Python для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

курсы по Apache Kafka, Kafka обучение, обучение большим данным, Кафка для разработчиков, Apache Kafka for developers, Apache Kafka Python, обработка данных, большие данные, Big Data, Kafka, Python, librdkafka, PyKafka, Kafka-Python

Развивая наш новый курс по Apache Kafka для разработчиков, сегодня мы рассмотрим 3 способа о взаимодействии с этой популярной Big Data платформой потоковой обработки событий с помощью языка Python, который считается самым распространенным инструментом в Data Science. Читайте далее, что такое librdkafka, чем PyKafka отличается от Kafka-Python и почему решение...

20Ноя
2020

Как создать свой коннектор Apache Spark: пример интеграции с Tableau

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, обучение Apache Spark, Apache Spark for developres, Apache Spark integration, обработка данных, большие данные, Big Data, Spark, Data Lake, Greenplum, Python

Говоря про практическое обучение Apache Spark для дата-инженеров, сегодня рассмотрим особенности разработки собственного коннектора для этого фреймворка на примере его интеграции с BI-системой Tableau. Читайте далее, как конвертировать Spark RDD в нужный формат и сделать свой коннектор удобным для пользователей. Интеграция Spark с внешними источниками данных через коннекторы Apache Spark...

14Ноя
2020

3 метода векторизации слов в PySpark

Автор administratorв категории Machine Learning, Spark, Блог

Продолжаем говорить о NLP в PySpark. После того как тексты обработаны: удалены стоп-слова и проведена лемматизация — их следует векторизовать для последующей передачи алгоритмам Machine Learning. Сегодня мы расскажем о 3-x методах векторизации текстов в PySpark. Читайте в этой статье: применение CountVectorizer для подсчета встречаемости слов, уточнение важности слов с...

12Ноя
2020

Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline’ов

Автор Анна Вичуговав категории AirFlow, Hive, Блог

Apache Luigi vs AirFlow, курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, DataOps, Python, , ETL

Продвигая наши курсы по Apache AirFlow для инженеров Big Data, сегодня расскажем, чем этот фреймворк отличается от Luigi – другого достаточно известного инструмента оркестровки ETL-процессов и конвейеров обработки больших данных. В этой статье мы собрали для вас сходства и отличия Apache AirFlow и Luigi, а также их достоинства и недостатки,...

11Ноя
2020

Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline’ов

Автор Анна Вичуговав категории AirFlow, Machine Learning, Use Cases, Блог

курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps, MLOps, Python, Kubernetes, DevOps, ETL

Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo, MLFlow и KubeFlow, где и как они используются, а также почему Apache Airflow все равно остается лучшим инструментом для оркестрации...

07Ноя
2020

Предобработка текстов на русском в PySpark

Автор administratorв категории Spark, Блог

В одной из прошлых статей мы говорили о методах NLP (natural language processing) в PySpark. Сегодня мы покажем, как обработать реальный датасет, который содержит тексты на русском языке. Читайте у нас: удаление знаков пунктуации, символов и стоп-слов, токенизация и лемматизация на примере новостей на русском языке. Датасет с текстами на...

24Окт
2020

Как нормализовать данные в PySpark перед обучением ML-моделей

Автор administratorв категории Machine Learning, Spark, Блог

В прошлый раз мы говорили о методах NLP в PySpark. Сегодня рассмотрим методы нормализации и стандартизации данных модуля ML библиотеки PySpark. Читайте в нашей статье: применение Normalizer, StandardScaler, MinMaxScaler и MaxAbsScaler для нормализация и стандартизации данных. Нормализация и стандартизация — методы шкалирования данных Нормализация (normalization) и стандартизация (standardization) являются методами...

17Окт
2020

Natural Language Processing (NLP) в PySpark: токенизация, стоп-слова, N-граммы

Автор administratorв категории Spark, Блог

Обработка естественного языка (Natural Language Processing, NLP) является перспективным направлением Data Science и Big Data. Сегодня мы расскажем вам о применении методов NLP в PySpark. В этой статье вы узнаете об обычной токенизации и на основе регулярных выражений, стоп-словах русского и английского языков, а также о N-граммах в PySpark. Токенизация...

16Окт
2020

Stateful vs Stateless в потоковой обработке Big Data на примере Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

курсы по Apache Spark, обучение Spark Streaming, Spark, обработка данных, большие данные, Big Data, SQL, Python, Hadoop, HDFS

Сегодня поговорим про сохранение состояний при потоковой обработке больших данных с помощью Apache Spark и рассмотрим особенности Structured Streaming в новой версии этого популярного Big Data фреймворка. Читайте далее про Stateless и Stateful приложений в реальном времени, управление состояниями, связь DStream с RDD и UI в Spark Structured Streaming. Состояния в...

12Окт
2020

Ускорение в 40 раз и другие фишки SparkR в Apache Spark 3.0

Автор Анна Вичуговав категории Spark, Блог

Spark, обработка данных, большие данные, Big Data, SQL, Python, R

Вчера мы рассказывали про нововведения в Apache Spark 3.0 и упомянули про улучшения в SparkR. Сегодня рассмотрим, почему в новой версии фреймворка вызов пользовательских функций стал быстрее в 40 раз и какие еще проблемы работы с R были решены в этом релизе. Что не так со SparkR: десериализация и особенности...

11Окт
2020

Apache Spark 3.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Spark, обработка данных, большие данные, Big Data, SQL, Python, R, PySpark

Чтобы сделать наши курсы по Spark еще более интересными и добавить в них самые актуальные тренды, сегодня мы расскажем о новом релизе этого Big Data фреймворка. Читайте далее, что нового в Apache Spark 3.0 и почему Spark SQL стал еще лучше. 10 лет в Big Data или немного истории В...

10Окт
2020

Линейная регрессия, регуляризация, кросс-валидация и Grid Search в PySpark

Автор administratorв категории Machine Learning, Spark, Блог

В прошлый раз мы говорили о решении задачи классификации в рамках Machine Learning с помощью PySpark MLlib. Сегодня рассмотрим задачу регрессии. Читайте далее: что такое линейная регрессия, L1 и L2 регуляризация, алгоритм подбора значений гиперпараметров Grid Search, а также применение кросс-валидации в PySpark. Датасет с домами на продажу Обучать модель...

12Сен
2020

Как подключить PySpark и Kaggle в Google Colab

Автор administratorв категории Spark, Блог

Недавно мы рассказывали, что такое PySpark. Сегодня рассмотрим, как подключить PySpark в Google Colab, а также как скачать датасет из Kaggle прямо в Google Colab, без непосредственной загрузки программ и датасетов на локальный компьютер. Google Colab Google Colab — выполняемый документ, который позволяет писать, запускать и делиться своим Python-кодом через...

11Сен
2020

Чем Apache Zeppelin лучше Jupyter Notebook для интерактивной аналитики Big Data: 4 ключевых преимущества

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Livy, Python, Spark, архитектура, обработка данных, Big Data, большие данные, безопасность, security, Hadoop, PySpark, Arenadata, Apache Zeppelin, Jupyter Notebook

В этой статье мы рассмотрим, что такое Apache Zeppelin, как он полезен для интерактивной аналитики и визуализации больших данных (Big Data), а также чем этот инструмент отличается от популярного среди Data Scientist’ов и Python-разработчиков Jupyter Notebook. Что такое Apache Zeppelin и чем он полезен Data Scientist’у Начнем с определения: Apache...

10Сен
2020

Как управлять собственным Data Flow на Apache Spark с NiFi через Livy: разбираемся с процессорами и контроллерами

Автор Анна Вичуговав категории NiFi, Spark, Use Cases, Блог

Livy, Spark, архитектура, обработка данных, Big Data, большие данные, Hadoop, NiFi, PySpark, Python, ETL

Apache Livy полезен не только при организации конвейеров обработки больших данных (Big Data pipelines) на Spark и Airflow, о чем мы рассказывали здесь. Сегодня рассмотрим, как организовать запланированный запуск пакетных Spark-заданий из Apache NiFi через REST-API Livy, с какими проблемами можно при этом столкнуться и что поможет их решить. Что...

08Сен
2020

Что под капотом Apache Livy: принципы и особенности работы со Spark

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

AirFlow, Livy, Python, Spark, архитектура, обработка данных, Big Data, большие данные, безопасность, security

Вчера мы рассказывали про особенности совместного использования Apache Spark с Airflow и достоинства подключения Apache Livy к этой комбинации популярных Big Data фреймворков. Сегодня рассмотрим подробнее, как работает Apache Livy, а также за счет чего этот гибкий API обеспечивает удобство работы с Python-кодом и общие Spark Context’ы для разных операторов...

07Сен
2020

Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов

Автор Анна Вичуговав категории AirFlow, Internet of Things, Spark, Use Cases, Блог

Spark, Airflow, обработка данных, архитектура, Livy, большие данные, Big Data

Сегодня поговорим про построение конвейеров обработки данных (data pipeline) на примере совместного использования Apache Spark с Airflow и рассмотрим типовые проблемы этой комбинации. Читайте в нашей статье, как автоматизировать задачи пакетной и потоковой обработки больших данных (Big Data) с помощью гибкого REST-API Apache Livy, включая работу с Python-кодом, отказоустойчивость и...

05Сен
2020

Введение в PySpark

Автор administratorв категории Spark, Блог

Python считается из основных языков программирования в областях Data Science и Big Data, поэтому не удивительно, что Apache Spark предлагает интерфейс и для него. Data Scientist’ы, которые знают Python, могут запросто производить параллельные вычисления с PySpark. Читайте в нашей статье об инициализации Spark-приложения в Python, различии между Pandas и PySpark,...