Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

28Ноя
2020

Автор Dmitry Ermilovв категории Machine Learning, Spark, Блог

Обработка данных является одной из самых первоочередных задач анализа Big Data. Сегодня мы расскажем о самых полезных преобразованиях PySpark, которые можно выполнить над столбцами. Читайте далее, как привести значения к 0 или 1, как преобразовать из строк в числа и обратно, а также как обработать недостающие значения(Nan) с примерами в...

27Ноя
2020

От open-source до Confluent: 3 клиента Python для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

курсы по Apache Kafka, Kafka обучение, обучение большим данным, Кафка для разработчиков, Apache Kafka for developers, Apache Kafka Python, обработка данных, большие данные, Big Data, Kafka, Python, librdkafka, PyKafka, Kafka-Python

Развивая наш новый курс по Apache Kafka для разработчиков, сегодня мы рассмотрим 3 способа о взаимодействии с этой популярной Big Data платформой потоковой обработки событий с помощью языка Python, который считается самым распространенным инструментом в Data Science. Читайте далее, что такое librdkafka, чем PyKafka отличается от Kafka-Python и почему решение...

26Ноя
2020

Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Apache Kafka, Kafka обучение, обучение большим данным, аналитика больших данных, курсы аналитик Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, предиктивная аналитика, ритейл, цифровая трансформация, цифровизация, SQL, DWH, облака

Интерактивная аналитика больших данных - одно из самых востребованных и коммерциализированных приложений для технологий Big Data. В этой статье мы рассмотрим, как крупный британский ритейлер запустил цифровую трансформацию своей ИТ-архитектуры, уходя от традиционного DWH с пакетной обработкой к событийно-стриминговой облачной платформе на базе Apache Kafka и Snowflake. Зачем модному ритейлеру...

25Ноя
2020

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

обучение инженеров данных, курсы по инженерии больших данных, Data Engineer курсы, инженер Big Data обучение, Big Data, Большие данные, обработка данных, архитектура, DataOps, DWH, Kafka, Delta Lake, Data Lake, NiFi, Spark

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным массивам Big Data, применяя передовые методы проектирования данных и реализации конвейеров их обработки. В этой статье мы собрали для вас...

24Ноя
2020

Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

аналитика больших данных курсы, обучение ИТ-архитекторов, архитектура больших данных курсы, обучение архитектуре данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, DataOps, DWH

Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации Airbnb. Читайте далее про лучшие практики повышения качества больших данных от компании-разработчика самого популярного DataOps-инструмента в мире Big Data, Apache...

23Ноя
2020

Комбо Apache Spark и Greenplum для быстрой аналитики больших данных: разбор интеграционного коннектора

Автор Анна Вичуговав категории Greenplum, Spark, Use Cases, Блог

курсы по Apache Spark, обучение Spark, курсы по Greenplum, обучение Greenplum, курсы по Arenadata DB, обучение Arenadata DB, курсы доя инженеров данных, обучение дата-инженеров, обработка данных, большие данные, Big Data, Spark, Greenplum, ETL, Arenadata, архитектура

Продолжая разговор про обучение Apache Spark для инженеров данных на практических примерах, сегодня разберем, как организовать интеграцию этого Big Data фреймворка с MPP-СУБД Greenplum. В этой статье мы расскажем о коннекторе Greenplum-Spark, который позволяет эффективно связывать эти средства работы с большими данными, выстраивая аналитический конвейер их обработки (data pipeline). Типовые...

20Ноя
2020

Как создать свой коннектор Apache Spark: пример интеграции с Tableau

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, обучение Apache Spark, Apache Spark for developres, Apache Spark integration, обработка данных, большие данные, Big Data, Spark, Data Lake, Greenplum, Python

Говоря про практическое обучение Apache Spark для дата-инженеров, сегодня рассмотрим особенности разработки собственного коннектора для этого фреймворка на примере его интеграции с BI-системой Tableau. Читайте далее, как конвертировать Spark RDD в нужный формат и сделать свой коннектор удобным для пользователей. Интеграция Spark с внешними источниками данных через коннекторы Apache Spark...

19Ноя
2020

Помнить все: как устранить утечки памяти в приложениях Apache Spark – 7 советов от Disney

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы Spark, обучение Apache Spark, обработка данных, большие данные, Big Data, Spark

Сегодня рассмотрим Apache Spark с важной для разработчиков распределенных приложений точки зрения, разобрав как в рамках этого Big Data фреймворка справиться с утечками данных при их потоковой передаче. Читайте далее, почему возникает OutOfMemory Exception в Spark-приложениях и как дата-инженеры компании Disney решили эту проблему с нехваткой памяти для JVM. Зачем...

18Ноя
2020

Как очистить большие данные для Apache Spark SQL: краткий обзор Cleanframes

Автор Анна Вичуговав категории Spark, Блог

обработка данных, большие данные, Big Data, Spark, SQL, курсы по Spark SQL, обучение Apache Spark

Поскольку курсы по Apache Spark нужны не только разработчикам распределенных приложений, но и аналитикам больших данных с дата-инженерами, сегодня мы рассмотрим, какие средства этого фреймворка позволяют выполнять очистку данных и повышать их качество. Читайте далее, что такое Cleanframes в Spark SQL, чем полезна эта библиотека и каковы ее ограничения. Apache...

17Ноя
2020

Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Kafka, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, Druid, Kafka, обработка данных, архитектура, SQL

В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем самой популярной стриминговой компании отслеживать показатели клиентских устройств и как это реализуется с помощью Apache Druid, Kafka и других технологий...