Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

11Май
2023

Apache Spark 3.4.0: обзор апрельского релиза

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.4.0 новые возможности, Apache Spark 3.4.0 обзор релиза, Spark Structured Streaming SQL PySpark примеры курсы обучение, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

12 апреля 2023 года вышел очередной релиз Apache Spark. Разбираемся с самыми главными новинками этого выпуска, которые порадуют аналитиков, разработчиков, инженеров данных и специалистов по Data Science. Расширенная поддержка Python, улучшения Spark SQL и Structured Streaming. Обновления Spark SQL и новинки для пользователей Python Apache Spark 3.4.0 — это пятый...

10Май
2023

Пишем Python-скрипт для работы с графом в Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

Cypher Python Neo4j AuraDB графы примеры курсы обучение, обучение Neo4j примеры, курсы дата-аналитик Neo4j Python примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, Cypher Python Neo4j примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня решим логистическую задачу поиска кратчайшего пути, создав граф знаний в Neo4j, развернутой в облачной платформе Aura DB и визуализируем найденный путь с помощью Python-библиотеки Networkx. Работа с Neo4j в AuraDB В прошлой статье мы упоминали, что для работы с популярной графовой СУБД Neo4j совсем необязательно устанавливать ее локально. Можно...

09Май
2023

Архитектура MLOps и управление инфраструктурой как кодом

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение, курсы дата-инженеров ML, Machine Learning для инженеров и архитекторов примеры курсы обучение, архитектура и инфраструктура MLOps, Школа Больших Данных Учебный Центр Коммерсант

Из каких компонентов состоит архитектура MLOps, что такое инфраструктура как код, как управлять ею с помощью скриптов и почему это нужно на каждом этапе жизненного цикла моделей Machine Learning. Жизненный цикл ML-модели и MLOps MLOps – это набор методов и техник машинного обучения вместе с лучшими практиками разработки, развертывания и...

08Май
2023

Как подключиться к Greenplum: обзор клиентов и настройка конфигураций

Автор Анна Вичуговав категории Greenplum, Блог

подключение к Greenplum, администрирование кластера Greenplum, обучение администраторов и дата-инженеров администраторов Greenplum, Arenadata DB курсы обучение Greenplum, Greenplum кластер, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, хранение и аналитика больших данных с Greenplum, курсы Arenadata DB, обучение Arenadata DB, Школа Больших Данных Учебный Центр Коммерсант

Через какие интерфейсы пользователи и клиентские приложения могут подключиться к базе данных Greenplum, как происходит подключение, какие параметры и конфигурации надо задать при этом, а также почему для этого так важна библиотека libpq. Параметры подключения к Greenplum Пользователи могут подключаться к базе данных Greenplum с помощью клиентской программы, совместимой с...

07Май
2023

3 ошибки дата-инженера при использовании Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

шаблоны группы процессоров и процессоры Apache NiFi, курсы Apache NiFi администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Как сделать Apache NiFi еще эффективнее, избежав трех самых популярных ошибок дата-инженера. Разбираемся с автоматизацией операций развертывания, скриптовыми процессорами, а также шаблонами и реестром NiFi для развертывания потоков данных. Ошибка №1: ручное развертывание Хотя Apache NiFi имеет мощный пользовательский интерфейс для проектирования конвейеров потоковой обработки данных, его не стоит рассматривать...

06Май
2023

2 способа удалить сообщения из топика Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

как удалить сообщения из топика Kafka, Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Почему в Apache Kafka нет функций очистки топика и как же все-таки удалить из него все сообщения, если очень нужно, используя конфигурации retention и другие приемы администрирования кластера. Политика очистки и конфигурации retention В отличие от брокеров сообщений, которые после отправки данных приложениям-потребителям, удаляют их из очереди, Apache Kafka хранит...

05Май
2023

Мониторинг загрузки ЦП для приложений Apache Flink с Flame Graph

Автор Анна Вичуговав категории Flink, Блог

Flame Graph Разработка и отладка Flink-приложений, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о важности отслеживания системных метрик приложений Apache Flink и RocksDB, используемой этим фреймворком для хранения состояния stateful-заданий. Сегодня рассмотрим, как отследить потребление ресурсов ЦП средствами встроенной визуализации Flame Graphs. Что такое Flame Graph и зачем это нужно? Помимо мониторинга длительности выполнения задач и заданий, дата-инженерам и разработчикам...

04Май
2023

Блеск и нищета микросервисной архитектуры для платформы данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

микросервисы в Big Data, архитектура данных, архитектура платформы данных, архитектор данных дата-инженер проектирование микросервисов примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем проблемы микросервисной архитектуры для платформ данных и способы их решения, а также вспомним 5 популярных шаблонов развертывания, которые могут смягчить риски от внедрения новых версий многокомпонентной системы. Проблемы микросервисной архитектуры для платформы данных и способы их решения При всех плюсах микросервисной архитектуры (автономность, гибкость, масштабируемость, простота развертывания, технологическая...

03Май
2023

Хранение и обработка JSON-документов в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

JSON Greenplum примеры курсы обучение, Greenplum JSONPath PostgreSQL примеры курсы обучение, обработка документов в Greenplum и PostgreSQL , обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Чем тип JSONB отличается от JSON и почему это так важно для хранения и обработки данных гибкой структуры в Greenplum. Примеры SQL-запросов к JSON-данным и особенности синтаксиса JSONPath. Чем JSONB отличается от JSON и почему это так важно? Будучи основанной на PostgreSQL, Greenplum имеет множество аналогичных возможностей, включая поддержку работы...

02Май
2023

Проблемы shuffle-операций в Spark SQL и способы их решения

Автор Анна Вичуговав категории Spark, Блог

shuffle Spark SQL, обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Apache Spark примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Почему на самом деле нельзя избежать shuffle-операций в Spark SQL, в чем разница перетасовки RDD и датафреймов, а также как сократить негативное влияние перемешивания данных по узлам кластера, настроив конфигурации распределенного приложения. Что такое shuffle-операции в Apache Spark SQL и зачем они нужны Распределенный характер вычислительного движка Apache Spark позволяет...