Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

30Авг
2023

Программируй на английском: ИИ-SDK для PySpark от Databricks

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

LLM AI MLOps Spark, MLOPS PySpark-AI примеры курсы обучение, Spark примеры курсы обучение AI ИИ, PySpark-AI English SDK Databricks курсы Machine Learning для дата-инженеров и аналитиков, обучение Machine Learning Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Как получать результаты обработки данных с помощью Apache Spark, адресуя ИИ бизнес-запросы на английском языке: знакомимся с English SDK от Databricks. Настоящий Low Code с PySpark-AI. English SDK for Apache Spark и PySpark-AI: как это работает Большие языковые модели (LLM, Large Language Model), основанные на генеративных нейросетях, применимы не только...

26Авг
2023

Apache Kafka, BPMS и оркестрация процессов: versus или вместе

Автор Анна Вичуговав категории Kafka, Блог

BPMS Kafka примеры, Kafka для архитекторов и разработчиков, архитектура данных и приложений Big Data Kafka обучение примеры курсы BPMS, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka и дата-инженеров, проектирование архитектуры приложений Kafka, Kafka EDA примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Может ли Apache Kafka поддерживать не только хореографический стиль взаимодействия между разными сервисами, кто и как организует оркестрацию рабочих процессов с помощью этой распределенной платформой потоковой передачи и почему она не заменит BPM-движки. Оркестрация событий с Apache Kafka При использовании Apache Kafka в архитектуре, управляемой событиями (EDA, Event Driven Architecture),...

25Авг
2023

Зачем вам Neosemantics: RDF-триплеты в Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

RDF триплеты графы Neo4j Neosemantics, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j Neosemantics RDF курсы, NoSQL Neo4j Neosemantics для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j Neosemantics RDF Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Что такое триплеты, чем они отличаются от обычных графов свойств и где используются на практике. Знакомимся с RDF и возможностями графовой СУБД Neo4j работать с этой структурой описания веб-ресурсов с помощью плагина Neosemantics. Что такое триплеты и при чем здесь RDF Триплеты (triples) — это текстовый формат, используемый для хранения...

23Авг
2023

Как Apache Flink работает с файловыми системами

Автор Анна Вичуговав категории Flink, Блог

Flink HDFS S3 GCS файловая система, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Какие файловые системы поддерживает Apache Flink: средства взаимодействия с файлами, хранящимися локально или в объектных хранилищах HDFS, S3 и GCS. Особенности работы с файловыми системами в Apache Flink Apache Flink имеет собственную абстракцию файловой системы через класс org.apache.flink.core.fs.FileSystem. Эта абстракция обеспечивает общий набор операций и минимальные гарантии для различных типов...

22Авг
2023

Квотирование в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Квотирование клиентских запросов в Kafka, продюсеры и потребители Kafka, Kafka управление ресурсами брокера, курсы Apache Kafka для дата-инженера разработчика и администратора кластера, Apache Kafka Примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое квоты в Apache Kafka и как этот механизм позволяет управлять ресурсами брокера, предупреждая DDOS-атаки от слишком активных потребителей и продюсеров. Разбираемся с типами клиентских квот, их конфигурациями и принципами работы. Квоты клиента и пользователя в Apache Kafka Чтобы управлять ресурсами брокера, кластер Kafka может применять квоты на запросы...

19Авг
2023

Отладка PySpark-приложений: журнал регистрации событий

Автор Анна Вичуговав категории Spark, Блог

отладка тестирование логирование PySpark, Spark логирование отладка примеры курсы обучение, Apache Spark для разработчиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим особенности отладки PySpark-приложений: как Python-код исполняется в JVM, какие сложности возникают у разработчика при тестировании и исправлении ошибок в программе, написанной локально и запускаемой в кластере, а также как настроить вывод событий в лог-файл. Запуск и выполнение PySpark-кода Хотя Apache Spark и имеет Python API, позволяя писать код...

18Авг
2023

Apache AirFlow 2.7: обзор августовского релиза

Автор Анна Вичуговав категории AirFlow, Блог

Apache Airflow для дата-инженера и администратора кластера, администрирование Airflow , Airflow 2.7 обзор, новинки Apache Airflow, Apache Airflow DAG GUI, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

14 августа 2023 года вышел очередной релиз Apache AirFlow . Разбираем его самые главные новые возможности, улучшения и исправления ошибок: отказ от Python 3.7, задачи установки/демонтажа, встроенная поддержка спецификации OpenLineage, обновления интерфейса, упрощение управления сложными зависимостями и другие фичи Apache AirFlow 2.7. Задачи установки/демонтажа Apache AirFlow 2.7 содержит более 35...

17Авг
2023

Обогащение потока данных в Apache Flink: 3 способа добавить эталонные значения

Автор Анна Вичуговав категории Flink, Блог

Apache Flink обогащение потока данных, обучение Flink, курсы Flink, Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковое обогащение данных, зачем это нужно и как оно реализуется в Apache Flink. Проблемы и решения предварительной загрузки справочных данных в память, синхронного и асинхронного поиска в источнике по каждой записи и организация потоковой передачи событий. 3 способа загрузить эталонные (справочные) данных в Apache Flink для обогащения потока...

16Авг
2023

Гиперграфы и их реализация в HyperGraphDB

Автор Анна Вичуговав категории NoSql, Блог

гипеграфы HyperGraphDB, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j HyperGraphDB курсы, NoSQL Neo4j HyperGraphDB для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j HyperGraphDB Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Чем гиперграфы отличаются от обычных графов знаний, где они используются на практике и как эта математическая концепция поддерживается в NoSQL-СУБД HyperGraphDB. Что такое гиперграф Гиперграф — это графовая модель данных, в которой отношения (гиперребра) могут соединять любое количество заданных узлов. Можно сказать, что это обобщение графа, в котором каждым ребром...

15Авг
2023

Как проект Lightspeed от Databricks делает Apache Spark еще быстрее: асинхронное управление смещениями

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка приложений для разработчика примеры курсы обучение, Spark Databrics Lightspeed примеры курсы обучение, Apache Spark Structured Streaming примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

В прошлом году Databricks выпустили новый проект для ускорения потоковой передачи в Apache Spark. Сегодня рассмотрим, как именно Lightspeed сокращает задержку в операционных рабочих нагрузках Structured Streaming с помощью асинхронного управления смещением. Операционные рабочие нагрузки и что их тормозит в Apache Spark Structured Streaming Рабочие нагрузки потоковой передачи можно разделить...