Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

24Сен
2023

Что нас ждет в Apache NiFi 2.0: главные новинки

Автор Анна Вичуговав категории NiFi, Блог

обновления и возможности Apache NiFi, Apache NiFi 2.0, Apache NiFi проектирование потока данных, Apache NiFi для дата-инженеров примеры курсы обучение, обучение инженеров данных Apache NiFi, Школа Больших Данных Учебный Центр Коммерсант

Опубликованная впервые в 2016 году 1-ая версия Apache NiFi дополняется новыми минорными релизами, последним из которых стал 1.23.2, исправляющий ошибки предыдущих выпусков. Однако, в обозримом будущем ожидается мажорный релиз 2.0 со множеством новых возможностей. Разбираемся с его наиболее перспективными предложениями. ТОП-10 целей Apache NiFi 2.0 Чтобы повысить безопасность, снизить сложность...

23Сен
2023

Уязвимости Apache AirFlow в 2023 году: от средних до критических

Автор Анна Вичуговав категории AirFlow, Блог

безопасность Apache Airflow, уязвимости Apache Airflow, ошибки баги и опасность Apache Airflow, курсы Airflow, Apache Airflow примеры курсы обучение для дата-инженера и разработчика, Школа Больших Данных Учебный Центр Коммерсант

Какие ошибки и угрозы нарушения безопасности были обнаружены в Apache AirFlow в 2023 году: обзор уязвимостей и способы их устранения. 9 уязвимостей среднего уровня серьезности В текущем году в Apache AirFlow было обнаружено 15 уязвимостей разной степени критичности. К наименее серьезным с маркировкой Medium и оценкой от 4 до 6.9...

22Сен
2023

Как устроено сжатие сообщений в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

сжатие и публикация сообщений в Kafka, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, примеры сжатия сообщения Apache Kafka, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Зачем сжимать сообщения при их публикации в Apache Kafka, как устроен механизм сжатия и какие конфигурации задавать для его эффективного использования. Сжатие сообщений в Kafka: причины использования и принципы работы Единицей параллелизма в Apache Kafka является раздел топика, куда приложение-продюсер отправляет сообщение, чтобы его мог считать потребитель, назначенный на этот...

21Сен
2023

Почему производительность Apache Flink выше Spark: 5 главных причин

Автор Анна Вичуговав категории Flink, Spark, Блог

Spark vs Flink, сходства и различия Spark vs Flink, Flink примеры курсы обучение, курсы Spark, обучение Apache Spark, Spark SQL курсы обучение примеры, Spark vs Flink сравнение, Apache Spark Flink для инженеров и разработчиков, анализ больших данных с Apache Spark Flink, аналитика Big Data с Apache Spark Flink курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Из-за чего приложения Flink работают быстрее Spark: разница в моделях обработки данных, управлении памятью, методах оптимизации, дизайне API и личный опыт использования. Apache Flink vs Spark: сходства и отличия Apache Spark и Flink считаются наиболее популярными фреймворками разработки распределенных приложений в области Big Data. Они достаточно похожи, что мы ранее...

20Сен
2023

Чем Scala лучше Java для разработки Spark-приложения: ТОП-5 преимуществ

Автор Анна Вичуговав категории Spark, Блог

Apache Spark Scala vs Java vs Python, PySpark Spark Scala Java JVM примеры курсы обучение, разработка приложений Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как разница между Scala и Java отражается на работе Spark-приложения, почему код на Scala работает быстрее и когда выбирать этот язык программирования для разработки приложений аналитики больших данных. Scala vs Java: ключевые отличия Хотя Apache Spark позволяет разработчику писать код на нескольких языках программирования (Scala, Java, R, Python), сам фреймворк...

19Сен
2023

Сжатие данных в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

сжатие таблиц Greenplum, Greenplum курсы, сжатие данных Greenplum примеры курсы обучение, использование Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Как включить сжатие данных в Greenplum, какие алгоритмы сжатия поддерживает эта MPP-СУБД и можно ли установить разные параметры сжатия для отдельных столбцов и разделов больших таблиц. Примеры SQL-запросов и рекомендацию по настройке. Как Greenplum сжимает данные: примеры настроек и SQL-запросов Эффективное сжатие данных позволяет Greenplum снижать потребление памяти и повышать...

18Сен
2023

Event Streaming vs Event Sourcing: 2 паттерна проектирования EDA-архитектуры

Автор Анна Вичуговав категории Kafka, NoSql, Use Cases, Блог

Event Streaming vs Event Sourcing, паттерны проектирования EDA архитектуры, архитектура данных примеры курсы обучение, курсы Apache Kafka, курсы по Кафка, обучение Кафка, курсы Kafka Event Streaming Event Sourcing, курсы для архитекторов данных, обучение Big Data для разработчиков и архитекторов, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

В чем разница между потоковой передачей событий и источником событий и при чем здесь Apache Kafka: разбираемся с паттернами проектирования событийно-ориентированной архитектуры. 2 паттерна проектирования EDA-архитектуры Напомним, что сегодня для построения сложных систем, зачастую состоящих из множества взаимодействующих компонентов, и реактивно реагирующих на события внешнего мира, активно используется идея архитектуры,...

17Сен
2023

RAG-приложения и Neo4j: поддержка векторного индекса для LLM

Автор Анна Вичуговав категории Machine Learning, Neo4j, NoSql, Блог

векторная индексация в Neo4j, графы и машинное обучение, LLM и RAG, LLM RAG большие языковые модели примеры курсы обучение, Neo4j RAG LLM, Machine Learning Deep Learning, ИИ графы и векторные СУБД, машинное обучение, nosql Neo4j ML, обучение Data Science примеры курсы обучение, NoSQL векторные базы данных ИИ примеры курсы обучение, MLOps архитектура больших данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что не так с большими языковыми моделями, как RAG-приложения расширяют возможности LLM и зачем в графовой СУБД Neo4j добавлена поддержка векторного индекса. Зачем нужны RAG-приложения: ограничения базовых LLM-сетей С появлением ChatGPT и других генеративных нейросетей, большие языковые модели (LLM, Large Language Models) стали активно применяться для решения множества бизнес-задач, связанных...

16Сен
2023

Происхождение данных в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

Data Provenance vs Data Lineage, Data Provenance Apache NiFi, Apache NiFi происхождение данных, изменение потока данных история Apache NiFi, Apache NiFi для дата-инженеров примеры курсы обучение, обучение инженеров данных Apache NiFi, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про спецификацию OpenLineage, которая позволяет обеспечить мониторинг происхождения данных в Apache AirFlow. Сегодня рассмотрим, в чем разница Data Lineage и Data Provenance, а также, как потоковый маршрутизатор Apache NiFi организует отслеживание событий генерации и изменения данных. Data Lineage vs Data Provenance Сначала рассмотрим, чем отличается Data Provenance...

15Сен
2023

Apache Spark 3.5.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.5.0 обновления и улучшения, PySpark Spark SQL примеры курсы обучение, машинное обучение Spark, Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

13 сентября 2023 года вышел Apache Spark 3.5. Знакомимся с самыми важными новинками свежего релиза: расширения Spark Connect и SQL, поддержка DeepSpeed, улучшения потоковой передачи и свежие UDF-функции Python. ТОП-5 новинок Apache Spark 3.5.0 В Apache Spark 3.5. добавлено много исправлений и улучшений, а также реализованы новые функции. Наиболее интересными...

13Сен
2023

Что такое OpenLineage и как это связано с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

Apache Airflow OpenLineage, OpenLineage происхождение данных спецификация, Airflow OpenLineage для дата-инженера, инженерия данных Airflow, Airflow Airflow OpenLineage обзор, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, Школа Больших Данных Учебный Центр Коммерсант

Как Apache AirFlow отслеживает происхождение данных, какова структура спецификации OpenLineage, чем она схожа с OpenAPI, какие инструменты позволяют сформировать эту документацию и чем она полезна. Что такое OpenLineage В области инженерии данных и управления конвейерами их обработки очень важно понятие происхождения данных (Data Lineage). Это концепция отслеживания и визуализации данных...

12Сен
2023

2 режима развертывания приложений Apache Flink: что и когда выбирать

Автор Анна Вичуговав категории Flink, Блог

Flink режимы развертывания заданий в кластере, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Какие режимы развертывания заданий поддерживает Apache Flink и чем они отличаются. Достоинства и недостатки режима сеанса и режима приложения, а также варианты использования. Особенности развертывания приложения Apache Flink Режим развертывания определяет, с каким уровнем изоляции ресурсов задание Flink будет выполняться в кластере. Напомним, выполнение задания Apache Flink включает 3 объекта:...

11Сен
2023

Модульное тестирование в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

разработка и тестирование NiFi, процессоры Apache NiFi, курсы Apache NiFi дата-инженер обучение администратор, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Школа Больших Данных Учебный центр Коммерсант

Как тестировать пользовательские процессоры и службы контроллера Apache NiFi: знакомимся с методами интерфейса TestRunner в модуле nifi-mock. Как создать тестовый объект, настроить его и проверить валидность работы собственного компонента Apache NiFi. Тестирование компонентов Apache NiFi: создание тестовых объектов и их настройка Будучи разработанным на Java, Apache NiFi позволяет использовать возможности...

10Сен
2023

Swagger для асинхрона: составляем спецификацию AsyncAPI на примере Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

спецификация AsyncAPI Kafka для аналитиков и разработчиков примеры курсы обучение, Kafka EDA архитектура, Kafka для архитекторов и разработчиков, архитектура данных и приложений Big Data Kafka обучение примеры курсы, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka и дата-инженеров, проектирование архитектуры приложений Kafka, Kafka EDA примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Что такое AsyncAPI, зачем документировать спецификацию для EDA-архитектур и как это сделать. Создаем свою спецификацию для Apache Kafka с помощью веб-инструмента AsynсAPI Studio. Что такое AsyncAPI Подобно тому, как Swagger (OpenAPI ) стал стандартом де-факто для описания синхронного REST API, включая HTTP-методы запросов и ответы приложения на них со структурами...

09Сен
2023

Что такое SPIP: 4 предложения по улучшению Apache Spark

Автор Анна Вичуговав категории Spark, Блог

улучшения и развитие Apache Spark , Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, какие улучшения Apache Spark опубликованы в 2023 году и как подать свое предложение по улучшению самого популярного вычислительного движка в стеке Big Data. Что такое SPIP и как подать свое предложение по улучшению фреймворка В любом продукте помимо ошибок есть также предложения по улучшению. В Apache Spark они...

03Сен
2023

Инструменты для ETL и миграций графовой базы данных Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

миграция базы данных ETL NoSQL Neo4j примеры курсы обучение, графы Neo4j ETL, графовые алгоритмы на больших данных примеры курсы обучение, графы графовые базы данных СУБД NoSQL примеры курсы обучение, обработка графовых данных графы, обучение NoSQL Neo4j курсы, NoSQL Neo4j для архитекторов аналитиков инженеров данных и разработчиков, NoSQL Neo4j Data Science, хранение и аналитика больших данных графовые базы данных NoSQL, Школа Больших Данных Учебный центр Коммерсант

Как организовать миграцию схемы Neo4j и импортировать в графовую базу данные из реляционных систем. Знакомимся с инструментами проекта Neo4j Labs: Neo4j-ETL и Neo4j-Migrations. Как работает Neo4j-ETL В рамках развития своих продуктов, таких как графовая СУБД Neo4j и экосистема элементов вокруг нее (Graph Data Science, Neo4j Bloom, Neo4j Browser и пр.),...

02Сен
2023

Apache AirFlow vs Spark в Databricks для оркестрации рабочих процессов

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Apache Spark AirFlow дата-инженер примеры курсы обучение, анализ данных Spark, Spark дата-инженерия Apache AirFlow примеры курсы обучение, Spark Databrics AirFlow сравнение что лучше, оркестрация процессов с Apache Spark в Databricks и AirFlow примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чем отличается оркестрация ETL-процессов в Databricks и Apache AirFlow: принципы работы, достоинства и недостатки, а также что выбирать дата-инженеру для решения практических задач. Apache AirFlow vs Spark в Databricks: сходства и отличия Облачная платформа Databricks, основанная на Apache Spark, предлагает пользователям единую среду для создания, запуска и управления различными рабочими...

01Сен
2023

Параллельное восстановление таблицы из резервной копии базы в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

DDL разделы таблиц Greenplum 7, администрирование Greenplum бэкапы восстановление, партиционирование таблиц Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Почему в Greenplum 7 восстановление данных из резервной копии базы стало медленнее и как разработчики это исправили: причины замедления и способы их устранения. SQL-синтаксис и восстановление из бэкапа Напомним, 7-ой релиз Greenplum имеет много интересных и полезных функций, включая возможность определять партиционированную таблицу без определения дочерних разделов и изменять таблицы...

30Авг
2023

Программируй на английском: ИИ-SDK для PySpark от Databricks

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

LLM AI MLOps Spark, MLOPS PySpark-AI примеры курсы обучение, Spark примеры курсы обучение AI ИИ, PySpark-AI English SDK Databricks курсы Machine Learning для дата-инженеров и аналитиков, обучение Machine Learning Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Как получать результаты обработки данных с помощью Apache Spark, адресуя ИИ бизнес-запросы на английском языке: знакомимся с English SDK от Databricks. Настоящий Low Code с PySpark-AI. English SDK for Apache Spark и PySpark-AI: как это работает Большие языковые модели (LLM, Large Language Model), основанные на генеративных нейросетях, применимы не только...

26Авг
2023

Apache Kafka, BPMS и оркестрация процессов: versus или вместе

Автор Анна Вичуговав категории Kafka, Блог

BPMS Kafka примеры, Kafka для архитекторов и разработчиков, архитектура данных и приложений Big Data Kafka обучение примеры курсы BPMS, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka и дата-инженеров, проектирование архитектуры приложений Kafka, Kafka EDA примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Может ли Apache Kafka поддерживать не только хореографический стиль взаимодействия между разными сервисами, кто и как организует оркестрацию рабочих процессов с помощью этой распределенной платформой потоковой передачи и почему она не заменит BPM-движки. Оркестрация событий с Apache Kafka При использовании Apache Kafka в архитектуре, управляемой событиями (EDA, Event Driven Architecture),...