Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

19Апр
2023

Знакомство с DataStream API в Apache Flink: запуск PyFlink-скрипта в Google Colab

Автор Анна Вичуговав категории Flink, Kafka, Блог

PyFlink Google Colab, Apache Flink Python Colab Kafka, обучение Flink Kafka, Upstash Kafka, курсы Kafka Flink, Kafka serverless, Apache Kafka и Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Как использовать DataStream API в Apache Flink: пишем потребителя из Kafka и запускаем скрипт в Google Colab. StreamExecutionEnvironment и методы коллекций потока данных в PyFlink. DataStream API в Apache Flink: PyFlink в Google Colab для работы с Kafka Apache Flink предоставляет множество возможностей разработчикам на Scala и Java, а также...

18Апр
2023

Зачем вам Chango: новая платформа данных для архитектуры LakeHouse

Автор Анна Вичуговав категории NoSql, Блог

потоковая обработка событий в Big Data, архитектура данных, архитектура платформы данных, Lakehouse Chango, Data Lakegouse, Trino движок SQL, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать гибридную архитектуру данных Lakehouse на новой платформе Chango с движком обработки распределенных запросов Trino без дополнительного развертывания кластера Kafka и разработки Spark-приложений потоковой передачи событий. Что такое Trino: принципы работы распределенного SQL-движка О том, что представляет собой новая гибридная архитектура данных под названием Lakehouse, мы подробно писали здесь,...

17Апр
2023

Статистика vs глубокое обучение для анализа данных временных рядов: что выбрать?

Автор Анна Вичуговав категории Machine Learning, Блог

анализ данных временных рядов, машинное обучение, глубокое обучение, Data Science, курсы примеры обучение Data Science Big Data анализ данных, прогнозирование временных рядов, Школа Больших Данных Учебный Центр Коммерсант

Проблемы анализа данных временных рядов и способы их решения: какие статистические методы и алгоритмы глубокого обучения лучше подходят для прогнозирования. Особенности прогнозирования временных рядов Напомним, временным рядом считается набор данных, каждая точка которого привязана ко времени (час, минуты, дни, месяцы, годы и прочие периоды). Эти данные имеют динамический характер и...

16Апр
2023

4 способа попробовать Neo4j: сравнение альтернатив

Автор Анна Вичуговав категории Neo4j, Блог

Cypher Neo4j где попробовать бесплатно AuraDB AuraDS графы примеры курсы обучение, обучение Neo4j примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, Cypher API Neo4j примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Где создать граф знаний и попробовать графовые алгоритмы для решения бизнес-задач: смотрим варианты запуска графовой СУБД на примере Neo4j. 4 варианта запуска Neo4j Neo4j является ярким представителем нереляционных СУБД и относится к категории графовых баз. Она поддерживает специализированные алгоритмы работы с графами, включая поиск путей, выявление сообществ, анализ связей и...

15Апр
2023

Хранимые процедуры и триггеры в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum триггеры хранимые процедуры примеры курсы обучение, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum SQL инженерия данных курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Где и как используются триггеры, чем они отличаются от хранимых процедур, как это реализуется в Greenplum. Создание, изменение и удаление триггеров и ограничения их применения в Greenplum. Что такое хранимые процедуры и триггеры Напомним, хранимые процедуры представляют собой именованные блоки SQL-команд, которые заранее откомпилированы и хранятся на сервере, чтобы ускорить...

14Апр
2023

Настройка службы SSL контекста Apache NiFi в процессоре InvokeHTTP

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi SSL настройка процессора InvokeHTTP примеры курсы обучение, дата-инженерия Apache NiFi безопасность администрирование примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как обеспечить безопасное подключение процессора InvokeHTTP к внешнему API, настроив SSL-службу контекста в Apache NiFi. Краткий ликбез по SSL-соединению и реализации API службы контроллера SSLContextService в Apache NiFi для дата-инженера. Безопасность работы с внешним API с SSL-соединением Apache NiFi включает множество процессоров – обработчиков, которые выполняют определенные действия с потоковыми...

13Апр
2023

Создаем свой оператор Apache AirFlow с ChatGPT

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow custom operator, ChatGPT operator Apache AirFlow, пользовательский оператор Apache AirFlow, машинное обучение дата-инженерия ChatGPT, обучение AirFlow, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Недавно мы разбирали, как дата-инженеру написать собственный оператор Apache AirFlow и использовать его в DAG. Сегодня посмотрим, каким образом с этой задачей справляется модный ИИ под названием ChatGPT. GPT-генерация пользовательского оператора AirFlow Хотя Apache AirFow предоставляет множество операторов для выполнения самых разных задач, иногда дата-инженеру приходится писать свои собственные Python-классы,...

12Апр
2023

2 режима развертывания приложений Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Apache Spark примеры курсы обучение, развертывание Spark-приложения локально, локальный и кластерный режимы развертывания Spark-приложения, развертывание Apache Spark, курсы по Spark для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как разработчику выбрать подходящий режим развертывания для своего Spark-приложения, достоинства и недостатки клиентского и кластерного режимов, а также особенности запуска под управлением YARN. Архитектура и режимы развертывания Spark-приложения Будучи фреймворком для создания приложений быстрой обработки Big Data, Apache Spark имеет несколько режимов развертывания, которые зависят от варианта запуска Spark-приложения: на...

11Апр
2023

Kafka Streams vs Consumer API: 4 сходства и 5 отличий

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams vs Consumer API сходства и отличия, чем похожи и как отличаются Kafka Streams и Consumer API, Kafka Streams Consumer API примеры курсы обучение, обучение Apache Kafka для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что общего у Kafka Streams и Consumer API, чем они отличаются и что выбирать для практического использования: краткое руководство для разработчика приложений потоковой обработки событий. Возможности и ограничения Kafka Streams и Consumer API Поскольку Apache Kafka как огромная экосистема со множеством компонентов для потоковой передачи событий, обилие и разнообразие этих...

10Апр
2023

Как устроен HFile: тонкости хранения данных в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

HFile, HBase, Hadoop, Big Data курсы примеры обучение, Apache HBase дата-инженер разработка файлы курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое HFile, как появился этот низкоуровневый файловый формат, каковы его главные принципы работы, как Apache HBase использует его для хранения и быстрой аналитики больших данных, и при чем здесь фильтр Блума. Роль HFile в Apache HBase Apache HBase реализует возможности Google BigTable для Hadoop. Эта NoSQL-СУБД типа «семейство колонок»...

09Апр
2023

Анализ уязвимостей обработки XML в Apache NiFi за последние 3 года

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi XML уязвимости дата-инженерия безопасность администрирование примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже упоминали, что в Apache NiFi 1.20 устранена уязвимость CVE-2023-22832, связанная с неправильным ограничением ссылок на внешние объекты XML в процессоре ExtractCCDAAttributes. Сегодня более подробно поговорим про проблемы обработки XML-документов в Apache NiFi и способы их решения. Чем опасны внешние сущности в XML Обработка внешних сущностей XML считается довольно проблемной...

08Апр
2023

Потоковые режимы коннектора Flink SQL к Kafka

Автор Анна Вичуговав категории Flink, Блог

Flink Kafka connector SQL, дедупликация Apache Flink SQL примеры курсы обучение, потоковая обработка данных Apache Flink SQL, Apache Flink SQL для дата-инженеров примеры курсы обучение, как удалить дубли в потоковых данных Apache Flink SQL, курсы Apache Flink для разработчиков, обучение большим данным, инженерия Big Data Apache Flink SQL, Школа Больших Данных Учебный Центр Коммерсант

Как не запутаться в многообразии коннекторов к Kafka, доступных во Flink Table API, и выбрать наиболее подходящий для своего сценария применения. Разница между Append Mode и Upsert-режимом коннектора Flink SQL к Kafka. 2 режима работы коннектора Kafka в Apache Flink Apache Flink поставляется с универсальным соединителем Kafka, который поддерживает последнюю...

07Апр
2023

7 критериев выбора потоковой базы данных

Автор Анна Вичуговав категории NoSql, Блог, Цифровая трансформация

потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, СУБД NoSQL потоковая передача, NoSQL курсы примеры обучение, event streaming курсы примеры обучение, архитектура данных курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое потоковая аналитика больших данных, какие бывают СУБД потоковой передачи, когда и зачем их использовать, а также что влияет на выбор этих инструментов хранения и аналитической обработки Big Data. Что такое потоковые базы данных и как они работают Мы уже упоминали, что аналитика данных в реальном времени может быть...

06Апр
2023

Python для Greenplum: обработка миллионов строк внутри БД с новой библиотекой

Автор Анна Вичуговав категории Greenplum, Блог

GreenplumPython Greenplum Python примеры курсы обучение, обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum Python курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чего не хватает в PL/Python и зачем нужна еще одна библиотека для создания Python-скриптов обработки данных в Greenplum. Возможности API GreenplumPython и сравнение с pandas. Что такое PL/Python и как это работает в Greenplum Мы уже писали, что Greenplum изначально поддерживает Python, предоставляя PL/Python – загружаемый процедурный язык, который позволяет...

05Апр
2023

Возможности и ограничения Dataset API в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark SQL, Spark SQL Dataset API для разработчика примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

В Apache Spark есть 3 структуры данных, каждая из которых имеет собственный API со своими достоинствами и недостатками. Сегодня разберем плюсы и минусы Dataset API, а также рассмотрим особенности JOIN-операций в нем. Почему Dataset API в Apache Spark работает только со Scala и Java Напомним, структура данных Dataset впервые появилась...

04Апр
2023

5 проблем с распределенными очередями сообщений и их решения в Apache Kafka с RabbitMQ

Автор Анна Вичуговав категории Kafka, Блог

Kafka vs RabbitMQ очередь сообщений примеры курсы обучение проблемы и решения, очереди в Kafka RabbitMQ примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков и дата-инженеров, обучение Kafka, Apache Kafka vs RabbitMQ, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Какие проблемы характерны для распределенных очередей сообщений, почему они случаются и как с ними справиться. Разбираемся со сбоями, ошибками и перегрузками на примере Apache Kafka и RabbitMQ. Проблемы с распределенными очередями и главные причины их появления Хотя Apache Kafka — это целая экосистема со множеством компонентов для потоковой передачи событий,...

03Апр
2023

Как создать свой оператор и использовать обратные вызовы в Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

callback AirFlow custom operator, обратные вызовы Apache AirFlow, пользовательский оператор Apache AirFlow, обучение AirFlow, курсы AirFlow администратор кластера, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Как написать пользовательский оператор Apache AirFlow и использовать его в DAG. А также чем хороши функции обратного вызова вместо XCom, и когда их не следует применять. Создаем свой оператор AirFlow и используем его в DAG Однажды мы уже разбирали, как создать свой оператор Apache AirFlow на примере сенсора – оператора...

02Апр
2023

Продуктовое мышление в MLOps и метрики оценки ML-модели

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS развертывание ML в production примеры курсы обучение, курсы машинного обучения для дата-инженеров, обучение ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Сегодня посмотрим на MLOps с точки зрения организационного и технического управления, решив вопрос о подходе к разработке ML-системы, а также рассмотрим метрики ее оценки перед развертыванием в production. Управленческий MLOps: 2 подхода к разработке системы Machine Learning Модели машинного обучения могут показывать высокую точность работы своих алгоритмов даже на производственных...

01Апр
2023

Работа с диском в резидентных СУБД на примере Memgraph и Redis

Автор Анна Вичуговав категории NoSql, Блог

архитектура данных, курсы NoSQL HBase Redis Memgraph Neo4j примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про резидентную графовую СУБД Memgraph, которая хранит данные в оперативной памяти. Сегодня рассмотрим, как выгрузить граф знаний из Memgraph на диск с помощью библиотеки GQLAlchemy, а также поговорим про персистентность другого популярного NoSQL-хранилища Redis, которое также является резидентным, но относится к семейству key-value. Как сохранить данные из...

31Мар
2023

Лучшие практики работы с DLQ-очередями в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про очереди недоставленных сообщений в Apache Kafka и RabbitMQ. Сегодня поговорим про стратегии обработки ошибок, связанные с DLQ-очередями в Kafka, а также рассмотрим, какие сообщения НЕ надо помещать в Dead Letter Queue. 4 стратегии работы с DLQ-топиками в Apache Kafka Напомним, в Apache Kafka в очереди недоставленных...