Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

07Июл
2025

Гарантии доставки сообщений At-Most-Once и At-Least-Once

Автор Nikolay Komissarenkoв категории Kafka, Use Cases, Блог, Статьи

At most once delivery - гарантии доставки сообщений курсы от Школы Больших данных

В мире распределенных систем, гарантии доставки сообщений, при передаче данных между сервисами — это фундаментальная задача. Но что происходит, когда мы отправляем сообщение из точки А в точку Б через сеть, которая по своей природе ненадежна? Сетевые задержки, сбои серверов, перезапуски приложений — все это может привести к потере или...

18Фев
2024

Знай своего клиента: качество данных с identity resolution в Zingg и Splink

Автор Анна Вичуговав категории Machine Learning, Use Cases, Цифровая трансформация

качество данных, обработка больших данных, глубокий анализ данных, entity identity resolution, , Школа Больших Данных Учебный Центр Коммерсант

Как качество данных связано с разрешением сущностей, чем entity resolution отличается от identity resolution, зачем нужны графы идентичности, как их построить и где использовать. Борьба за качество данных с entity resolution Результаты аналитической обработки данных напрямую зависят от их качества, о ключевых показателях и задачах обеспечения которого мы писали здесь....

18Сен
2023

Event Streaming vs Event Sourcing: 2 паттерна проектирования EDA-архитектуры

Автор Анна Вичуговав категории Kafka, NoSql, Use Cases, Блог

Event Streaming vs Event Sourcing, паттерны проектирования EDA архитектуры, архитектура данных примеры курсы обучение, курсы Apache Kafka, курсы по Кафка, обучение Кафка, курсы Kafka Event Streaming Event Sourcing, курсы для архитекторов данных, обучение Big Data для разработчиков и архитекторов, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

В чем разница между потоковой передачей событий и источником событий и при чем здесь Apache Kafka: разбираемся с паттернами проектирования событийно-ориентированной архитектуры. 2 паттерна проектирования EDA-архитектуры Напомним, что сегодня для построения сложных систем, зачастую состоящих из множества взаимодействующих компонентов, и реактивно реагирующих на события внешнего мира, активно используется идея архитектуры,...

17Май
2023

Материализованные представления, CQRS и CDC в микросервисной архитектуре

Автор Анна Вичуговав категории Use Cases, Блог

микросервисы в Big Data, архитектура данных, шаблоны проектирования микросервисов, архитектура микросервисов паттерны CQRS API Composition примеры применения, архитектура данных, CDC архитектура данных примеры реализации, архитектура микросервисных систем, потоковые базы данных, архитектор данных дата-инженер проектирование микросервисов примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как материализованные представления в потоковой базе данных с CDC-подходом и шаблоном CQRS позволяют реализовать масштабируемую и высокопроизводительную систему с микросервисной архитектурой для транзакций и аналитики данных в реальном времени. Разбираемся с паттернами проектирования микросервисов на примере интернет-магазина. Что не так с шаблоном композиция API и другие проблемы микросервисной архитектуры в...

01Июн
2022

От Лямбда до Data Mesh: 7 архитектур данных для Big Data систем

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог

Архитектура данных Лямбда Каппа Data fabric Data Mesh курсы примеры обучение, архитектор Big Data курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Что такое архитектура данных, какие модели чаще всего используются в современных Big Data системах, почему традиционные BI-системы не справляются со всем разнообразием текущих бизнес-сценариев, чем Лямбда отличается от Каппа, а Data Fabric от Data Mesh и зачем внедрять MLOps-инструменты в аналитическую платформу. Немного истории: почему архитектуры данных до сих пор...

03Май
2022

Neo4j на страже закона: кейс поиска рецидивистов

Автор Анна Вичуговав категории Machine Learning, Neo4j, Use Cases, Блог

Neo4j курсы примеры обучение Data Science, лучшие практики разработки приложений с Neo4j, обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, аналитик разработчик Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как быстро и эффективно с помощью Neo4j выявить преступников, незаконно ввозящих в страну контрафактные товары. Почему графовая СУБД Neo4j обошла документо-ориентированную MongoDB, из чего состоит алгоритм поиска рецидивистов средствами технологий аналитики больших данных и как это может пригодиться в других бизнес-приложениях. Постановка задачи: сложности отслеживания контрафакта Каждый день практически в...

27Апр
2022

MLOps на Python и не только: кейс банка «Открытие»

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог

обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа БОльших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для специалистов в области Data Science и ML-инженеров еще более полезными, сегодня рассмотрим, как организовать сквозной CI/CD-конвейер разработки и развертывания системы машинного обучения в соответствии с MLOps-концепцией на 4-х популярных Python-инструментах: MLflow, DVC, Airflow, ClearML. А в качестве примера практической реализации этой идеи разберем кейс банка...

05Апр
2022

Вместо Tableau и Power BI: DataLens от Яндекса на примере внедрения в KazanExpress

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение большим данным, бизнес-аналитика Яндекс DataLens Kafka ClickHouse примеры курсы обучение, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про Yandex Managed Service for Apache Kafka. Продолжая тему импортозамещения, сегодня рассмотрим, как этот и другие полностью управляемые сервисы Яндекса помогли отечественному маркетплейсу KazanExpress построить эффективное BI-решение. Что такое Yandex DataLens и как он способен заменить зарубежные системы бизнес-аналитики типа Tableau с Power BI, а также открытый Apache...

23Мар
2022

Проект года-2021: фабрика данных на Arenadata Hadoop в АО «Народный банк Казахстана»

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata Hadoop примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали о победителях российского ИТ-конкурса «Проект Года 2020» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», где «Газпром нефть» и банк ВТБ делятся опытом применения российских продуктов Arenadata. Сегодня рассмотрим кейс призера 2021 года - проект «Фабрика данных» в АО «Народный банк Казахстана», в результате которого...

10Мар
2022

Импортозамещение в Big Data: Arenadata на Скале

Автор Анна Вичуговав категории Use Cases, Блог

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Скала-Р Arenadata примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Поскольку тема импортозамещения сейчас стала особенно актуальной, сегодня рассмотрим отечественный программно-аппаратный комплекс для хранения и аналитической обработки данных СКАЛА-Р МБД8. Что это такое, как использовать и при чем здесь продукты Arenadata. Машины больших данных СКАЛА-Р МБД8 и Arenadata Разработчиком программно-аппаратного комплекса «Машина больших данных» СКАЛА-Р МБД8 является российская компания ООО...

04Фев
2022

Современная инженерия данных: от Data Lake к облачной Лямбда

Автор Анна Вичуговав категории AirFlow, HBase, Kafka, Spark, Use Cases, Блог

инженерия данных курсы обучение примеры, архитектура больших данных курсы примеры обучение, обучение большим данным, курс дата-инженер Kafka Spark AirFlow Hadoop, обучение BIg Data для архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Сегодня обсудим ключевые тренды развития дата-инженерии и инструментальные средства их реализации. Как это применяется на практике, рассмотрим на примере эволюции хранилища данных в индонезийской ИТ-компании Bukalapak, от локального кластера Apache HBase до Лямбда-архитектуры в облаке Google Cloud Platform с Kafka, Spark и AirFlow. 7 главных драйверов развития дата-инженерии В наши...

14Янв
2022

Блеск и нищета Erasure Coding в Apache Hadoop 3: опыт Одноклассников c HDFS

Автор Анна Вичуговав категории Use Cases, Блог

обучение Apache Hadoop курсы примеры, Apache Hadoop для инженеров данных, дата-инженер Apache Hadoop HDFS, администрирование Apache Hadoop HDFS, Erasure Coding HDFS примеры, обучение большим данным, администрирование кластера Hadoop, обучение администратор Hadoop, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, что Apache Hadoop 3.3.1 поддерживает технологию кодирования со стиранием (Erasure Coding, EC), которая экономит место на жестком диске по сравнению с репликацией. Однако, беспечное применение этой новой фичи может обернуться настоящей катастрофой. Кейс соцсети «Одноклассники» от ведущего разработчика Дениса Ефарова, представленный на конференции Smart Data для инженеров данных в...

05Янв
2022

Сложности перехода: миграция из Apache HBase в Google BigTable – кейс компании Box

Автор Анна Вичуговав категории HBase, Use Cases, Блог

обучение Hadoop, курсы Hadoop HBase, обучение дата-инженеров и администраторов Hadoop HBase, HBase BigTable migration, обучение большим данным примеры кейсы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про пользу snapshot’ов Apache HBase на примере компании Vimeo. Сегодня рассмотрим кейс корпорации Box, которая специализируется на облачных enterprise-продуктах совместного управления контентом и файлами. Переход от локальной HBase к Google Cloud BigTable: сложности миграции и способы их обхода. Сходства и различия Apache HBase с Google Cloud BigTable...

23Дек
2021

Миллиарды сообщений в секунду: микросервисная ML-система на Apache Kafka и DynamoDB

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение Kafka, курсы Kafka, Apache Kafka Для инженеров и разработчиков, DynamoDB курсы NoSQL, обучение дата-инженеров, обучение большим данным, архитектура больших данных, ML Feature Store Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

В этой статье разберем кейс бразильской фудтех-компании Ifood по реализации микросервисной ML-системы на Apache Kafka и serverless NoSQL-СУБД DynamoDB с пропускной способностью миллиарды сообщений в секунду. Сложности масштабирования микросервисов и оперативное чтение данных из Feature Store с помощью библиотеки Sarama – Go-клиента для Apache Kafka. Проблема микросервисов при множестве обращений...

15Дек
2021

Потоки и пакеты: унифицированная аналитика больших данных c Apache Flink в Pinterest

Автор Анна Вичуговав категории Flink, Use Cases, Блог

курсы Apache Kafka примеры обучение, Kafka Flinkпримеры обучение курсы, обучение большим данных, курсы по kafka, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Ранее мы писали о том, как фотохостинг Pinterest с помощью новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, объединяет пакетную и потоковую аналитику больших данных, чтобы еще лучше обслуживать более 475 миллионов своих пользователей. Сегодня поговорим про контроль сетевого трафика и синхронизацию источников данных через генерацию...

07Дек
2021

Управление жизненным циклом конвейеров Apache Airflow: советы дата-инженеров Databand

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение AirFlow, курсы Apache AirFlow, курсы инженеров данных, инженерия данных обучение, дата-инженер курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы для дата-инженеров по Apache AirFlow, сегодня рассмотрим, как автоматизировать развертывание сложных DAG’ов с помощью Docker и Kubernetes на примере управления конвейерами обработки данных. Лучшие практики и советы от инженеров данных DataOps-компании Databand. 4 вопроса дата-инженера к production-развертыванию конвейеров Apache Airflow Apache AirFlow считается одним из самых популярных...

03Дек
2021

Система обнаружения простоев онлайн-платежей на Apache Flink и Kafka: кейс Razorpay

Автор Анна Вичуговав категории Flink, Use Cases, Блог

обучение Flink Kafka примеры кейсы, Apache Flink и Kafka для инженеров данных и разработчиков, обучение большим данным курсы, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как индийская ИТ-компания Razorpay с помощью Apache Flink и Kafka свела к минимуму время простоя своего главного продукта - платежного шлюза для интернет-магазинов. Как всего 2 задания Flink могут быстро обнаруживать простои более 50 когорт событий на уровне платежного шлюза и 200+ когорт разных интернет-магазинов. Работать нельзя остановиться:...

27Ноя
2021

Польза умных сенсоров Apache Airflow: Smart Sensor для LRLW-задач

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение дата-инженеров, AirFlow курсы примеры обучение, Apache AirFlow для инженеров данных, Smart Sensor AirFlow примеры польза. обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как Airbnb развивает Apache AirFlow и на практике используют эту платформу для создания, планирования и мониторинга конвейеров данных. Что такое Smart Sensor и как умные датчики экономят ресурсы на выполнение долгосрочных легковесных задач. Легкие, долгие и ресурсоемкие: проблемы...

20Ноя
2021

Один на всех: реализация единого API для унифицированной аналитики больших данных c Apache Flink и Kafka в Pinterest

Автор Анна Вичуговав категории Flink, Kafka, Use Cases, Блог

Недавно мы писали, что в новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, сделаны попытки объединения потоковой и пакетной парадигм обработки данных. Сегодня рассмотрим, как подобное стремление к унификации реализуется на практике дата-инженерами фотохостинга Pinterest, которые используют Apache Flink как универсальный инструмент аналитики больших данных в...

15Ноя
2021

Графовая аналитика путешествий цифровых кочевников с Neo4j и Cypher

Автор Анна Вичуговав категории Neo4j, Use Cases, Блог

графовые алгоритмы пример обучение Neo4j и Cypher, курсы Neo4j и Cypher, графовые алгоритмы, графовая аналитика больших данных пример курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим пример анализа данных о путешествиях средствами графовой СУБД Neo4j и ее языка запросов Cypher. Читайте далее, где взять данные о путешествиях цифровых кочевников и как определить самое популярное направление. Цифровые кочевники и графы их путешествий Хотя...