Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

02Май
2022

Прожорливый Apache NiFi: обработка потоков и проблемы потребления ресурсов

Автор Анна Вичуговав категории NiFi, Блог

NiFi ETL pipeline пример курсы обучение, процессоры NiFi ETL, курсы Apache NiFi, Apache NiFi для инженеров данных и разработчиков Data Flow, ETL data pipeline Apache NiFi администрирование инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про тонкости хранения потоковых файлов в Apache NiFi. Продолжая эту важную для обучения дата-инженеров тему, сегодня разберем еще несколько причин повышенного потребления ресурсов при работе с этим фреймворком и способы обхода этих ограничений. Характер потоков и размер репозитория Apache NiFi не позволяет управлять ресурсами в разрезе потоков...

01Май
2022

Обнаружение мошенничества при скимминге банковских карт c Apache Kafka, Flink и HBase

Автор Анна Вичуговав категории Flink, HBase, Kafka, Блог

Обнаружение мошеннических операций Big Data, примеры курсы обучение Apache Kafka Spark Hadoop Flink HBase, Школа бОльших Данных Учебный центр Коммерсант

Пример выявления финансового мошенничества при скимминге банковских карт в банкоматах с помощью технологий Big Data. Как Apache Kafka, Flink и HBase помогут обнаружить злоумышленников в режиме реального времени. Что такое скимминг, как это работает и чем опасно Скимминг является одним из частых видов мошенничества с банковскими картами, представляющий собой считывание...

30Апр
2022

Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои

Автор Анна Вичуговав категории Kafka, Блог

проектирование и отладка Kafka приложений примеры курсы обучение, Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, FMECA для Kafka-приложений, Kafka Streams курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Хотя Apache Kafka является надежной платформой потоковой обработки событий, что особенно важно для распределенных приложений, отказы случаются и в ней. Сегодня разберем важную для обучения разработчиков и дата-инженеров тему про идентификацию и обработку отказов в Kafka-приложениях с помощью простого, но эффективного метода теории надежности. Что такое FMECA-анализ, как его проводить...

28Апр
2022

ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow примеры курсы обучение, AirFlow примеры курсы обучение, развертывание AirFlow операторы CLI Python, Apache AirFlow для дата-инженеров и администраторов, обучение дата-инженеров, курсы AirFlow PythonOperator дата-инженер примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим несколько рекомендаций по построению масштабной и устойчивой экосистемы интеграции корпоративных данных на базе Apache AirFlow от компании Astronomer, которая активно способствует продвижению и коммерциализации этого популярного инструмента дата-инженерии. Как организовать эффективную маршрутизацию рабочих процессов с пакетным ETL-оркестратором: 3 лучших практики. Стандартизация сред разработки и промышленной эксплуатации с Kubernetes...

27Апр
2022

MLOps на Python и не только: кейс банка «Открытие»

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог

обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа БОльших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для специалистов в области Data Science и ML-инженеров еще более полезными, сегодня рассмотрим, как организовать сквозной CI/CD-конвейер разработки и развертывания системы машинного обучения в соответствии с MLOps-концепцией на 4-х популярных Python-инструментах: MLflow, DVC, Airflow, ClearML. А в качестве примера практической реализации этой идеи разберем кейс банка...

26Апр
2022

Закладки и причинно-следственная согласованность чтения данных в кластере Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

графовая аналитика больших данных Neo4j примеры курсы обучение, анализ графов Neo4j примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим проблемы неконстистентности чтения из графовой СУБД Neo4j и способы их решения. Что такое bookmarks-механизм, как работает объект сеанса в Neo4j в кластерном режиме и при чем здесь драйверы. Зачем нужны закладки в Neo4j Драйверы графовой...

25Апр
2022

Диски и потоки в Apache NiFi: ищем компромисс

Автор Анна Вичуговав категории NiFi, Блог

Мы уже писали про главные недостатки Apache NiFi как инструмента потоковой маршрутизации данных и организации ETL-процессов. Одним из них считается высокое потребление дискового пространства. Почему это случается и как с этим бороться: тонкости работы с потоковыми файлами на уровне жесткого диска - процессоры, очереди, сохранение и изменения FlowFile в Apache...

22Апр
2022

Интеграционное тестирование Kafka-приложений: 4 полезных библиотеки

Автор Анна Вичуговав категории Kafka, Блог

тестирование Kafka приложений примеры курсы обучение, Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, тестирование Kafka-приложений, Kafka Streams курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Продолжая важную для обучения разработчиков распределенных приложений и дата-инженеров тему про тестирование Big Data систем на базе Apache Kafka, сегодня рассмотрим некоторые средства для создания интеграционных тестов. Краткий ликбез по интеграционному тестированию приложений Apache Kafka В отличие от модульного тестирования, которое мы разбирали ранее, интеграционное тестирование сосредоточено на интерфейсах и потоке...

21Апр
2022

Тонкости SparkSession в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

обучение Spark дата-инженер, курсы инженер данных, инженерия данных Spark Session сеанс спарк, обучение Apache Spark Session курсы примеры, Spark для разработчиков и инженеров, Школа Больших Данных Учебный Центр Коммерсант

Может ли быть несколько сеансов в одном Spark-приложении с разной конфигурацией, зачем нужен метод foreachBatch() в структурированной потоковой передаче и чем он отличается от foreach(), почему возникает ошибка Table or view not found: microBatch и как ее обойти. В рамках обучения разработчиков Apache Spark и дата-инженеров заглядываем под капот этого...

20Апр
2022

Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора

Автор Анна Вичуговав категории AirFlow, Блог

Почему следует избегать PythonOperator в конвейере обработки пакетных данных на Apache Airflow и что использовать вместо этого оператора для описания задач DAG. Когда лаконичный CLI лучше наглядного GUI, где и как применять библиотеку Python Fire для оркестрации, а также планирования запуска batch-заданий. Зачем нам CLI или что не так с PythonOperator...