Блог - Страница 39 из 88

16Сен
2022

4 способа упаковать PySpark-приложение для отправки в кластер Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark Python для инженеров данных и разработчиков, разработка PySpark, Apache Spark для разработчиков, Spark Python инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши практические курсы по Apache Spark еще больше приемов, полезных для дата-инженеров и разработчиков, сегодня рассмотрим, как упаковать PySpark-приложение, используя нативные Python-функции и сторонние решения. Отличия Virtualenv от PEX и Conda. 4 способа упаковать PySpark-приложение для запуска в кластере Apache Spark Разработчики распределенных приложений знают, что недостаточно...

15Сен
2022

3 способа совместного использования DAG-файлов в Apache AirFlow на Kubernetes

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow обучение примеры курсы, AirFlow для дата-инженера, обучение инженер данных AirFlow, AirFlow Kubernetes проблемы и решения, AirFlow Kubernetes конвейер обработки данных примеры курсы обучение, AirFlow Kubernetes примеры курсы обучение, data pipeline AirFlow, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для обучения дата-инженеров и администраторов кластера разберем способы организации совместного использования DAG-файлов при развертывании Apache AirFlow в Kubernetes. Чем хорош вариант с общими томами и почему от него лучше отказаться в пользу Git. Как организовать обмен DAG-файлами в Apache AirFlow на Kubernetes Развертывание Apache AirFlow в кластере...

14Сен
2022

Окна и водяные знаки: потоковая обработка данных с Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink watermark windowing timestamp, курсы Apache Flink примеры обучение оконные функции, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Продолжая разговор про оконные операции в Apache Flink для потоковой аналитики больших данных, сегодня рассмотрим, как это связано с другим важным концептом потоковой обработки событий – водяным знаком. Что такое Watermark и каковы стратегии его генерации в Apache Flink: самое главное для дата-инженера. Потоковая синхронизация данных c SQL для Flink...

13Сен
2022

Тонкости MERGE-запроса в Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j Cypher, обучение Neo4j курсы примеры, Neo4j для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, Neo4j Cypher Merge примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня разберем особенности работы оператора MERGE во встроенном SQL-подобном языке запросов Cypher популярной NoSQL-СУБД Neo4j. Чем он отличается от запросов CREATE и MATCH, а также когда этот оператор более всего полезен. Как работает MERGE-запрос в Neo4j Data Scientist’ы и аналитики данных знают,...

12Сен
2022

Разделение репозиториев и настройка доступности: советы администратору Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Мы часто делимся полезными лайфхаками и лучшими практиками администрирования и эксплуатации технологий Big Data. Сегодня специально для обучения дата-инженеров рассмотрим, как лучше настроить репозитории Apache NiFi и параметры кластера, чтобы повысить производительность и надежность этого популярного ETL-маршрутизатора потока данных. 4 репозитория Apache NiFi Репозиторий потоковых файлов содержит информацию обо всех...

11Сен
2022

Не просто бургеры: архитектура данных в McDonald’s с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог, Цифровая трансформация

архитектура данных Kafka пример, потоковая обработка событий с Apache Kafka Примеры курсы обучение, Apache Kafka Для дата-архитекторов и инженеров данных курсы обучение, реестр схем Apache Kafka, Kafka курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питания. Как устроена унифицированная платформа потоковой обработки событий в McDonald’s на базе облачного полностью управляемого сервиса Apache Kafka в AWS и что гарантирует высокую доступность и надежность решения. Архитектурный дизайн Архитектуры, основанные на событиях, обеспечивают гибкость интеграции, масштабируемость и некоторые возможности...

10Сен
2022

Инструментарий MLOps c MLflow и DVC: versus или вместе?

Автор Анна Вичуговав категории Machine Learning, Блог

MLflow vs Kubeflow vs DVC примеры курсы обучение сравнение MLOps, MLOPS примеры курсы обучение, MLflow Kubeflow DVC примеры курсы обучение, курсы MLOps MLFlow DVC Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разбираться с популярными MLOps-инструментами, сегодня рассмотрим, как MLflow реализует управление версиями модели и данных, а также чем это отличается от DVC. Преимущества и недостатки популярных MLOps-инструментов с возможностями их совместного использования. Плюсы и минусы MLflow для MLOps-инженера Концепция MLOps, направленная на сокращение разрыва между различными специалистами, участвующими в процессах...

09Сен
2022

Безопасная архитектура LakeHouse с Apache Kafka, управляемая метаданными

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka Snowflake Lakehouse, курсы по Kafka, Обучение Kafka, архитектура данных курсы примеры обучение, обучение ИТ-архитектор Big Data DWH Data Lake LakeHouse Примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим пример построения гибридной архитектуры LakeHouse c Apache Kafka и Snowflake, которая гарантирует высокую масштабируемость и обеспечивает безопасность данных от несанкционированного доступа с помощью маскирования. От пакетного озера данных на AWS S3 к потоковому LakeHouse Будучи высоконадежной распределенной платформой потоковой передачи событий, Apache Kafka часто используется для обработки потока...

08Сен
2022

ETL с Apache Spark в озере данных на MinIO

Автор Анна Вичуговав категории Spark, Блог

Spark-Select API MinIO, курсы дата-инженеров озеро данных Apache Spark MinIO S3 HDFS, обучение дата-инженеров Data Lake, озеро данных примеры курсы обучение, ETL Apache Spark примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

При том, что большинство современных озер данных представляют собой облачные объектные хранилища типа AWS S3, многие предприятия хранят данные в собственном кластере HDFS или даже MinIO. Поэтому сегодня специально для обучения дата-инженеров и ИТ-архитекторов рассмотрим, что представляет собой это хранилище и насколько хорошо с ним взаимодействует Apache Spark. Что такое...

07Сен
2022

Быстрая индексация данных в HDFS, Hadoop и Spark с библиотекой Dione от PayPal

Автор Анна Вичуговав категории Hive, Spark, Блог

Spark SQL Hive примеры курсы обучение дата-инженеров, бакетирование Spark SQL Hive, курсы Spark Hive Hadoop обучение, примеры Spark Hive обучение курсы, индексация в HDFS, Dione Spark Hive HDFS, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы по Apache Hadoop и Spark еще больше интересных примеров, сегодня рассмотрим кейс компании PayPal, которой удалось ускорить работу Hive с помощью open-source библиотеки Dione. Зачем индексировать данные в HDFS и как это сделать быстро. Трудности бакетирования в Hive и Spark Вычислительный движок Apache Spark отлично...

06Сен
2022

Greenplum 6.21.1: обзор свежего релиза

Автор Анна Вичуговав категории Greenplum, Блог

обучение Greenplum курсы примеры для разработчиков, Greenplum для инженеров данных, Greenplum дата-инженер курсы обучение, Greenplum Arenadata DB курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Совсем недавно, в самом конце августа 2022 года вышел очередной минорный выпуск Greenplum. Специально для обучения дата-инженеров, ИТ-архитекторов и разработчиков распределенных OLAP-приложений мы подготовили краткий обзор самых важных обновлений и изменений версии 6.21.1. 15 исправлений на сервере Greenplum В отличие от июньского релиза, новинок в этом выпуске немного: добавлено новое...

05Сен
2022

Чем Apache Airflow лучше cron и как на него перейти

Автор Анна Вичуговав категории AirFlow, Блог

cron vs Apache Airflow, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, DAG airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Зачем переходить с cron на AirFlow и как это сделать наиболее эффективно: практические тонкости планирования и оркестрации пакетных процессов для дата-инженера с примерами и лайфхаками. Что такое cron и почему его недостаточно для инженерии данных Дата-инженеры часто работают с утилитой cron (Command Run ON), чтобы автоматически запускать на выполнение скрипты...

04Сен
2022

Миграция с Apache HBase в TiDB: кейс Pinterest

Автор Анна Вичуговав категории HBase, Блог

курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Хотя Apache HBase обладает массой достоинств, такими как строгая согласованность на уровне строк при больших объемах запросов, гибкая схема, доступ к данным с малой задержкой и интеграция с Hadoop, эта NoSQL-СУБД имеет ряд недостатков: чрезмерная сложность и дороговизна эксплуатации, отсутствие вторичных индексов и ACID-транзакций. Поэтому инженеры фотохостинга Pinterest приняли решение...

03Сен
2022

Большая проблема маленьких файлов в Apache Hadoop HDFS

Автор Анна Вичуговав категории HBase, Hive, Spark, Блог

Apache Hadoop HDFS Spark Hive проблемы примеры курсы обучение, аналитика больших данных с Apache Hadoop HDFS Spark Hive, HDFS примеры курсы обучение, SQL on Hadoop Hive Spark HDFS HBase, курсы дата-инженеров, обучение дата-инженер, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали, что технологии Big Data ориентированы на работу с большими данными, а не множеством маленьких. Сегодня рассмотрим подробнее, почему Apache Hadoop, Spark и основанные на HDFS NoSQL-СУБД Hive и HBase плохо работают с большим количеством маленьких файлов, а также как это исправить. Почему HDFS плохо работает со множеством...

02Сен
2022

Применение SeaTunnel для управления SQL-заданиями Apache Flink и Spark

Автор Анна Вичуговав категории Flink, Spark, Блог

SeaTunnel Spark SQL Flink, курсы Apache Flink Spark SQL примеры обучение, Flink Spark SQL примеры обучение курсы, обучение большим данных, курсы по flink Spark SQL , обучение Apache Hadoop Flink Spark SQL, Flink Spark SQL, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, курсы Spark SQL примеры обучение, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Мы регулярно добавляем в наши курсы по Apache Flink и Spark для дата-инженеров полезные материалы и инструменты, которые помогают повысить эффективность разработки и эксплуатации приложений аналитики больших данных. Читайте далее, что такое SeaTunnel и как эта высокопроизводительная платформа интеграции распределенных данных упрощает их потоковую синхронизацию средствами SQL-заданий Apache Flink и...

01Сен
2022

Apache NiFi 1.17: обзор нового релиза

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi безопасность новый релиз, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

1 августа 2022 года вышел очередной выпуск самого популярного потокового ETL-маршрутизатора. Что нового в Apache NiFi 1.17 для дата-инженера и администратора кластера: новые фичи, исправления ошибок и главные улучшения. Главные новинки Apache NiFi 1.17 Свежий выпуск Apache NiFi 1.17.0 включает сотни исправлений ошибок, улучшений и обновлений зависимостей для повышения стабильности...

31Авг
2022

Идеальная облачная среда озера данных и DaaS: возможности и риски

Автор Анна Вичуговав категории Блог, Цифровая трансформация

DWH Data Lake озеро данных архитектура данных примеры курсы обучение, архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, дата-инженерия Data Lake обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для ИТ-архитекторов и дата-инженеров еще больше практических примеров, сегодня разберем ключевые требования к современному озеру данных и самые последние тренды в аналитике Big Data. Что такое DaaS, зачем это нужно и каковы риски. 7 преимуществ развертывания Data Lake в облаке При том, что Data Lake...

30Авг
2022

Абсолютно безопасно: PEM-аутентификация Apache Kafka по REST API

Автор Анна Вичуговав категории Kafka, Блог

безопасность Kafka пример, реестр схем Apache Kafka, Kafka курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения дата-инженеров и администраторов кластера Apache Kafka, сегодня разберем, как обеспечить безопасность клиента этой распределенной платформы потоковой передачи событий по REST API с помощью возможностей открытого ПО. Что такое PEM-файлы и при чем здесь SSL-сертификаты, а также другие криптографические средства защиты данных: кейс инженеров Expedia Group. Инструменты обеспечения...

29Авг
2022

Динамическое партиционирование в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark SQL для разработчиков, Spark SQL инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений рассмотрим, что такое динамическое партиционирование таблиц в Apache Spark, зачем это нужно и как реализовать такие вставки разделов. Разбираем на практическом примере. Что такое динамическое партиционирование в Apache Spark Партиционирование – это разделение данных на основе значения столбца и их сохранение...

28Авг
2022

Data Mesh + Lakehouse на BigQuery: новая архитектура BigLake от Google

Автор Анна Вичуговав категории Spark, Блог

Data Lake LakeHouse BigQuery BigLake DWH архитектура данных примеры курсы обучение, архитектура данных примеры курсы обучение, архитектор Big Data примеры курсы обучение, Data Fabric vs Data Mesh примеры курсы обучение, обучение большим данным, корпоративная архитектура данных курс, Школа Больших Данных Учебный Центр Коммерсант

В отличие от каменных зданий, архитектуры данных постоянно меняются. Сегодня рассмотрим новую архитектурную модель под названием BigLake, выпущенную Google весной 2022 года. Что это такое, как устроено, чем похоже на Lakehouse, озеро данных и Data Mesh, а также чем от них отличается и какую пользу несет для конвейеров аналитики Big...