Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

21Мар
2022

Блокчейн и Apache Kafka: versus или вместе

Автор Анна Вичуговав категории Kafka, Блог

Kafka курсы примеры обучение, Blockchain примеры Big Data, KafkaBlockchain library, блокчейн большие данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, можно ли построить на Apache Kafka быстрый и надежный блокчейн для криптовалюты, NFT или других проектов, где нужны технологии распределенного реестра. Что общего у топика Apache Kafka с blockchain-цепочкой, чем они отличаются, возможно ли совместить их и для каких случаях. А в качестве примеров перечислим несколько реальных проектов....

20Мар
2022

Apache NiFi 1.16.0: краткий обзор нового релиза

Автор Анна Вичуговав категории NiFi, Блог

пример Apache NiFi администратор курсы обучение, NiFi для инженеров данных, NiFi обновление для дата-инженеров и администраторов, курсы Apache NiFi, обучение разработчик Data Flow, NiFi примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сообщество разработчиков Apache NiFi регулярно радует новыми выпусками. Не успели мы полностью освоить январский релиз 2022, в начале марта появилась еще более свежая версия этого потокового маршрутизатора. Самое главное в Apache NiFi 1.16.0 для дата-инженера и администратора кластера. Главные новинки Apache NiFi 1.16.0 Apache NiFi 1.16.0 включает несколько десятков улучшений,...

19Мар
2022

MLOps на коленке: простое развертывание ML-модели с Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

MLOPS Spark примеры курсы обучение, Spark MLLib, курсы Spark для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по Apache Spark и машинному обучению практические примеры для эффективного повышения квалификации Data Scientist’ов и инженеров данных, сегодня рассмотрим задачу пакетного прогнозирования и планирование ее запуска по расписанию без применения масштабных MLOps-решений. Apache Spark для пакетного прогнозирования Есть много готовых решений и инструментов для пакетного...

18Мар
2022

MLOps и переносимость ML-моделей с помощью ONNX и Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Обучая специалистов по Data Science, аналитиков и инженеров данных лучшим практикам MLOps, сегодня поговорим про переносимость моделей машинного обучения между разными этапами жизненного цикла ML-систем, от разработки до развертывания в production. А в качестве примера разберем, как использовать обученную ML-модель из Apache Spark за пределами кластера, упаковав ее в ONNX...

17Мар
2022

Краткий обзор Apache Airflow Helm chart 1.5.0

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow helm chart kubernetes примеры курсы обучение, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, обновления airflow helm chart kubernetes example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

11 марта 2022 года вышла новая версия Apache Airflow Helm Сhart. Рассмотрим главные новинки релиза 1.5.0 и их практическую ценность с точки зрения прикладной дата-инженерии. А также разберем ключевые понятия этого менеджера пакетов Kubernetes. Что такое Helm chart в Kubernetes и причем здесь Apache AirFlow Напомним, Helm – это менеджер пакетов...

16Мар
2022

Для логистики и не только: алгоритм Дейкстры в Neo4j-библиотеке Graph Data Science

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, алгоритм Дейкстры Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Вопрос перестройки логистических цепочек сегодня стал очень остро перед множеством предприятий, от малого до очень крупного бизнеса. Рассмотрим, как методы Data Science и аналитики больших данных помогают бизнесу справиться с современными вызовами на примере реализации алгоритма Дейкстры в библиотеке Graph Data Science графовой СУБД Neo4j. Постановка задачи: поиск кратчайшего пути...

15Мар
2022

Упорядочивание событий в Apache Kafka: параметры продюсера и потребителя

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Apache Kafka для разработчиков дата-инженеров и ИТ-архитекторов, обработка событий Kafka, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Иногда в распределенных системах требуется строгий порядок событий, т.е. сообщений или записей с полезными данными и состоянием, который должен поддерживаться между продюсерами и потребителями в конвейере их обработки. Например, чтобы сохранить корректный порядок транзакций для правильного расчета остатков по счетам. Читайте далее, как это реализовать в Apache Kafka. Настройка продюсера...

14Мар
2022

Apache Spark и Hive для обработки партиционированных Parquet-файлов

Автор Анна Вичуговав категории Hive, NoSql, Spark, Блог

Spark SQL Hive Paruet HDFS Hadoop курсы примеры обучение, обучение Hadoop Hive SQL, примеры курсы Hive Hadoop HDFS SQL, курсы дата-инженеров, инженерия данных Hadoop Hive SQL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про обновление хранилища метаданных Apache Hive с помощью команды MSCK REPAIR TABLE, операторов AirFlow и Spark-заданий. В продолжение этой темы про работу с партиционированными Parquet-файлами сегодня рассмотрим применение Spark SQL для этого случая, чтобы использовать таблицу Hive вместо временного представления Spark. Временные таблицы Hive/Spark и разделы в Parquet-файлах...

13Мар
2022

Спотовые инстансы в AWS EMR для Spark-конвейеров: достоинства, недостатки и лучшие практики

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark AWS EMR, AWS EMR спотовые инстансы Яндекс Облако Spark примеры курсы обучение оптимизация затрат, Apache Spark для дата-инженеров, Apache Spark для разработчиков курсы примеры обучение, инженерия данных с Apache Spark, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как снизить затраты на AWS EMR, сохранив эффективность Spark-конвейеров обработки данных на спотовых инстансах и других типах узлов облачного кластера. Также рассмотрим, что такое прерываемые виртуальные машины в Яндекс.Облаке и каким образом настроить такую облачную инфраструктуру, чтобы сократить затраты на выполнение Spark-приложений, одновременно повысив их отказоустойчивость. Блеск и нищета спотовых...

12Мар
2022

Параллелизм второго порядка в конвейерах данных с Apache Spark

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, Apache Spark для дата-инженеров, Apache Spark для разработчиков курсы примеры обучение, инженерия данных с Apache Spark, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-инженеров и разработчиков Spark-приложений сегодня рассмотрим, как повысить эффективность обработки данных, используя всю мощь этого распределенного движка. Проблемы производительности и эффективности конвейера обработки данных с учетом разницы между действиями и преобразованиями в Apache Spark. Снова про разницу между действиями и преобразованиями в Apache Spark Основное преимущество Apache...

11Мар
2022

Модульные тесты для DAG в Apache Airflow: примеры и лучшие практики

Автор Анна Вичуговав категории AirFlow, Блог

модульное тестирование DAG Apache AirFlow, Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, обновления airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Благодаря возможности написать собственный Python-код для операторов и задач DAG’ов, Apache Airflow позволяет разработчикам Data Flow и инженерам данных создавать сложные и эффективные конвейеры пакетной обработки данных. Обеспечить надежность этого многообразия поможет качественное тестирование пользовательского кода. Рассмотрим примеры и рекомендации по написанию модульных тестов. Зачем тестировать DAG AirFlow? Модульные тесты...

10Мар
2022

Импортозамещение в Big Data: Arenadata на Скале

Автор Анна Вичуговав категории Use Cases, Блог

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Скала-Р Arenadata примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Поскольку тема импортозамещения сейчас стала особенно актуальной, сегодня рассмотрим отечественный программно-аппаратный комплекс для хранения и аналитической обработки данных СКАЛА-Р МБД8. Что это такое, как использовать и при чем здесь продукты Arenadata. Машины больших данных СКАЛА-Р МБД8 и Arenadata Разработчиком программно-аппаратного комплекса «Машина больших данных» СКАЛА-Р МБД8 является российская компания ООО...

09Мар
2022

Как распилить PHP-монолит на микросервисы с Apache Kafka: кейс Storyblocks

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Apache Kafka для разработчиков дата-инженеров и ИТ-архитекторов, микросервисная архитектура Kafka, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про проектирование микросервисной архитектуры на базе Apache Kafka. В продолжение этой актуальной для ИТ-архитекторов, разработчиков и дата-инженеров темы, сегодня рассмотрим опыт американской медиакомпании Storyblocks по переходу от монолитной архитектуры системы поставки контента к распределенным микросервисам с Apache Kafka в Confluent Cloud. Постановка задачи: монолит vs микросервисы По...

08Мар
2022

Побег от Cassandra в AWS S3 c Apache Spark: кейс сервиса Strava

Автор Анна Вичуговав категории NoSql, Spark, Блог

В этой статье для дата-инженеров и разработчиков распределенных приложений потоковой аналитики больших данных разберем пример перевода сервиса Strava с кластера Cassandra в облачное хранилище AWS S3 и какую роль в этом сыграл вычислительный движок Apache Spark. Постановка задачи: слишком дорогая Cassandra Strava – это глобальный сервис отслеживания активности велосипедистов, бегунов...

06Мар
2022

Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark

Автор Анна Вичуговав категории Hive, NoSql, Блог

обучение Hadoop Hive SQL, примеры курсы Hive Hadoop HDFS SQL, курсы дата-инженеров, инженерия данных Hadoop Hive SQL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на примере конвейера обработки данных в ML-приложениях при работе с Data Lake. Команда MSCK REPAIR TABLE в Apache Hive В ML-приложениях особенно важно, как озеро данных (Data...

05Мар
2022

Еще безопаснее: поддержка Kerberos Active Directory в продуктах Arenadata

Автор Анна Вичуговав категории Блог

обучение Arenadata, курсы Arenadata, администрирование кластера Hadoop Arenadata курсы обучение примеры, безопасность кластера Hadoop, Arenadata Hadoop обучение администраторов курсыб Apache Ambari Kerberos Hadoop примеры курсы обучение, Школа Болших Данных Учебный Центр Коммерсант

24 февраля 2022 года российская компания Аренадата Софтвер, выпускающая корпоративные решения для хранения и аналитики больших данных, добавила поддержку защищенного протокола Kerberos в своих продуктах Arenadata Hadoop, Streaming и Platform Security. Разбираемся, чем это полезно, как связано с Apache Ambari и как настроить. Улучшенная безопасность продуктов Arenadata c Kerberos Active Directory ...

04Мар
2022

Не просто Apache Solr: краткий обзор Tanzu Greenplum Text

Автор Анна Вичуговав категории Greenplum, Блог

Tanzu Greenplum Text Apache Solr Elasticsearch полнотекстовый анализ Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, Greenplum Arenadata DB для разработчиков и аналитиков курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем под капот Tanzu Greenplum Text: архитектура и принципы работы этого средства поиска и анализа текстов, интегрированного с популярной MPP-СУБД. Как движок наподобие Elasticsearch связывает кластер Apache Solr с базой данных Greenplum и зачем здесь нужен Zookeeper. Что такое Tanzu Greenplum Text Мы уже рассказывали про основные функциональные возможности...

03Мар
2022

Микросервисная архитектура с Neo4j, Kafka и Outbox-паттерном проектирования

Автор Анна Вичуговав категории Kafka, Neo4j, Блог

обучение Neo4j, обучение Kafka, курсы Neo4j, курсы Kafka, курсы ИТ-архитекторов Big Data, Обучение большим данным, паттерны проектирования микросервисной архитектуры с Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения ИТ-архитекторов и разработчиков распределенных приложений рассмотрим, что представляет собой Transactional Outbox и как этот паттерн проектирования микросервисной архитектуры можно реализовать с помощью Neo4j и Apache Kafka, чтобы создать масштабируемый, общий и абстрактный способ запроса информации независимо от типа объекта. Постановка задачи: проблемы микросервисной архитектуры и способы их...

02Мар
2022

Синхронные и асинхронные продюсеры: Graceful shutdown для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka для разработчиков и администраторов, Apache Kafka Graceful shutdown, администрирование кластера Apache Kafka примеры курсы обучение, Kafka Kubernetes, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что такое Graceful shutdown на примере Spark Streaming. Сегодня разберем реализацию этой идеи плавного завершения задач в потоковой обработке данных применяется в компании Carwow при работе с Apache Kafka и dyno-контейнерами приложений Heroku. Потоковая обработка данных и проблема завершения потоковых заданий в контейнерах Heroku Carwow - британская...

01Мар
2022

Аналитика больших данных в реальном времени с Apache Kafka, Spark, ClickHouse и S3

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы Kafka Spark ClickHouse обучение архитектура пример, аналитика больших данных, дата-инженер курсы примеры обучение Kafka Spark, обучение разработчиков распределенных приложений и ИТ-архитекторов большим данным, Школа Больших Данных Учебный Центр Коммерсант

Практический пример аналитики больших данных в реальном времени с Apache Spark, Kafka, ClickHouse и AWS S3: возможности, архитектура, также специально для дата-инженеров и разработчиков распределенных приложений рассмотрим, сколько времени нужно для разрешения каждого вызова API в определенном временном диапазоне. Анализ событий пользовательского поведения в реальном времени Основным продуктом международной ИТ-компании...