Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

27Авг
2022

MLflow vs Kubeflow: битва MLOps-инструментов

Автор Анна Вичуговав категории Machine Learning, Блог

MLflow vs Kubeflow примеры курсы обучение сравнение MLOps, MLOPS примеры курсы обучение, MLflow Kubeflow примеры курсы обучение, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, от каких факторов зависит выбор подходящего MLOps-инструмента. В продолжение этой темы сегодня специально для ML-инженеров разберем сходства и различия двух самых популярных MLOps-решений: что общего у MLflow и Kubeflow, чем они отличаются и в каких случаях выбирать тот или иной инструмент. Краткий обзор 2-х самых популярных MLOps-решений...

26Авг
2022

Оконные операции в Apache Flink: краткий ликбез для дата-инженера

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink примеры обучение оконные функции, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы по Apache Flink для дата-инженеров и разработчиков распределенных приложений еще более полезными, сегодня рассмотрим, как этот фреймворк потоковой аналитики больших данных реализует концепцию оконных функций. Жизненный цикл окна, ключевые понятия и оконные операции Apache Flink, управляемые данными и временем. Что такое окно в потоковой обработке данных...

25Авг
2022

Рефакторинг графа c Liquibase и APOC: блеск и нищета гибкой модели данных Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j APOC Cypher, обучение Neo4j курсы примеры, Neo4j для аналитиков данных примеры курсы обучение, графовая аналитика больших данных примеры курсы обучение, Data Science Neo4j обучение курс, анализ графов с Neo4j, APOC Liquibase Neo4j обновление рефакторинг примеры курсы обучение, обучение большим данным, Data Analyst Neo4j курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня разберем сложности рефакторинга графовых моделей в Neo4j и способы их обхода с помощью библиотеки APOC и плагина Liquibase. Что такое Liquibase и как Data Scientist и аналитик данных могут использовать его совместно с Neo4j. Гибкость модели данных и трудности...

23Авг
2022

Лебедь, рак и щука: оптимизация Apache Kafka с теоремами CAP и PACELC

Автор Анна Вичуговав категории Kafka, Блог

CAP PACELC архитектура Kafka, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, конфигурации продюсеров Kafka, Apache Kafka для разработчиков администраторов и дата-инженеров, Kafka обучение разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Как найти компромисс между задержкой, пропускной способностью, долговечностью и доступностью в Apache Kafka: проблемы CAP-теоремы и поиски оптимальной стороны PACELC-ромба. Архитектурные ограничения распределенных систем и лучшие практики для настройки конфигурационных параметров для администратора кластера Apache Kafka и дата-инженера потоковых приложений аналитики больших данных. CAP-теорема и распределенные системы На производительность Apache...

22Авг
2022

LIMIT vs TABLESAMPLE: битва операторов Spark SQL

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark SQL для разработчиков, Spark SQL инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим особенности использования оператора LIMIT в Spark SQL: как он выполняется и почему вместо него лучше использовать оператор TABLESAMPLE. Для этого в рамках обучения дата-инженеров, разработчиков распределенных приложений и аналитиков данных заглянем под капот оптимизатора Catalyst в Apache Spark и сравним физические планы выполнения SQL-запросов. Недостатки оператора LIMIT в...

21Авг
2022

Материализованные представления в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

Hive материализованное представление LLAP SQL примеры курсы обучение, HiveQL, HiveSQL, курсы Hive обучение примеры, курсы NoSQL, обучение дата-инженер, курсы дата-инженер, SQL-on-Hadoop примеры курсы обучение, SQL HDFS Hive курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения аналитиков данных, дата-инженеров и разработчиков распределенных приложений, сегодня поговорим про материализованные представления в Apache Hive. Что это такое, зачем нужно и как реализуется в самом популярном NoSQL-хранилище стека SQL-on-Hadoop. Что такое материализованное представление и зачем это надо в аналитике больших данных: краткий ликбез Аналитика данных включает в...

19Авг
2022

Как повысить эффективность HDFS: 4 совета администратору кластера Apache Hadoop

Автор Анна Вичуговав категории Блог, Статьи

Hadoop администратор обучение курсы, администрирование кластера Hadoop, как работает HDFS лучшие практики администрирования примеры курсы обучение, Apache Hadoop HDFS администратор кластера курсы обучение для инженеров данных, курсы Hadoop администратор кластера обучение, Школа Больших Данных Учебный центр Коммерсант

Специально для обучения администраторов кластера Apache Hadoop сегодня рассмотрим, как улучшить производительность распределенной файловой системы. Зачем перемещать файлы на последний узел в кластере, как оптимизировать управление дисками, а также чем полезно централизованное кэширование в HDFS. Оптимизация операций ввода-вывода на жестком диске Преимущества HDFS – распределенной файловой системы Apache Hadoop по...

18Авг
2022

MLOps и ТОП-5 практик работы с MLflow

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS примеры курсы обучение, MLflow примеры курсы обучение, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для специалистов по Machine Learning еще более интересными, сегодня рассмотрим 5 лучших практик по использованию популярного MLOps-инструмента. Как Data Scientist может работать с MLflow и сделать свои конвейеры машинного обучения еще более эффективными. Компоненты Mlflow для разработки и развертывания ML-систем Сегодня MLOps считается одним из самых...

17Авг
2022

Под капотом Lakesoul: как устроено табличное хранилище на Apache Spark

Автор Анна Вичуговав категории Spark, Блог

LakeSoul, архитектура данных, обучение архитекторов Big Data примеры курсы обучение, LakeHouse DWH примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про Lakesoul – новое унифицированное решение для хранения потоковых и пакетных таблиц, которое реализует архитектуру данных LakeHouse. Сегодня заглянем под капот этого унифицированного механизма на базе Apache Spark и разберемся с преимуществами его последнего релиза. Как работает LakeSoul: краткий обзор Напомним, LakeSoul от команды DMetaSoul представляет собой...

16Авг
2022

Отказоустойчивое распределение данных в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим компоненты и механизмы обеспечения отказоустойчивости Apache HBase. Что делать, когда региональный сервер выходит из строя и как процедура ServerCrashProcedure перераспределяет регионы данных на другие рабочие сервера в кластере Apache HBase. А также разберем, какие параметры конфигурации следует настроить администратору кластера для наиболее эффективного выполнения процессов записи и восстановления...

15Авг
2022

Под капотом HTTP-коннектора к Flink SQL от GetInData: REST и HATEOAS

Автор Анна Вичуговав категории Flink, Блог

Flink SQL примеры курсы обучение, Apache Flink для дата-инженеров разработчиков и аналитиков примеры курсы обучение, REST API FLINK SQL, Apache Flink дата-инженер, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про HTTP-коннектор к Apache Flink от компании GetInData, который позволяет обогатить ML-модель данными из внешней системы с использованием REST API и SQL-концепции Lookup Joins. Как устроен этот коннектор с открытым исходным кодом, и какие методы Flink SQL он использует: разбираем на практическом примере. Что такое HATEOAS: блеск...

14Авг
2022

Доступ к данным через ODBC и JDBC-драйверы в Spark-приложениях

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark SQL для инженеров данных и разработчиков, разработка Spark, Apache Spark SQL для разработчиков, Spark SQL JDBC ODBC инженерия больших данных, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений и дата-инженеров разберем, как Spark-задание может подключиться к базе данных через JDBC и ODBC драйверы. В качестве примера рассмотрим код на PySpark и Python-библиотеки pyodbc, а также JDBC-коннекторы в Spark SQL. Доступ к БД из кластера Spark с ODBC-драйвером Напомним, получить соединение с...

12Авг
2022

Выгодно и быстро: потоковая обработка миллионов событий в AWS с Apache Kafka

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы по Apache Kafka, тренинг Kafka, Apache Kafka курсы для аналитиков и инженеров данных в Москве, обучение дата-инженеров, Apache Druid и Kafka, примеры Druid и Kafka, курсы по аналитике больших данных, аналитика больших данных обучение, Школа Больших Данных Учебный центр Коммерсант, обучение Big Data на примерах

Сегодня рассмотрим опыт международной компании Emumba, которая специализируется на инженерии и аналитике больших данных. Читайте далее, как выгодно масштабировать конвейер потоковой передачи данных от миллионов устройств интернета вещей, используя Apache Kafka, KStream и Druid в облачной инфраструктуре AWS. Архитектура PoC для потоковой передачи событий от миллионов IoT-устройств Миллионы устройств интернета...

11Авг
2022

Интеграция Nebula Graph с Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Nebula Graph Apache Spark, курсы Spark для Data Science анализ данных дата-инженеров, обучение Apache Spark, Spark ML GraphX GraphFrames, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, что такое Nebula Graph и как использовать мощные возможности обработки графов этой NoSQL-СУБД в сочетании с Apache Spark, одним из самых популярных механизмов анализа данных. Что такое Nebula Graph и как это работает Nebula Graph — это...

09Авг
2022

От чего зависит выбор MLOps-инструментов: 3 главных фактора

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение, курсы по цифровизации, обучение цифровизации, машинное обучение и аналитика больших данных для руководителей курсы, курс по машинному обучению для менеджеров, автоматизация машинного обучения, Machine Learning Operations, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для специалистов по Machine Learning рассмотрим, от каких факторов зависит выбор MLOps-средств и как сделать его наиболее верным способом. Когда развертывание продукта с открытым исходным кодом или индивидуального решения на собственной инфраструктуре лучше готового инструмента в облаке и почему часто бывает наоборот. 3 главных фактора выбора MLOps-решений...

08Авг
2022

Вместо Iceberg, Hudi и Delta Lake: хранение потоковых и пакетных таблиц с LakeSoul

Автор Анна Вичуговав категории Spark, Блог

Сегодня рассмотрим новое унифицированное решение для хранения потоковых и пакетных таблиц, созданное на основе Apache Spark. Что такое Lakesoul, чем это лучше Apache Iceberg, Hudi и Deta Lake. Также разберем, в чем конкурентные преимущества этого табличного хранилища по сравнению с этими форматами открытых таблиц, включая поддержку upsert, управление метаданными и...

07Авг
2022

Take() вместо collect() и еще 2 совета по Apache Spark для дата-инженера

Автор Анна Вичуговав категории Spark, Блог

обучение Spark SQL примеры курсы обучение, анализ данных Spark, Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark Databrics Lightspeed примеры курсы обучение, Apache Spark Structured Streaming примеры курсы обучение, разработка приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы для дата-инженеров и разработчиков распределенных Spark-приложений интересные примеры, сегодня мы хотим поделиться с вами простыми, но эффективными приемами, как улучшить производительность этого вычислительного движка. Чем метод take() лучше collect() в Apache Spark, какие открытые инструменты помогут выполнить профилирование кода и как быстро прочитать множество маленьких...

06Авг
2022

Как определить задержку потребителя Apache Kafka в Spark Structured Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

обучение Spark SQL Structured Streaming Kafka PySpark примеры курсы обучение, разработка Spark Structured Streaming Kafka PySpark , Spark разработка конфигурирование приложений для разработчика примеры курсы обучение, Spark app configs, конфигурация приложения Spark, Apache Spark разработчик примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров и разработчиков распределенных приложений еще больше практических примеров, сегодня рассмотрим, как написать Python-код для вычисления задержки потребителя Apache Kafka, расширив типовой слушатель StreamingQueryListener, который есть в Java и Scala API библиотеки Spark Structured Streaming, но недоступен в PySpark. Проблема отставания потребителя Apache Kafka...

05Авг
2022

Потоковое обогащение данных с Flink SQL данными из внешнего сервиса по REST API

Автор Анна Вичуговав категории Flink, Блог

В этой статье для обучения дата-инженеров и разработчиков распределенных приложений рассмотрим, как Flink SQL может обогатить ML-модель данными из внешней системы в режиме реального времени с использованием REST API. Что представляет собой http-flink-connector с открытым исходным кодом, разработанный GetInData на основе концепции Lookup Joins. Обогащение данных c SQL: достоинства использования...

04Авг
2022

Сериализация данных в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

курсы Hive разработчик дата-инженер обучение примеры, курсы NoSQL, обучение дата-инженер, курсы дата-инженер, SQL-on-Hadoop примеры курсы обучение, SQL HDFS Hive курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить еще больше практики в наши курсы для дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим тонкости сериализации данных в Apache Hive. Читайте далее, как этот популярный SQL-on-Hadoop инструмент обрабатывает данные из HDFS, что такое SerDe и как написать собственный сериализатор/десериализатор. Сериализация и десериализация данных в Apache Hive В настоящее...