Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

28Дек
2022

Аккумуляторы и качество данных в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, Spark обработка качество данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, кластер Apache Spark Параллельные вычисления, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как Apache Spark организует параллельные вычисления, зачем нужны аккумуляторы и каким образом они помогают организовать мониторинг качества данных в аналитических конвейерах их обработки. Смотрим с точки зрения дата-инженера и разработчика распределенных приложений. Как Apache Spark распараллеливает обработку данных Параллельная обработка — это метод вычислений, при котором работает более одного ЦП...

27Дек
2022

Глубокое машинное обучение, реляционная парадигма и логическое программирование: versus или вместе?

Автор Анна Вичуговав категории Machine Learning, Блог

графы и таблицы нейросети Deep Learning машинное обучение, MLOps, ML, Machine Learning, машинное обучение, Data Science, обработка данных, глубокое обучение, Deep Learning, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, чем отличаются подходы к представлению данных в глубоком машинном обучении и реляционной логике, как это связано с декларативной парадигмой логического программирования и при чем здесь графы. А в качестве примера реализации этих идей рассмотрим комбинацию принципов Deep Learning с реляционной логикой и GNN-нейросетями в Python-библиотеке PyNeuraLogic. Машинное обучение...

26Дек
2022

Новые методы доступа к таблицам в Greenplum 7

Автор Анна Вичуговав категории Greenplum, Блог

ALTER TABLE Greenplum 7, виды таблиц Greenplum, курсы Greenplum, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Продолжая разбираться с новинками Greenplum версии 7, выпущенной в середине декабря 2022 года, сегодня рассмотрим, как теперь работает SQL-команда с DML-запросов изменения таблиц ALTER TABLE. Как динамически менять структуру и характеристики таблицы даже тех, что предназначены только для добавления с новыми методами доступа. Модели таблиц в Greenplum: Append Only и...

25Дек
2022

SQL-on-Hadoop: Apache Hive vs Pig

Автор Анна Вичуговав категории Hive, Блог

Pig vs Hive, Apache Hive примеры курсы обучение Hadoop SQL SQL-on-Hadoop, обучение дата-инженеров Apache Hive Data Lake, Школа Больших Данных Учебный центр Коммерсант

Хотя Apache Pig сегодня не самый актуальный инструмент для аналитики больших данных в экосистеме Hadoop, дата-инженеру полезно знать его основные принципы работы и ключевые отличия от Hive. Также рассмотрим, чем Hive отличается от Pig в качестве средства SQL-on-Hadoop. Что такое Apache Pig Apache Pig – это высокоуровневый процедурный язык для...

24Дек
2022

Группы потребителей в Apache Kafka и микросервисы

Автор Анна Вичуговав категории Kafka, Блог

потребители и продюсеры Kafka группы потребителей, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как количество разделов топика Apache Kafka влияет на потребителей и продюсеров, зачем нужны группы потребителей и как этот механизм реализует идею микросервисной архитектуры Big Data систем. Как работают группы потребителей в Apache Kafka Будучи распределенной платформой потоковой передачи событий, Apache Kafka выполняет роль средства обмена сообщениями между приложениями-продюсерами и приложениями-потребителями...

23Дек
2022

Тонкости оптимизации SQL-запросов в Apache Flink с Calcite

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink разработка SQL Calcite оптимизация примеры курсы обучение , Flink SQL примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Как оптимизатор Calcite в Apache Flink переводит SQL-команды в задания потоковой и пакетной обработки и какие приемы могут ускорить их выполнение. Разбираемся, чем полезны интерфейсы пользовательских коннекторов источника и подсказки запросов. Flink SQL в пакетной и потоковой обработке данных Apache Flink позволяет разрабатывать распределенные приложения потоковой обработки больших данных, предоставляя...

22Дек
2022

Кто с кем против кого: анализ графа социальных связей в Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

анализ социальных сетей на графах Neo4j пример курсы обучение, графовая аналитика больших данных курсы Data Science примеры обучение, курсы обучение Neo4j, обучение дата-аналитик, аналитик больших данных курсы, аналитика данных на графах, графовые алгоритмы на больших данных курсы примеры, обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитики больших данных, сегодня рассмотрим, как создать граф социальных связей в веб-консоли Neo4j и сделать запросы к нему на Cypher - внутреннем SQL-подобном языке этой NoSQL-СУБД. Как построить граф социальных связей в Neo4j Возьмем в качестве примера набор деловых и личных взаимоотношений...

21Дек
2022

MLOps с Apache AirFlow: оркестрация ML-конвейеров

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

AirFlow MLOps инженерия данных примеры курсы обучение, ML, Machine Learning, машинное обучение, Data Science, AirFlow примеры курсы обучение дата-инженеров и ML-специалистов, AirFlow в ML-проектах, MLOps AirFlow машинное обучение, Школа Больших Данных Учебный Центр Коммерсант

Apache AirFlow не зря считается у дата-инженеров самым популярным ETL-оркестровщиком. Сегодня посмотрим, чем этот фреймворк полезен в MLOps и как его использовать для оркестровки конвейеров машинного обучения. MLOps в конвейерах машинного обучения Конвейеры машинного обучения в производственной среде обслуживают ML-модели в реальных проектах. Чтобы эффективно управлять такими конвейерами связанных заданий,...

20Дек
2022

Каталоги, хранилища и витрины данных: принципы, практики и инструменты проектирования

Автор Анна Вичуговав категории Greenplum, Блог

каталоги витрины и хранилища данных дата-архитектура примеры курсы обучение, основы больших данных, курсы для архитекторов данных, архитектура хранилищ данных, как спроектировать корпоративное хранилище данных, дизайн проектирование Data Warehouse DWH КХД, DWH и Big Data, обучение архитекторов и инженеров Big Data, Школа Больших Данных Учебный Центр Коммерсант

Хотя современная аналитика больших данных чаще базируется на Data Lake, Data Mesh, Delta Lake и DeltaLakeHouse, многие компании до сих пор активно используют классические витрины и хранилища. Разбираем особенности этих архитектур, а также оцениваем их применимость к текущим потребностям бизнеса. Витрины и хранилища данных Витрина данных (Data Mart) предоставляет информацию...

19Дек
2022

Оптимизация Apache Spark на платформе Databricks

Автор Анна Вичуговав категории Spark, Блог

Spark SQL примеры курсы обучение, Spark Databricks кейсы, AWS S3 Apache Spark, Coalesce vs Repartition Apache Spark, Spark для дата-инженеров и разработчиков, практическое обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и разработчиков распределенных приложений, сегодня разберем опыт ИТ-компании Similarweb, где Apache Spark на платформе Databricks вместо AWS Athena ускорил пакетную обработку данных в 50 раз. Также рассмотрим приемы повышения производительности ODBC-драйвера Databricks для улучшенного взаимодействия с озерами данных. Постановка задачи и ограничения POC для...

18Дек
2022

Элементы проектирования ETL-конвейеров в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi примеры курсы обучение ETL-конвейеры, обучение дата-инженеров, инженер данных NiFI примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, что такое воронки, шаблоны, порты и группы процессоров в Apache NiFi и как эти элементы помогают дата-инженеру эффективно проектировать потоковые конвейеры обработки данных. Из чего состоит конвейер обработки данных в Apache NiFi: обзор элементов Благодаря веб-GUI Apache NiFi позволяет дата-инженеру быстро создавать конвейеры потоковой обработки данных, просто располагая...

17Дек
2022

Индексация таблиц в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Чтобы сделать наши курсы по Greenplum еще более полезными, сегодня разберем особенности индексов и накладываемых ими ограничений на SQL-запросы к таблицам этой MPP-СУБД. Что такое уникальные индексы и как они поддерживаются в таблицах, оптимизированных для добавления, в Greenplum версии 7, выпущенной в середине декабря 2022 года. Еще раз о пользе...

16Дек
2022

Потоковое машинное обучение с Python-библиотекой River

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps, ML, Machine Learning, машинное обучение, Data Science, обработка данных, глубокое обучение, Python River, потоковое и пакетное машинное обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня поговорим про Python-библиотеку River, которая позволяет быстро и дешево обновлять модели машинного обучения в производственной среде в режиме реального времени. Чем потоковые ML-конвейеры отличаются от пакетных и с какими сложностями при их реализации может столкнуться Data Scientist. Что такое потоковое машинное обучение Data Scientist’ы обычно используют пакетное обучение для...

15Дек
2022

Apache AirFlow 2.5: декабрьский выпуск

Автор Анна Вичуговав категории AirFlow, Блог

обучение AirFlow, курсы AirFlow администратор кластера, AirFlow DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Не прошло и пары месяцев с выпуска Apache AirFlow 2.4, о чем мы писали здесь, как вышел новый релиз. Разбираемся с главными новинками версии 2.5 самого популярного ETL-оркестратора: ключевые исправления и значимые для дата-инженера фичи. 30 новинок Apache AirFlow 2.5 2 декабря 2022 года вышел Apache AirFlow 2.5, который включает...

14Дек
2022

Контракты данных и еще 9 лучших практик применения Apache Kafka для ИТ-архитектора

Автор Анна Вичуговав категории Kafka, Блог

ИТ-архитектура Apache Kafka для дата-инженеров, микросервисы и конвейеры обработки данных Kafka примеры курсы обучение, лучшие практики Apache Kakfa для архитектора и дата-инженера, Школа Больших Данных Учебный центр Коммерсант

Как использовать мощь Apache Kafka в ИТ-архитектуре корпоративных приложений и интеграции информационных систем: краткий ликбез по ключевым принципам работы этой платформы потоковой передачи событий и важность дата-контрактов для инженера данных, разработчика и архитектора. 9 лучших практик использования Apache Kafka в архитектуре приложений Чтобы успешно применять Apache Kafka в качестве основной...

13Дек
2022

Автомасштабирование и развертывание Apache Flink в GCP

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink разработка и развертывание примеры обучение , Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и разработчиков Flink-приложений рассмотрим, как связаны диспетчеры задач и заданий, зачем настраивать автоматическое масштабирование кластера и как это сделать с помощью Google Auto Scaler в облачной инфраструктуре этого провайдера. Роль диспетчера заданий в Apache Flink и механизмы отказоустойчивости Apache Flink — отличный фреймворк создания приложений...

12Дек
2022

Как перевести кластер Apache Spark от YARN в Kubernetes: пошаговый план

Автор Анна Вичуговав категории Spark, Блог

Spark Kubernetes Yarn, курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, Kubernetes курсы обучение, Big Data, курсы инженеров данных, обучение дата-инженеров, администрирование кластера курсы, администратор big Data кластера обучение курсы, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Учитывая рост интереса к DevOps-инструментам, сегодня рассмотрим, зачем переводить кластер Apache Spark, управляемый YARN, в Kubernetes, и как это сделать наиболее эффективно. А также разберем, какие системные метрики контейнерных Spark-приложений надо отслеживать и с помощью каких средств. Зачем переводить кластер Apache Spark от YARN на Kubernetes Apache Spark не зря...

11Дек
2022

Зачем вам WebHCat – REST API к HCatalog в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

WebHCat rest api HCatalog Apache Hive, обучение Hive Hadoop SQL-on-Hadoop примеры курсы дата-инженер разработчик, курсы SQL-on-Hadoop, Hadoop SQL Hive примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое WebHCat в Apache Hive и как этот REST API позволяет взаимодействовать с HCatalog, используя стандартные HTTP-методы. Еще разберем, какие DDL-команды Hive и HiveQL не поддерживает HCatalog, а также что полезного может быть в лог-файлах Templeton. Принципы работы компонента WebHCat как REST-сервиса Apache Hive Будучи NoSQL-хранилищем класса...

10Дек
2022

Как клиенты Apache Kafka общаются с брокерами: протоколы и интерфейсы

Автор Анна Вичуговав категории Kafka, Блог

разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Kafka еще более полезными, сегодня рассмотрим, какие интерфейсы и протоколы для связи клиента с брокером использует эта платформа потоковой передачи событий. А также рассмотрим, что обеспечивает двунаправленную совместимость API. Протоколы и интерфейсы Apache Kafka для общения клиентов с брокерами Apache Kafka использует бинарный протокол...

09Дек
2022

Разработка мультимодальных ML-моделей с TorchMultimodal

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps, ML, Machine Learning, машинное обучение, Data Science, обработка данных, глубокое обучение, PyTorch, TorchMultimodal, Deep Learning, Школа Больших Данных Учебный Центр Коммерсант

В марте 2022 года в Github появился исходный код TorchMultimodal – PyTorch-библиотеки для обучения масштабных мультимодальных многозадачных ML-моделей. А 17 ноября вышел бета-релиз этой библиотеки, который содержит множество полезных примеров и лучших архитектур глубокого обучения. Разбираемся с этой новой библиотекой. Что такое мультимодальные ML-модели и при чем здесь TorchMultimodal Человек...