Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

17Фев
2022

Зачем вам GreenplumR: синергия MPP-СУБД и интерпретируемого языка для статистики

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum R клиент статистический анализ данных Arenadata DB обучение курсы примеры, Greenplum для дата-аналитика обучение курс примеры, GreenplumR примеры курсы обучение, Arenadata DB примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как использовать статистический язык R для анализа данных в Greenplum. Что такое GreenplumR, как работает этот интерактивный клиент, чем он полезен специалисту по Data Science и каковы недостатки этого инструмента аналитики больших данных. Что такое GreenplumR Хотя основным языком в области Data Science сегодня считается Python, иногда специалисты...

16Фев
2022

Анализ графа NFT-транзакций с Neo4j и Cypher

Автор Анна Вичуговав категории Neo4j, Блог

аналитика больших данных с Neo4j и Cypher, курсы Neo4j и Cypher, обучение Neo4j и Cypher, графовая аналитика Big Data курсы примеры обучение, NFT Neo4j Cypher, обучение дата-аналитиков курсы примеры, аналитик данных курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках нашего нового курса по графовым алгоритмам в бизнес-приложениях, сегодня рассмотрим популярную сегодня тему про невзаимозаменяемые токены в криптовалютах и не только. Пример анализа графа по NFT-транзакциям в графовой СУБД Neo4j с помощью инструкций языка запросов Cypher. Что такое NFT и причем здесь блокчейн с криптовалютами Уникальный или невзаимозаменяемый...

14Фев
2022

Анализ данных временных рядов с Apache Spark: пара примеров c Flint и Pandas

Автор Анна Вичуговав категории Spark, Блог

анализ данных временных рядов Spark Flint пример, курсы аналитик больших данных, Apache Spark для аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark курсы, примеры Spark обработка CSV, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и аналитиков рассмотрим пример мониторинга состояния электрогенераторов с помощью анализа данных временных рядов и ранжирования в pandas для предупреждения выхода оборудования из строя. А также разберем основы анализа временных рядов на больших данных с открытой библиотекой Flint для Apache Spark. Постановка задачи: температура и производительность...

12Фев
2022

5 шагов по миграции на новый релиз Apache Kafka 3.1.0 и подводные камни

Автор Анна Вичуговав категории Kafka, Блог

администратор кластера Kafka, обучение Apache Kafka, Apache Kafka, курсы примеры обучение для разработчиков и администраторов, последняя версия Apache Kafka, обновления Apache Kafka 3.1.0, обучение разработчиков и администраторов Big Data, Школа Больших Данных Учебный центр Коммерсант

Вчера мы писали о недавно вышедшем свежем релизе Apache Kafka 3.1.0, который вышел в январе 2022 года. Сегодня рассмотрим, как безболезненно перейти на эту версию и избежать возможных побочных эффектов, связанных с некоторыми архитектурными изменениями платформы. Побочные эффекты и подводные камни обновления Напомним, в Apache Kafka 3.1.0 добавлена новая фича...

11Фев
2022

Apache Kafka 3.1.0: что нового?

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka, курсы примеры обучение для разработчиков и администраторов, последняя версия Apache Kafka, обновления Apache Kafka 3.1.0, обучение разработчиков и администраторов Big Data, Школа Больших Данных Учебный центр Коммерсант

24 января 2022 года вышел новый релиз Apache Kafka. Главные новинки самой последней на сегодня стабильной версии 3.1.0: добавленные фичи, улучшения и исправленные баги краткий обзор для разработчиков распределенных приложений Kafka Streams и администраторов кластера этой платформы потоковой передачи событий. Новинки Apache Kafka 3.1.0 для администратора кластера В свежем релизе...

10Фев
2022

Архитектура больших данных: 5 шаблонов проектирования распределенных систем

Автор Анна Вичуговав категории Kafka, Блог

архитектура больших данных курсы примеры обучение, шаблоны проектирования распределенных приложений, Saga CQRS Sharded services микросервисная архитектура примеры курсы обучение, курсы для ИТ-архитекторов по Big Data, обучение разработчиков больших данных распределенных приложений, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про архитектурный шаблон CQRS и его реализацию на базе Apache Kafka. В продолжение этой темы для обучения ИТ-архитекторов и разработчиков Big Data приложений, сегодня рассмотрим еще несколько популярных шаблонов проектирования распределенных систем: достоинства, недостатки, примеры реализации и способы их использования. Шаблоны проектирования распределенных систем: что это и...

08Фев
2022

Дедупликация, нумерация и ранжирование строк в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

обучение Apache Hive, курсы SQL-on-Hadoop, Hive Hadoop курсы примеры обучение, обучение дата-инженеров, нумерация с трок в Hive, Hive SQL Примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по SQL-on-Hadoop для дата-инженеров и разработчиков распределенных приложений интересные примеры, сегодня рассмотрим пару практических техник по работе с Apache Hive. Читайте далее, как автоматически пронумеровать строки Hive-таблицы, исключив дубликаты в последовательности, и чем аналитическая функция row_number() отличается от rank() с dense_rank(). Генерация порядкового номера строки...

07Фев
2022

Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и с Phoenix: кейс Salesforce

Автор Анна Вичуговав категории HBase, Блог

вторичный индекс HBase, HBase Phoenix вторичная индексация, обучение Hadoop SQl администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно на примере ИТ-компании Salesforce мы рассказывали про вторичную индексацию таблиц Apache HBase с помощью Phoenix – средства обращения к NoSQL-хранилищу через SQL-запросы. В продолжение этого кейса, сегодня рассмотрим, как были перепроектированы глобальные вторичные индексы для обеспечения более высокого уровня согласованности, чем предлагает Apache Phoenix. Реализация вторичных индексов в таблицах...

05Фев
2022

Подсчет записей в CSV-файлах средствами Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark курсы, примеры Spark обработка CSV, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Spark еще более полезными, сегодня разберем 2 варианта решения типовой задачи инженерии данных. Как быстро и эффективно считать данные из множества CSV-файлов с одинаковой схемой за несколько строк кода на PySpark. Постановка задачи: рутинная работа с CSV-файлами Наряду с JSON-файлами, про которые мы писали...

04Фев
2022

Современная инженерия данных: от Data Lake к облачной Лямбда

Автор Анна Вичуговав категории AirFlow, HBase, Kafka, Spark, Use Cases, Блог

инженерия данных курсы обучение примеры, архитектура больших данных курсы примеры обучение, обучение большим данным, курс дата-инженер Kafka Spark AirFlow Hadoop, обучение BIg Data для архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Сегодня обсудим ключевые тренды развития дата-инженерии и инструментальные средства их реализации. Как это применяется на практике, рассмотрим на примере эволюции хранилища данных в индонезийской ИТ-компании Bukalapak, от локального кластера Apache HBase до Лямбда-архитектуры в облаке Google Cloud Platform с Kafka, Spark и AirFlow. 7 главных драйверов развития дата-инженерии В наши...

03Фев
2022

Архитектура больших данных: реализация шаблона CQRS на Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams курсы обучение, Kafka для архитекторов и разработчиков, архитектура данных обучение примеры курсы CQRS, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka Streams и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений и ИТ-архитекторов разберем достоинства и недостатки паттерна проектирования CQRS, а также рассмотрим пример его реализации на Apache Kafka, Spring Cloud Stream и MongoDB. Что такое CQRS: основы проектирования архитектуры приложений Спрос на приложения, управляемые событиями, постоянно растет как для решения новых бизнес-задач, так...

02Фев
2022

Насколько вы популярны и общительны: анализ социальных связей с Graph Data Science в Neo4j и Cypher

Автор Анна Вичуговав категории Neo4j, Блог

анализ социальных сетей на графах Neo4j пример курсы обучение, графовая аналитика больших данных курсы Data Science примеры обучение, курсы обучение Neo4j, обучение дата-аналитик, аналитик больших данных курсы, аналитика данных на графах, графовые алгоритмы на больших данных курсы примеры, обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовым алгоритмам в бизнес-приложениях, сегодня рассмотрим применение теории графов к задаче анализа социальных связей на практическом примере возможностей библиотеки Graph Data Science СУБД Neo4j и ее языка запросов Cypher. А также разберем сопутствующую теорию: что такое центральность графа, почему эта мера не подходит для сетей...

01Фев
2022

Лямбда-архитектура IoT-системы на Apache Kafka, Flink и Cassandra

Автор Анна Вичуговав категории Flink, Internet of Things, Блог

архитектура данных курсы обучение, архитектура больших данных, курсы Apache Flink Kafka Cassandra примеры обучение, обучение большим данным, курсы дата-инженер, инженерия данных обучение, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров интересные кейсы, сегодня рассмотрим, как реализовать Лямбда-архитектуру для комплексной аналитики больших данных с помощью Apache Flink, Kafka и Cassandra на примере системы интернета вещей. Объединение пакетной и потоковой обработки данных средствами Flink API и библиотек этого фреймворка. Постановка задачи на примере IoT-системы Несмотря на...

31Янв
2022

Сложности индексации таблиц Apache HBase и способы их обхода с Phoenix

Автор Анна Вичуговав категории HBase, Блог

В Apache HBase индексация таблиц возможна только по одному полю. Обойти это ограничение позволяет Apache Phoenix - инструмент обращения к NoSQL-хранилищу средствами SQL-запросов. В этой статье для дата-инженеров, архитекторов ИТ-решений и аналитиков данных рассмотрим типы вторичной индексации таблиц HBase в Phoenix и проблемы согласованности вторичных индексов, с которыми столкнулись специалисты...

30Янв
2022

Парсинг JSON-файлов в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Недавно мы писали про сложности обработки вложенных структур данных в JSON-файлах при работе с Apache Hive и Spark. В продолжении этой темы про парсинг, сегодня поговорим, как быстро преобразовать данные формата JSON в простой читаемый файл CSV или плоскую таблицу, чтобы анализировать их с помощью типовых методов DataFrame API или...

29Янв
2022

Не только PXF: краткий обзор интеграции Greenplum с другими Big Data системами и инструменты полнотекстового поиска

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum коннекторы полнотекстовый анализ Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, установка и развертывание Greenplum Arenadata DB, Школа Больших Данных Учебный центр Коммерсант

Мы уже рассказывали про связь Greenplum с другими источниками и приемниками данных с помощью PXF-фреймворка, а также отдельных коннекторов к некоторым системам. Сегодня рассмотрим, какие вообще есть коннекторы данных в этой MPP-СУБД и что такое Tanzu Greenplum Text. Коннекторы и фреймворки для интеграции GP и Arenadata DB с внешними системами...

27Янв
2022

Безопасность Kafka на Kubernetes с помощью Strimzi: аутентификация и авторизация

Автор Анна Вичуговав категории Kafka, Блог

Strimzi Kafka Kubernetes Security, администрирование кластера Apache Kafka Kubernetes, обучение Kafka, курсы Apache Kafka администратор кластера, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про развертывание Apache Kafka на Kubernetes с помощью open-source проекта Strimzi. Сегодня рассмотрим, как обеспечить безопасный доступ к данным на таком кластере, применив различные методы аутентификации и авторизации. Лучшие практики cybersecurity на практическом примере. Постановка задачи: пример приложения с безопасным доступом к данным Напомним, Strimzi – это...

25Янв
2022

Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Автор Анна Вичуговав категории Hive, Trino, Блог

Trino Hive курсы примеры обучение, обучение Apache Hive, Hive курсы примеры обучение, SQL-on-Hadoop примеры курсы обучение, HiveQL курсы, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop, рассмотрим, что такое Trino и как это работает с Apache Hive. А также при чем здесь Presto и зачем коннектор со своей средой выполнения использует Hive Metastore. Что такое Trino и при чем здесь Presto SQL Trino – это механизм запросов для...

24Янв
2022

Еще больше и быстрее: извлечение данных из Neo4j с Apache Arrow

Автор Анна Вичуговав категории Neo4j, Блог

графовая аналитика больших данных курсы примеры обучение, курсы обучение Neo4j, обучение дата-аналитик, аналитик больших данных курсы, аналитика данных на графах, графовые алгоритмы на больших данных курсы примеры, обучение, Школа Больших Данных Учебный Центр Коммерсант

Дополняя наши курсы по аналитике больших данных в бизнес-приложениях новыми полезными примерами, сегодня рассмотрим, как Apache Arrow помогает повысить производительность извлечения данных из Neo4j с помощью их колоночного представления и обработки в памяти, а не на диске. Чем neo4j-arrow лучше драйверов Java и Python, а также собственной Neo4j библиотеки Graph...

23Янв
2022

Автоматическая диагностика и исправление сбоев в платформе данных Netflix c Apache Spark, Kafka, Flink и другими технологиями Big Data

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

обучение дата-инженеров, инженерия данных курсы, инженер Big Data, курсы Flink Kafka Spark, обучение большим данным примеры кейсы курсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров еще более интересными, сегодня рассмотрим практический пример построения инфраструктуры для автоматической диагностики и исправления ошибок пакетной и потоковой обработки данных в Netflix. Комплексная система на базе Apache Spark, Kafka, Flink, Druid, сервисов AWS и других технологий Big Data. Предыстория: зачем Netflix разработал Pensive Обработка...