Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

18Янв
2022

Снова про Apache Kafka на Kubernetes: Strimzi в помощь

Автор Анна Вичуговав категории Kafka, Блог

Strimzi Kafka Kubernetes, администррование кластера Apache Kafka Kubernetes, обучение Kafka, курсы Apache Kafka администратор кластера, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

При том, что развертывание и эксплуатация Apache Kafka на Kubernetes требуют от администратора кластера много сил и времени, эта идея имеет массу достоинств, о чем мы писали здесь. Поэтому появляются новые инструменты, которые облегчают эти процессы, например, KubeMQ или Strimzi, который мы рассмотрим в этой статье. Что такое Strimzi и при...

17Янв
2022

Потоковый веб-парсинг на Apache Flink + RabbitMQ: кейс от дата-инженеров FiscalNote

Автор Анна Вичуговав категории Flink, Блог

Apache Flink RabbitMQ инженерия данных, курсы Flink Hadoop обучение примерыб инженер данных Apache Flink, потоковая обработка данных с Apache Flink, обучение дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений разберем кейс американской ИТ-компании FiscalNote, которая использует Apache Flink в качестве движка потоковой обработки информации со сторонних веб-сайтов. Трудности сериализации сообщений из очередей RabbitMQ с разной скоростью поступления Big Data и способы их обхода. Постановка задачи: требования для Flink-приложения FiscalNote специализируется...

16Янв
2022

Как создать Cypher-запрос для Neo4j из простого текста с Aspen

Автор Анна Вичуговав категории Neo4j, Блог

Data Science Cypher Aspen обучение Neo4j, курсы Neo4j Aspen Cypher, графовая аналитика больших данных, анализ данных на графах, аналитика Big Data курсы обучение Neoj4, Школа Больших Данных Учебный центр Коммерсант

Обучая дата-аналитиков и разработчиков Neo4j, сегодня разберем, что такое Aspen, как этот язык разметки переводит текст в запрос Cypher с помощью одной командной строки и каким образом это пригодится для графовой аналитики больших данных в бизнес-приложениях. Что такое Aspen, а также как он связан с Neo4j и Cypher Будучи написанным на Ruby...

15Янв
2022

Преобразования типов в SQL-запросов Apache Hive и не только: сравнение разных версий и СУБД

Автор Анна Вичуговав категории Hive, Блог

обучение Apache Hive, Hive курсы примеры обучение, SQL-on-Hadoop примеры курсы обучение, HiveQL курсы, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим тему, полезную для обучения администраторов SQL-on-Hadoop и разработчиков распределенных приложений: операции сравнения и арифметические вычисления между строковыми и десятичными типами в Apache Hive 1.2.0 и 3.1.0, а также MySQL и Microsoft SQL Server 2017. Про типы данных и SQL-запросы в Apache Hive Чтобы упростить сравнение, будем считать типы...

14Янв
2022

10 вопросов на знание основ работы с функциями командной строки Impala: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Impala

Автор administratorв категории Тесты

рсы etl, big data курсы москва, курсы по kafkasql, курсы по apache spark, курсы по sparksql, курс разработчиков greenplum, обучение arenadata hadoop, курсы администрирования spark, arenadata hadoop, курс hbase

Чтобы самостоятельное обучение по Impala стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с функциями командной строки в этой распределенной СУБД, включая особенности их применения. Тест по основам работы с функциями командной строки в Impala для новичков Для тех, кто начинает самостоятельное обучение по Apache Impala,...

14Янв
2022

Блеск и нищета Erasure Coding в Apache Hadoop 3: опыт Одноклассников c HDFS

Автор Анна Вичуговав категории Use Cases, Блог

обучение Apache Hadoop курсы примеры, Apache Hadoop для инженеров данных, дата-инженер Apache Hadoop HDFS, администрирование Apache Hadoop HDFS, Erasure Coding HDFS примеры, обучение большим данным, администрирование кластера Hadoop, обучение администратор Hadoop, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, что Apache Hadoop 3.3.1 поддерживает технологию кодирования со стиранием (Erasure Coding, EC), которая экономит место на жестком диске по сравнению с репликацией. Однако, беспечное применение этой новой фичи может обернуться настоящей катастрофой. Кейс соцсети «Одноклассники» от ведущего разработчика Дениса Ефарова, представленный на конференции Smart Data для инженеров данных в...

13Янв
2022

Spark NLP 3.4.0: новый релиз ML-библиотеки для Apache Spark 3.2.x на Scala 2.12

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для дата-аналитиков и сайнтистов примеры курсы обучение, Spark NLP курсы примеры обучение Data Science, обучение Spark курсы, примеры Spark NLP, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

2022 год только начался, а John Snow Labs уже радует разработчиков ML-приложений новым релизом библиотеки Spark NLP. Ключевые фичи 3.4.0 для версии Apache Spark 3.2.x на Scala 2.12: новые GPT-2 трансформеры, аннотаторы для ALBERT, XLNet, RoBERTa, XLM-RoBERTa и Longformer, расширенный хаб готовых Machine Learning моделей и конвейеров, а также исправление...

12Янв
2022

Под капотом Apache NiFi: внутренний язык выражений

Автор Анна Вичуговав категории NiFi, Блог

пример Apache NiFi курсы обучение, NiFi для инженеров данных, NiFi язык выражений Expression Language, курсы Apache NiFi, обучение разработчик Data Flow, NiFi примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения разработчиков Data Flow и инженеров данных разберем основные принципы внутреннего языка выражений Apache NiFi: что такое атрибуты FlowFile, как манипулировать ими. Синтаксис функций, типы данных, иерархия переменных и другие тонкости Apache NiFi для дата-инженера. Язык выражений в Apache NiFi как способ манипулировать атрибутами Напомним, все данные в...

11Янв
2022

Что такое функции командной строки в Impala и для чего они нужны

Автор administratorв категории NoSql, Блог

курсы etl, big data курсы москва, курсы по kafkasql, курсы по apache spark, курсы по sparksql, курс разработчиков greenplum, обучение arenadata hadoop, курсы администрирования spark, arenadata hadoop, курс hbase

В прошлый раз мы говорили про метаданные в Apache Impala. Сегодня поговорим про функции командной строки в Impala. Читайте далее про особенности работы функций командной строки Impala, благодаря которым становится возможным процесс оптимизации обработки Big Data массивов. Как работают функции командной строки в Impala: особенности оптимизации обработки Big Data Командная...

11Янв
2022

ksqlDB 0.22.0: ноябрьское обновление компонента Apache Kafka от Confluence

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams курсы обучение, KSQL Kafka, ksqlDB курсы примеры обучение, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka Streams и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

3 ноября 2021 года компания Confluent, которая занимается продвижением и коммерциализацией Apache Kafka, выпустила новый релиз ksqlDB, который включает 20 исправленных ошибок и 18 добавленных фич. Самое интересное в выпуске 0.22.0: улучшенные push- и pull-запросы, а также source-потоки и таблицы. 20 исправленных багов и 18 новых фич в ksqlDB 0.22.0...

10Янв
2022

Синергия Apache Airflow и Great Expectations для высокого качества больших данных

Автор Анна Вичуговав категории AirFlow, Блог

курсы AirFlow, обучение дата-инженеров AirFlow Python, качество данных обучение курсы примеры, конвейеры качества данных, обучение большим данным, дата-инженер обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, что такое Great Expectations, чем этот инструмент полезен для специалистов по Data Science и дата-инженеров, а также как связать его с Apache Airflow, какую пользу это принесет в задачах обеспечении качества данных. Также разберем кейс совместного использования Apache Airflow и Great Expectations в компании Vimeo и заглянем под...

09Янв
2022

Apache Spark и AWS S3: лучшие практики и опыт Pinterest

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для дата-инженеров примеры курсы обучение, AggregateByKey() in Apache Spark, обучение Spark курсы, примеры Spark AWS S3, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений и дата-инженеров рассмотрим особенности взаимодействия с облачным объектным хранилищем больших данных AWS S3. Как повысить эффективность и ускорить выполнения Spark-заданий на чтение данных из S3: рекомендации Pinterest. Пара советов по работе Apache Spark с AWS S3 Прежде чем перейти к опыту дата-инженеров фотохостинга Pinterest,...

08Янв
2022

Greenplum под защитой: настраиваем Kerberos

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB Kerberos обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, настройка безопасности Kerberos Greenplum Arenadata, Школа Больших Данных Учебный центр Коммерсант

В этой статье для администраторов Greenplum рассмотрим, как настроить систему сетевой защиты Kerberos для этой MPP-СУБД, чтобы контролировать доступ к хранящимся в ней данным с помощью сервера аутентификации. А также рассмотрим основные понятия и термины Kerberos применительно к Greenplum. Что такое Kerberos и зачем это в Greenplum Напомним, Kerberos –...

07Янв
2022

Повышаем устойчивость приложений Apache Kafka через обработку исключений

Автор Анна Вичуговав категории Kafka, Блог

разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, администрирование кластера Kafka, конфигурации брокера топика продсера и потребителя Kafka настройки, обучение дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем практический вопрос из обучения администраторов кластера Apache Kafka и разработчиков распределенных приложений. Про исключения в Kafka-приложениях: какие они бывают, почему случаются, с какими параметрами конфигурации связаны и что могут сказать о тонкостях потоковой обработки больших данных. Исключения и транзакции в Apache Kafka В ИТ под исключением понимается исключительная...

06Янв
2022

Обработка вложенных структур в JSON-файлах для Hive Metastore c Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop курсы примеры обучение, Hive Metastore JSON Spark, Apache Hive Spark, обучение Spark Hive курсы, обучение Spark SQL, примеры Spark Hive для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чем хороши JSON-файлы и как с ними работать в Apache Spark и Hive: проблемы обработки вложенных структур данных и способы их решения на практических примерах. Как автоматизировать переименование некорректных названий полей во вложенных структурах данных JSON-файлов на любом количестве таблиц со множеством полей, чтобы создать таблицу в Hive Metastore и...

05Янв
2022

Сложности перехода: миграция из Apache HBase в Google BigTable – кейс компании Box

Автор Анна Вичуговав категории HBase, Use Cases, Блог

обучение Hadoop, курсы Hadoop HBase, обучение дата-инженеров и администраторов Hadoop HBase, HBase BigTable migration, обучение большим данным примеры кейсы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про пользу snapshot’ов Apache HBase на примере компании Vimeo. Сегодня рассмотрим кейс корпорации Box, которая специализируется на облачных enterprise-продуктах совместного управления контентом и файлами. Переход от локальной HBase к Google Cloud BigTable: сложности миграции и способы их обхода. Сходства и различия Apache HBase с Google Cloud BigTable...

04Янв
2022

Savepoint vs Checkpoint в Apache Flink: сходства и отличия

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink курсы, Apache Flink для разработчиков, курсы Apache Hadoop для разработчиков примеры, Savepoint vs Checkpoint Apache Flink, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Разбираемся с механизмами отказоустойчивости Flink-приложений. Что такое контрольные точки (Checkpoint), чем они отличаются от точек сохранения (Savepoint) и что между ними общего. А также при чем здесь snapshot, что выбирать в разных случаях и как это использовать для отказоустойчивости stateful-приложений Apache Flink. Snapshot как механизм обеспечения отказоустойчивости приложений Apache Flink...

03Янв
2022

Как работает AggregateByKey() в Apache Spark: краткий ликбез и пара примеров

Автор Анна Вичуговав категории Spark, Блог

агрегатные функции в Apache Spark, AggregateByKey() in Apache Sparkб обучение Spark курсы, обучение Spark SQL, примеры Spark Для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-аналитиков и разработчиков Spark-приложений, сегодня рассмотрим одну из агрегатных функций обработки данных в этом распределенном вычислительном фреймворке. Чем aggregateByKey() отличается от reduceByKey() и groupByKey(), и когда стоит ее использовать. Как устроена функция aggregateByKey(): назначение и синтаксис Функция aggregateByKey() - одна из агрегатных функций, наряду с reduceByKey() и...

02Янв
2022

10 важных конфигураций Apache Kafka для практической работы

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, администрирование кластера Kafka, конфигурации брокера топика продсера и потребителя Kafka настройки, обучение дата-инженеров, обучение большим данным, архитектура больших данных, ML Feature Store Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Kafka для администраторов кластеров и разработчиков распределенных приложений еще более полезными, сегодня рассмотрим несколько полезных и значимых конфигурационных параметров этой платформы потоковой передачи событий. Что настроить на брокере, топике, продюсере и потребителе, как распараллелить потоки и обрабатывать транзакции. Настройка брокеров и потоков в Apache...

01Янв
2022

Apache Airflow vs Beam: сходства и отличия

Автор Анна Вичуговав категории AirFlow, Beam, Блог

Beam DAG AirFlow, обучение AirFlow, курсы AirFlow, примеры AirFlow курсы обучение дата-инженеров, AirFlow vs Beam, курсы дата-инженеров, обучение инженеров данных, Школа Больших Данных Учебный центр Коммерсант

В этой статье по обучению дата-инженеров разберем, что такое Apache Beam, чем этот фреймворк отличается от AirFlow и что между ними общего. На первый взгляд Apache Airflow и Beam являются конкурентами: они предназначены для организации процессов обработки данных в определенном порядке. Оба инструмента являются open-source проектами, широко используются и поддерживаются...