Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

20Ноя
2021

Один на всех: реализация единого API для унифицированной аналитики больших данных c Apache Flink и Kafka в Pinterest

Автор Анна Вичуговав категории Flink, Kafka, Use Cases, Блог

курсы Apache Kafka примеры обучение, Kafka Flinkпримеры обучение курсы, обучение большим данных, курсы по kafka, обучение Apache Hadoop Flink SQL, новинки Flink 1.14, курсы Apache Hadoop Flink SQL, курсы Hadoop Для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали, что в новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, сделаны попытки объединения потоковой и пакетной парадигм обработки данных. Сегодня рассмотрим, как подобное стремление к унификации реализуется на практике дата-инженерами фотохостинга Pinterest, которые используют Apache Flink как универсальный инструмент аналитики больших данных в...

19Ноя
2021

PXF, Greenplum и оптимизация SQL-запросов к разным источникам данных

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня продолжим разбираться с интеграционным фреймворком Greenplum и рассмотрим, как PXF реализует SQL-запросы к различным OLAP и OLTP-источникам, поддерживая разные форматы данных. Зачем создавать внешнюю таблицу для Greenplum и какие параметры при этом указывать, а также чем хороша технология оптимизации pushdown. SQL и PXF: интеграция Greenplum с внешними источниками на...

18Ноя
2021

AVRO и JSON В Apache Kafka: краткий ликбез по реестру схем

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka примеры обучение, Kafka AVRO, apache avro примеры обучение курсы, обучение большим данных, курсы по kafka, Школа Больших Данных Учебный центр Коммерсант

Apache AVRO не случайно считается очень востребованным форматом и популярной системой сериализации данных, который активно в Kafka. Сегодня рассмотрим, как сериализуются данные в AVRO, каким образом это связано со структурами JSON и при чем здесь реестр схем Confluent. Еще раз про AVRO и сериализацию данных Apache Kafka часто используется в...

17Ноя
2021

На заметку разработчику Spark-приложений: 3 ошибки PySpark и тонкости Outer Join

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных примеры курсы обучение, Spark SQL курсы примеры обучение, PySpark курсы примеры обучение, Spark SQL для дата-аналитиков и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-аналитиков и разработчиков распределенных приложений рассмотрим несколько распространенных ошибок, которые можно сделать в PySpark-коде. Когда PySpark-код на DataFrame DSL лучше запросов Spark SQL, как изящно решить проблему длинных строк, почему пользоваться функцией cache() надо осторожно, а также откуда появляются NULL-значения при внешних соединениях потоковых таблиц. Spark...

16Ноя
2021

Комбо Apache Airflow и NiFi для запланированного запуска ETL-конвейеров: практическая инженерия Big Data

Автор Анна Вичуговав категории AirFlow, NiFi, Блог

интеграция Apache NiFi и AirFlow, курсы дата-инженеров Apache NiFi и AirFlow, обучение Apache NiFi AirFlow примеры, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров еще более полезными, сегодня рассмотрим, как объединить Apache NiFi и Airflow в рамках одного ETL-конвейера обработки данных. Читайте далее, зачем совмещать эти технологии и как сделать это наиболее эффективно, обращаясь к конечным точкам REST API процессоров NiFi из задач DAG-графа AirFlow. Apache Airflow +...

15Ноя
2021

Графовая аналитика путешествий цифровых кочевников с Neo4j и Cypher

Автор Анна Вичуговав категории Neo4j, Use Cases, Блог

графовые алгоритмы пример обучение Neo4j и Cypher, курсы Neo4j и Cypher, графовые алгоритмы, графовая аналитика больших данных пример курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим пример анализа данных о путешествиях средствами графовой СУБД Neo4j и ее языка запросов Cypher. Читайте далее, где взять данные о путешествиях цифровых кочевников и как определить самое популярное направление. Цифровые кочевники и графы их путешествий Хотя...

13Ноя
2021

Arenadata LogSearch: российская enterprise-адаптация Elasticsearch

Автор Анна Вичуговав категории Use Cases, Блог

обучение Arenadata Enterprise Data Platform, курсы Arenadata, авторизованные курсы Arenadata Hadoop Streaming DB, сертификация Arenadata, обучение большим данным курсы, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

В октябре 2021 года российская компания «Аренадата Софтвер» выпустила новый продукт для аналитики больших данных под брендом Arenadata. Что такое Arenadata LogSearch (ADLS), при чем здесь Elasticsearch и какие потребности закрывает эта корпоративная адаптация open-source технологии полнотекстового поиска от отечественных разработчиков. Elasticsearch, OpenSearch и Arenadata LogSearch: близнецы или тройняшки? Среди...

12Ноя
2021

Потоковая аналитика больших данных в Udemy: система отслеживания событий на Apache Hive и Kafka в AWS

Автор Анна Вичуговав категории Hive, Kafka, Блог

аналитика больших данных примеры кейсы обучение курсы, курсы Apache Kafka, курсы Hive SQL, обучение большим данным на практических примерах, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс платформы онлайн-обучения Udemy по разработке собственной системы потоковой аналитики больших данных о событиях пользовательского поведения на Apache Kafka, Hive и сервисах Amazon. Про требования к инфраструктуре отслеживания событий и их реализацию с помощью Apache Kafka, Hive, Kubernetes, AWS S3 и EMR, а также чем AVRO лучше Protobuf....

11Ноя
2021

10 вопросов на знание основ работы с Hbase: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hbase

Автор administratorв категории Тесты

hadoop hive, курсы по sparksql, курсы по apache spark, курсы для инженеров данных, курсы по apache phoenix, курсы arenadata Hadoop, курсы по sparksql

Чтобы самостоятельное обучение по Hbase стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с этой СУБД в этой распределенной СУБД, включая ее особенности работы и архитектуру. Тест по основам работы с СУБД Hbase для новичков Для тех, кто начинает самостоятельное обучение по Apache Hbase, мы предлагаем...

11Ноя
2021

Синергия Apache Airflow и Ray для MLOps-конвейеров: инженерия Data Science

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, курсы Data Science, курсы Machine Learning, машинное обучение курсы примеры, AirFlow Ray примеры, обучение большим данным для инженеров и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

MLOps и построение конвейеров машинного обучения – одни из самых актуальных задач современной Data Science. Сегодня рассмотрим, чем совместное использование Apache Airflow и Ray полезно для дата-инженера и ML-разработчика. Читайте далее про кластерное развертывание Python-кода ML-моделей и упрощение ETL-процессов с Apache Airflow и Ray. Apache AirFlow для ML: возможности и...

10Ноя
2021

Как устроен PXF Greenplum: архитектура и принципы работы

Автор Анна Вичуговав категории Greenplum, Блог

Специально для дата-инженеров, разработчиков OLAP-конвейеров и архитекторов DWH на MPP-СУБД Greenplum и Arenadata DB сегодня рассмотрим, что представляет собой PXF, из каких компонентов он состоит и как они взаимодействуют друг с другом, чтобы обеспечить параллельный высокопроизводительный доступ к данным и объединенную обработку запросов к разнородным источникам. Что PXF и зачем...

09Ноя
2021

Apache Spark 3.2.0 и Scala 3.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчика курсы примеры обучение Scala, обучение Apache Spark, Spark Apache Spark примеры разработки приложений, Spark обработка данных Scala Spark пример, Scala 3 примеры Apache Spark, Apache Spark для разработчика Scala Java курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В начале сентября 2021 года вышел 3-й релиз языка программирования Scala, который разработчики называют полностью переработанным из-за модернизации системы типов и добавления новых функций. Текущая версия Apache Spark 3.2.0, выпущенная месяцем позже, поддерживает Scala 2.13 и 3.0 с ограничением некоторых возможностей. Читайте далее, как разработчикам распределенных Spark-приложений писать задания на...

08Ноя
2021

Базовые операции в Hbase: основы Big Data для начинающих

Автор administratorв категории NoSql, Блог

В этой статье мы поговорим про основные базовые операции распределенной СУБД Hbase. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД на практических примерах. Читайте далее про базовые CRUD-операции в Hbase и их особенности. Основные CRUD-операции в распределенной СУБД Hbase HBase - это распределенная NoSQL столбцово-ориентированная (данные представлены...

08Ноя
2021

Как передать данные из GridDB в Apache Kafka через JDBC-коннектор

Автор Анна Вичуговав категории Kafka, Блог

GridDB Kafka Connect пример, Kafka Connect коннекторы кафка курсы обучение, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, Apache Kafka для разработчика примеры обучение курсы, Обучение Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Добавляя в наши курсы по Apache Kafka еще больше полезных кейсов, сегодня рассмотрим пример интеграции этой распределенной платформы потоковой передачи событий с масштабируемой key-value СУБД GridDB через JDBC-коннекторы Kafka Connect. Apache Kafka как источник данных: source-коннектор JDBC Apache Kafka часто используется в качестве источника или приемника данных для аналитической обработки...

07Ноя
2021

Соединения и хуки в Apache Airflow: разбираем на примере SQLite

Автор administratorв категории AirFlow, Блог

В прошлый раз мы говорили о способе взаимодействия задач между собой в Apache Airflow. Сегодня поговорим о таких сущностях, как соединение (connections) и хуки (hooks). Читайте в этой статье: что такое хук и соединение, как создать и скачать соединение, а также как подключить базу данных в Airflow. Что такое связи...

06Ноя
2021

Apache Flink 1.14: что нового?

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Hadoop Flink SQL, новинки Flink 1.14, курсы Apache Hadoop Flink SQL, курсы Hadoop Для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

29 сентября 2021 года вышла новая версия популярного Big Data фреймворка Apache Flink. Мы сделали краткий обзор главных улучшений свежего релиза 1.14 общедоступного дистрибутива, а также его коммерциализации в Ververica Platform 2.6. Узнайте, как потоковая обработка и аналитики больших данных с Apache Flink станет еще проще и эффективнее. Исправление ошибок...

05Ноя
2021

От Cassandra к Google Cloud Spanner: опыт Uber

Автор Анна Вичуговав категории Use Cases, Блог

графовые алгоритмы курсы обучение, аналитика больших данных геоинформационные системы, геоинформационные сиcтемы курсы обучение кейсы примеры Big Data, аналитика больших данных для руководителей курсы примеры обучение, Cassandra NoSQL курсы обучение, NewSQL Google Cloud Spanner Uber case h3, Школа Больших Данных Учебный центр Коммерсантобучение примеры

Сегодня рассмотрим, как Uber эффективно обрабатывает миллионы запросов на поездки c помощью технологий надежного хранения и быстрой аналитики больших данных. Вас ждет краткий ликбез по системе геопространственной индексации H3 и рассказ о том, почему компания заменила NoSQL-Cassandra c компонентом Saga интеграционного фреймворка Camel на геораспределенную облачную NewSQL-СУБД Spanner от Google....

04Ноя
2021

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

пример конвейера в Apache NiFi, обучение Apache NiFi, Apache NiFi курсы, обучение дата-инженеров курсы примеры, принципы работы и примеры Apache NiFi, GridDB ETL пример ML, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий ликбез по GridDB и Apache NiFi в кейсе построения ML-системы для анализа данных временных рядов. Анализ данных временных рядов c...

03Ноя
2021

Проблема вызовов REST API в Apache Spark и способы ее решения

Автор Анна Вичуговав категории Spark, Блог

Библиотека REST Data Source для Apache Spark, обучение Apache Spark, Spark предобработка данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Spark разберем, что не так с вызовами REST API в этом фреймворке, и как решить эту проблему с помощью готовых библиотек или создания собственных UDF-функций на PySpark и не только. Для наглядности рассмотрим практический пример вызова REST API на PySpark с библиотекой Rest Data...

02Ноя
2021

Что такое Saamsa и зачем это разработчику Apache Kafka: краткий обзор

Автор Анна Вичуговав категории Kafka, Блог

Saamsa Kafka, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, администрирование кластера Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Постоянно обновляя наши курсы по Apache Kafka, сегодня рассмотрим еще один полезный инструмент для администраторов, дата-инженеров и разработчиков, который повышает эффективность взаимодействия с этой распределенной платформой потоковой обработки событий. Что такое Saamsa, какие проблемы Kafka она решает и как ее использовать на практике. 5 вопросов разработчика и дата-инженера к Apache...