Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

13Ноя
2021

Arenadata LogSearch: российская enterprise-адаптация Elasticsearch

Автор Анна Вичуговав категории Use Cases, Блог

обучение Arenadata Enterprise Data Platform, курсы Arenadata, авторизованные курсы Arenadata Hadoop Streaming DB, сертификация Arenadata, обучение большим данным курсы, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

В октябре 2021 года российская компания «Аренадата Софтвер» выпустила новый продукт для аналитики больших данных под брендом Arenadata. Что такое Arenadata LogSearch (ADLS), при чем здесь Elasticsearch и какие потребности закрывает эта корпоративная адаптация open-source технологии полнотекстового поиска от отечественных разработчиков. Elasticsearch, OpenSearch и Arenadata LogSearch: близнецы или тройняшки? Среди...

12Ноя
2021

Потоковая аналитика больших данных в Udemy: система отслеживания событий на Apache Hive и Kafka в AWS

Автор Анна Вичуговав категории Hive, Kafka, Блог

аналитика больших данных примеры кейсы обучение курсы, курсы Apache Kafka, курсы Hive SQL, обучение большим данным на практических примерах, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс платформы онлайн-обучения Udemy по разработке собственной системы потоковой аналитики больших данных о событиях пользовательского поведения на Apache Kafka, Hive и сервисах Amazon. Про требования к инфраструктуре отслеживания событий и их реализацию с помощью Apache Kafka, Hive, Kubernetes, AWS S3 и EMR, а также чем AVRO лучше Protobuf....

11Ноя
2021

Синергия Apache Airflow и Ray для MLOps-конвейеров: инженерия Data Science

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, курсы Data Science, курсы Machine Learning, машинное обучение курсы примеры, AirFlow Ray примеры, обучение большим данным для инженеров и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

MLOps и построение конвейеров машинного обучения – одни из самых актуальных задач современной Data Science. Сегодня рассмотрим, чем совместное использование Apache Airflow и Ray полезно для дата-инженера и ML-разработчика. Читайте далее про кластерное развертывание Python-кода ML-моделей и упрощение ETL-процессов с Apache Airflow и Ray. Apache AirFlow для ML: возможности и...

10Ноя
2021

Как устроен PXF Greenplum: архитектура и принципы работы

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Специально для дата-инженеров, разработчиков OLAP-конвейеров и архитекторов DWH на MPP-СУБД Greenplum и Arenadata DB сегодня рассмотрим, что представляет собой PXF, из каких компонентов он состоит и как они взаимодействуют друг с другом, чтобы обеспечить параллельный высокопроизводительный доступ к данным и объединенную обработку запросов к разнородным источникам. Что PXF и зачем...

09Ноя
2021

Apache Spark 3.2.0 и Scala 3.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчика курсы примеры обучение Scala, обучение Apache Spark, Spark Apache Spark примеры разработки приложений, Spark обработка данных Scala Spark пример, Scala 3 примеры Apache Spark, Apache Spark для разработчика Scala Java курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В начале сентября 2021 года вышел 3-й релиз языка программирования Scala, который разработчики называют полностью переработанным из-за модернизации системы типов и добавления новых функций. Текущая версия Apache Spark 3.2.0, выпущенная месяцем позже, поддерживает Scala 2.13 и 3.0 с ограничением некоторых возможностей. Читайте далее, как разработчикам распределенных Spark-приложений писать задания на...

08Ноя
2021

Базовые операции в Hbase: основы Big Data для начинающих

Автор administratorв категории NoSql, Блог

hadoop hive, курсы по sparksql, курсы по apache spark, курсы для инженеров данных, курсы по apache phoenix, курсы arenadata Hadoop, курсы по sparksql

В этой статье мы поговорим про основные базовые операции распределенной СУБД Hbase. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД на практических примерах. Читайте далее про базовые CRUD-операции в Hbase и их особенности. Основные CRUD-операции в распределенной СУБД Hbase HBase - это распределенная NoSQL столбцово-ориентированная (данные представлены...

08Ноя
2021

Как передать данные из GridDB в Apache Kafka через JDBC-коннектор

Автор Анна Вичуговав категории Kafka, Блог

GridDB Kafka Connect пример, Kafka Connect коннекторы кафка курсы обучение, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, Apache Kafka для разработчика примеры обучение курсы, Обучение Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Добавляя в наши курсы по Apache Kafka еще больше полезных кейсов, сегодня рассмотрим пример интеграции этой распределенной платформы потоковой передачи событий с масштабируемой key-value СУБД GridDB через JDBC-коннекторы Kafka Connect. Apache Kafka как источник данных: source-коннектор JDBC Apache Kafka часто используется в качестве источника или приемника данных для аналитической обработки...

07Ноя
2021

Соединения и хуки в Apache Airflow: разбираем на примере SQLite

Автор administratorв категории AirFlow, Блог

В прошлый раз мы говорили о способе взаимодействия задач между собой в Apache Airflow. Сегодня поговорим о таких сущностях, как соединение (connections) и хуки (hooks). Читайте в этой статье: что такое хук и соединение, как создать и скачать соединение, а также как подключить базу данных в Airflow. Что такое связи...

06Ноя
2021

Apache Flink 1.14: что нового?

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Hadoop Flink SQL, новинки Flink 1.14, курсы Apache Hadoop Flink SQL, курсы Hadoop Для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

29 сентября 2021 года вышла новая версия популярного Big Data фреймворка Apache Flink. Мы сделали краткий обзор главных улучшений свежего релиза 1.14 общедоступного дистрибутива, а также его коммерциализации в Ververica Platform 2.6. Узнайте, как потоковая обработка и аналитики больших данных с Apache Flink станет еще проще и эффективнее. Исправление ошибок...

05Ноя
2021

От Cassandra к Google Cloud Spanner: опыт Uber

Автор Анна Вичуговав категории Use Cases, Блог

графовые алгоритмы курсы обучение, аналитика больших данных геоинформационные системы, геоинформационные сиcтемы курсы обучение кейсы примеры Big Data, аналитика больших данных для руководителей курсы примеры обучение, Cassandra NoSQL курсы обучение, NewSQL Google Cloud Spanner Uber case h3, Школа Больших Данных Учебный центр Коммерсантобучение примеры

Сегодня рассмотрим, как Uber эффективно обрабатывает миллионы запросов на поездки c помощью технологий надежного хранения и быстрой аналитики больших данных. Вас ждет краткий ликбез по системе геопространственной индексации H3 и рассказ о том, почему компания заменила NoSQL-Cassandra c компонентом Saga интеграционного фреймворка Camel на геораспределенную облачную NewSQL-СУБД Spanner от Google....

04Ноя
2021

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

пример конвейера в Apache NiFi, обучение Apache NiFi, Apache NiFi курсы, обучение дата-инженеров курсы примеры, принципы работы и примеры Apache NiFi, GridDB ETL пример ML, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий ликбез по GridDB и Apache NiFi в кейсе построения ML-системы для анализа данных временных рядов. Анализ данных временных рядов c...

03Ноя
2021

Проблема вызовов REST API в Apache Spark и способы ее решения

Автор Анна Вичуговав категории Spark, Блог

Библиотека REST Data Source для Apache Spark, обучение Apache Spark, Spark предобработка данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Spark разберем, что не так с вызовами REST API в этом фреймворке, и как решить эту проблему с помощью готовых библиотек или создания собственных UDF-функций на PySpark и не только. Для наглядности рассмотрим практический пример вызова REST API на PySpark с библиотекой Rest Data...

02Ноя
2021

Что такое Saamsa и зачем это разработчику Apache Kafka: краткий обзор

Автор Анна Вичуговав категории Kafka, Блог

Saamsa Kafka, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, администрирование кластера Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Постоянно обновляя наши курсы по Apache Kafka, сегодня рассмотрим еще один полезный инструмент для администраторов, дата-инженеров и разработчиков, который повышает эффективность взаимодействия с этой распределенной платформой потоковой обработки событий. Что такое Saamsa, какие проблемы Kafka она решает и как ее использовать на практике. 5 вопросов разработчика и дата-инженера к Apache...

01Ноя
2021

Масштабируемая индексация Apache HBase почти в реальном времени: кейс Pinterest

Автор Анна Вичуговав категории HBase, Use Cases, Блог

Apache HBase курсы обучение примеры, кейсы аналитики больших данных для дата-инженеров примеры. NoSQL курсы, Apache Hadoop курсы обучение для дата-инженеров примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Обучая дата-инженеров и разработчиков распределенных приложений для аналитики больших данных, сегодня рассмотрим кейс компании Pinterest по построению масштабируемого решения для индексации записей в Apache HBase. Чем хранилище Ixia отличается от Lily HBase Indexer, зачем понадобился собственный аналог Solr и ElasticSearch, а также как все это работает в реальном времени с...

31Окт
2021

Будущее ИИ: взаимодействие человека и машины на примере решения задачи построения справочника организаций

Автор administratorв категории Use Cases, Блог

Будущее искусственного интеллекта: взаимодействие человека и машины

Рассмотрим пока еще фантастический пример из ближайшего будущего, где вся информация структурирована в виде графа знаний, доступ к сегментам которого определяется принадлежностью человека или машины к конкретной партии или корпорации. Как построить справочник организаций с помощью ИИ и графовой аналитики больших данных. Постановка задачи: построение справочника организаций Систематизация и упорядочивание...

30Окт
2021

Машинное обучение для обогащения графа торгового ассортимента: кейс H&M

Автор Анна Вичуговав категории Use Cases, Блог

обучение Data Science, курсы Data Science, графовая аналитика больших данных, аналитика больших данных примеры курсы обучение, Школа Больших Данных, Apache GraphX GraphFrames примеры обучение курсы, обучение аналитик больших данных, курсы аналитика больших данных

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим работу Data Science исследователей из Пизанского университета и сотрудников крупного ритейлера H&M по анализу данных торгового ассортимента компании с помощью ML-моделей на графах. Читайте далее, как машинное обучение на графовых нейросетях автоматизирует подбор сочетаемых предметов одежды и...

29Окт
2021

4 причины сбоя в системах на Apache Hadoop, Spark и Livy + способы их лечения от дата-инженеров Pinterest

Автор Анна Вичуговав категории Spark, Блог

Сегодня разберем типовые ошибки, которые часто возникают в системах аналитики больших данных на базе Apache Hadoop YARN, Spark и RESTful-интерфейсу Livy, а также каким образом их избежать. В качестве практического примера используем ранее рассмотренный кейс интерактивной аналитики о пользовательском поведении в фотохостинге Pinterest. Интерактивная аналитика больших данных в Pinterest Недавно...

28Окт
2021

DataCater и Flow: еще пара альтернатив Apache Kafka для построения потоковых конвейеров

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про платформы потоковой обработки событий, альтернативные Apache Kafka и Flink/Spark Streaming. В продолжение этой темы сегодня рассмотрим еще пару вариантов для разработки и самообслуживаемого использования потоковых конвейеров аналитики больших данных: DataCater и Flow. Читайте далее, что это за системы, как они связаны с Apache Kafka и какова...

27Окт
2021

CDC-конвейер для MySQL на Apache NiFi: практический пример

Автор Анна Вичуговав категории NiFi, Блог

обучение дата-инженеров, инженерия данных, дата-инженер Apache NiFi CDC MySQL курсы примеры обучение, обучение большим данным, курсы инженеров Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем типичный для современной дата-инженерии кейс построения конвейера обработки измененных данных на Apache NiFi с учетом безопасности и масштабируемости API-вызовов. Также рассмотрим, зачем использовать Apache NiFi при межсистемной интеграции через API-вызовы и как реализовать CDC-подход к изменениям в СУБД MySQL с помощью процессоров этого популярного ETL-фреймворка. CDC и интеграция...

26Окт
2021

Бакетирование vs партиционирование в Apache Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

партиционирование таблицы Spark SQL Hive, бакетирование Spark SQL Hive, курсы Spark Hive обучение, примеры Spark Hive обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

В этой статье рассмотрим 2 способа физической группировки данных для ускорения последующей обработки в Apache Hive и Spark: партиционирование и бакетирование. Чем они отличаются друг от друга, что между ними общего и какой рост производительности дает каждый из методов в зависимости от задач аналитики больших данных средствами Spark SQL. Еще...