Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

04Ноя
2021

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

пример конвейера в Apache NiFi, обучение Apache NiFi, Apache NiFi курсы, обучение дата-инженеров курсы примеры, принципы работы и примеры Apache NiFi, GridDB ETL пример ML, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий ликбез по GridDB и Apache NiFi в кейсе построения ML-системы для анализа данных временных рядов. Анализ данных временных рядов c...

03Ноя
2021

Проблема вызовов REST API в Apache Spark и способы ее решения

Автор Анна Вичуговав категории Spark, Блог

Библиотека REST Data Source для Apache Spark, обучение Apache Spark, Spark предобработка данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Spark разберем, что не так с вызовами REST API в этом фреймворке, и как решить эту проблему с помощью готовых библиотек или создания собственных UDF-функций на PySpark и не только. Для наглядности рассмотрим практический пример вызова REST API на PySpark с библиотекой Rest Data...

02Ноя
2021

Что такое Saamsa и зачем это разработчику Apache Kafka: краткий обзор

Автор Анна Вичуговав категории Kafka, Блог

Saamsa Kafka, Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, администрирование кластера Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Постоянно обновляя наши курсы по Apache Kafka, сегодня рассмотрим еще один полезный инструмент для администраторов, дата-инженеров и разработчиков, который повышает эффективность взаимодействия с этой распределенной платформой потоковой обработки событий. Что такое Saamsa, какие проблемы Kafka она решает и как ее использовать на практике. 5 вопросов разработчика и дата-инженера к Apache...

01Ноя
2021

Масштабируемая индексация Apache HBase почти в реальном времени: кейс Pinterest

Автор Анна Вичуговав категории HBase, Use Cases, Блог

Apache HBase курсы обучение примеры, кейсы аналитики больших данных для дата-инженеров примеры. NoSQL курсы, Apache Hadoop курсы обучение для дата-инженеров примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Обучая дата-инженеров и разработчиков распределенных приложений для аналитики больших данных, сегодня рассмотрим кейс компании Pinterest по построению масштабируемого решения для индексации записей в Apache HBase. Чем хранилище Ixia отличается от Lily HBase Indexer, зачем понадобился собственный аналог Solr и ElasticSearch, а также как все это работает в реальном времени с...

31Окт
2021

Будущее ИИ: взаимодействие человека и машины на примере решения задачи построения справочника организаций

Автор Артем Климовв категории Use Cases, Блог

Будущее искусственного интеллекта: взаимодействие человека и машины

Рассмотрим пока еще фантастический пример из ближайшего будущего, где вся информация структурирована в виде графа знаний, доступ к сегментам которого определяется принадлежностью человека или машины к конкретной партии или корпорации. Как построить справочник организаций с помощью ИИ и графовой аналитики больших данных. Постановка задачи: построение справочника организаций Систематизация и упорядочивание...

30Окт
2021

Машинное обучение для обогащения графа торгового ассортимента: кейс H&M

Автор Анна Вичуговав категории Use Cases, Блог

обучение Data Science, курсы Data Science, графовая аналитика больших данных, аналитика больших данных примеры курсы обучение, Школа Больших Данных, Apache GraphX GraphFrames примеры обучение курсы, обучение аналитик больших данных, курсы аналитика больших данных

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим работу Data Science исследователей из Пизанского университета и сотрудников крупного ритейлера H&M по анализу данных торгового ассортимента компании с помощью ML-моделей на графах. Читайте далее, как машинное обучение на графовых нейросетях автоматизирует подбор сочетаемых предметов одежды и...

29Окт
2021

4 причины сбоя в системах на Apache Hadoop, Spark и Livy + способы их лечения от дата-инженеров Pinterest

Автор Анна Вичуговав категории Spark, Блог

Сегодня разберем типовые ошибки, которые часто возникают в системах аналитики больших данных на базе Apache Hadoop YARN, Spark и RESTful-интерфейсу Livy, а также каким образом их избежать. В качестве практического примера используем ранее рассмотренный кейс интерактивной аналитики о пользовательском поведении в фотохостинге Pinterest. Интерактивная аналитика больших данных в Pinterest Недавно...

28Окт
2021

DataCater и Flow: еще пара альтернатив Apache Kafka для построения потоковых конвейеров

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams KSQL обучение курсы, потоковая аналитика больших данных кейсы примеры курсы обучение, обучение большим данным примеры кейсы курсы, Apache Kafka примеры альтернативы курсы примеры обучение, Apache Kafka курсы примеры обучение, event streaming курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про платформы потоковой обработки событий, альтернативные Apache Kafka и Flink/Spark Streaming. В продолжение этой темы сегодня рассмотрим еще пару вариантов для разработки и самообслуживаемого использования потоковых конвейеров аналитики больших данных: DataCater и Flow. Читайте далее, что это за системы, как они связаны с Apache Kafka и какова...

26Окт
2021

Бакетирование vs партиционирование в Apache Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

партиционирование таблицы Spark SQL Hive, бакетирование Spark SQL Hive, курсы Spark Hive обучение, примеры Spark Hive обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

В этой статье рассмотрим 2 способа физической группировки данных для ускорения последующей обработки в Apache Hive и Spark: партиционирование и бакетирование. Чем они отличаются друг от друга, что между ними общего и какой рост производительности дает каждый из методов в зависимости от задач аналитики больших данных средствами Spark SQL. Еще...

25Окт
2021

Графовая аналитика больших данных с DataStax Enterprise Graph на Cassandra и Spark SQL

Автор Анна Вичуговав категории Spark, Блог

графовая аналитика больших данных, аналитика Big Data на графах, Spark GraphFrames GraphX SQL, Cassandra Spark example DataStax Enterprise Graph , Spark GraphFrames GraphX, DataStax Enterprise Graph Spark SQl Cassandra обучение пример курсы, аналитика больших данных на графах курсы обучение пример, аналитика Big Data Примеры кейсы обучение бизнес-приложения, Школа Больших Данных Учебный центр Коммерсант

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, что такое DataStax Enterprise Graph. Читайте далее, как немецкая ИТ-компания Traversals с помощью этой распределенной графовой СУБД построила масштабное аналитическое решение для кибербезопасности, обнаружения мошенничества, анализа конкурентов и оповещения клиентов в реальном времени. Также разберем, при...