Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

24Мар
2022

Инженерия Data Science: 3 лучшие практики по драйверам Neo4j

Автор Анна Вичуговав категории Neo4j, Блог

драйверы Neo4j, лучшие практики разработки приложений с Neo4j, обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, аналитик разработчик Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Зачем проверять подключение к Neo4j, какую URI-схему выбрать, чем плохи транзакции с автофиксацией и как передавать переменные в Cypher-запросы: рекомендации по использованию драйверов графовой СУБД в реальных приложениях аналитики больших данных. Драйверы и особенности подключения к базе данных Напомним, драйвер – это сущность, которая реализует определённые API-интерфейсы для взаимодействия с...

23Мар
2022

Проект года-2021: фабрика данных на Arenadata Hadoop в АО «Народный банк Казахстана»

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata Hadoop примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали о победителях российского ИТ-конкурса «Проект Года 2020» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», где «Газпром нефть» и банк ВТБ делятся опытом применения российских продуктов Arenadata. Сегодня рассмотрим кейс призера 2021 года - проект «Фабрика данных» в АО «Народный банк Казахстана», в результате которого...

22Мар
2022

Потоковая аналитика пользовательских сеансов с Apache Flink на примере Wynk

Автор Анна Вичуговав категории Flink, Блог

обучение Flink Kafka Hadoop Spark для дата-инженеров и разработчиков пример курсы, Hadoop Flink для разработчиков примеры приложений, разработка Flink приложений примеры курсы обучение, Обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для инженеров данных и разработчиков Hadoop-приложений рассмотрим опыт индийской компании Wynk по применению Apache Flink в качестве средства потоковой аналитики больших данных пользовательского поведения в мобильных приложениях прослушивания музыки. Особое внимание уделим вопросу формирования и обработки пользовательских сессий. Постановка задачи и выбор решения Wynk Music является одним...

21Мар
2022

Блокчейн и Apache Kafka: versus или вместе

Автор Анна Вичуговав категории Kafka, Блог

Kafka курсы примеры обучение, Blockchain примеры Big Data, KafkaBlockchain library, блокчейн большие данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, можно ли построить на Apache Kafka быстрый и надежный блокчейн для криптовалюты, NFT или других проектов, где нужны технологии распределенного реестра. Что общего у топика Apache Kafka с blockchain-цепочкой, чем они отличаются, возможно ли совместить их и для каких случаях. А в качестве примеров перечислим несколько реальных проектов....

16Мар
2022

Для логистики и не только: алгоритм Дейкстры в Neo4j-библиотеке Graph Data Science

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, алгоритм Дейкстры Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Вопрос перестройки логистических цепочек сегодня стал очень остро перед множеством предприятий, от малого до очень крупного бизнеса. Рассмотрим, как методы Data Science и аналитики больших данных помогают бизнесу справиться с современными вызовами на примере реализации алгоритма Дейкстры в библиотеке Graph Data Science графовой СУБД Neo4j. Постановка задачи: поиск кратчайшего пути...

15Мар
2022

Упорядочивание событий в Apache Kafka: параметры продюсера и потребителя

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Apache Kafka для разработчиков дата-инженеров и ИТ-архитекторов, обработка событий Kafka, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Иногда в распределенных системах требуется строгий порядок событий, т.е. сообщений или записей с полезными данными и состоянием, который должен поддерживаться между продюсерами и потребителями в конвейере их обработки. Например, чтобы сохранить корректный порядок транзакций для правильного расчета остатков по счетам. Читайте далее, как это реализовать в Apache Kafka. Настройка продюсера...

14Мар
2022

Apache Spark и Hive для обработки партиционированных Parquet-файлов

Автор Анна Вичуговав категории Hive, NoSql, Spark, Блог

Spark SQL Hive Paruet HDFS Hadoop курсы примеры обучение, обучение Hadoop Hive SQL, примеры курсы Hive Hadoop HDFS SQL, курсы дата-инженеров, инженерия данных Hadoop Hive SQL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про обновление хранилища метаданных Apache Hive с помощью команды MSCK REPAIR TABLE, операторов AirFlow и Spark-заданий. В продолжение этой темы про работу с партиционированными Parquet-файлами сегодня рассмотрим применение Spark SQL для этого случая, чтобы использовать таблицу Hive вместо временного представления Spark. Временные таблицы Hive/Spark и разделы в Parquet-файлах...

13Мар
2022

Спотовые инстансы в AWS EMR для Spark-конвейеров: достоинства, недостатки и лучшие практики

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark AWS EMR, AWS EMR спотовые инстансы Яндекс Облако Spark примеры курсы обучение оптимизация затрат, Apache Spark для дата-инженеров, Apache Spark для разработчиков курсы примеры обучение, инженерия данных с Apache Spark, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как снизить затраты на AWS EMR, сохранив эффективность Spark-конвейеров обработки данных на спотовых инстансах и других типах узлов облачного кластера. Также рассмотрим, что такое прерываемые виртуальные машины в Яндекс.Облаке и каким образом настроить такую облачную инфраструктуру, чтобы сократить затраты на выполнение Spark-приложений, одновременно повысив их отказоустойчивость. Блеск и нищета спотовых...

12Мар
2022

Параллелизм второго порядка в конвейерах данных с Apache Spark

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, Apache Spark для дата-инженеров, Apache Spark для разработчиков курсы примеры обучение, инженерия данных с Apache Spark, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-инженеров и разработчиков Spark-приложений сегодня рассмотрим, как повысить эффективность обработки данных, используя всю мощь этого распределенного движка. Проблемы производительности и эффективности конвейера обработки данных с учетом разницы между действиями и преобразованиями в Apache Spark. Снова про разницу между действиями и преобразованиями в Apache Spark Основное преимущество Apache...

10Мар
2022

Импортозамещение в Big Data: Arenadata на Скале

Автор Анна Вичуговав категории Use Cases, Блог

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Скала-Р Arenadata примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Поскольку тема импортозамещения сейчас стала особенно актуальной, сегодня рассмотрим отечественный программно-аппаратный комплекс для хранения и аналитической обработки данных СКАЛА-Р МБД8. Что это такое, как использовать и при чем здесь продукты Arenadata. Машины больших данных СКАЛА-Р МБД8 и Arenadata Разработчиком программно-аппаратного комплекса «Машина больших данных» СКАЛА-Р МБД8 является российская компания ООО...