Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Статьи

Информационно-аналитические статьи и новости о технологиях анализа и хранения Больших Данных (Big Data), машинного обучения (Machine Learning), администрирования кластеров (Hadoop, Kafka, Spark, AirFlow), а также реальные истории и лучшие практики их прикладного использования в российских и зарубежных компаниях

17Мар
2021

Как повысить качество управления корпоративными данными: цифровая трансформация «Газпром нефти» с Arenadata

Автор Анна Вичуговав категории Use Cases, Блог

аналитика больших данных для руководителей, обучение Big Data с примерами, бизнес-кейсы Big Data, Big Data, Большие данные, обработка данных, Arenadata, Hadoop, ETL, цифровая трансформация, цифровизация, курсы Arenadata

В продолжение вчерашней статьи о победителях российского ИТ-конкурса «Проект Года» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», сегодня мы рассмотрим корпоративную платформу управления данными ПАО «Газпром нефть», реализованную на базе продуктов отечественного разработчика Big Data решений: Arenadata Hadoop и MPP-СУБД Arenadata DB (Greenplum). Зачем ПАО «Газпром нефть»...

16Мар
2021

Новые победы вместе с Arenadata: 3 призера конкурса «Проект Года» от GlobalCIO-2020

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

Мы уже рассказывали о проектах-победителях российского ИТ-конкурса «Проект Года» профессионального сообщества GlobalCIO, представивших корпоративные решения на базе продуктов Arenadata. В 2020 году клиенты Arenadata также вошли в тройку лидеров. Читайте далее, как «Газпром нефть» и ВТБ улучшили свои процессы управления данными с помощью отечественных технологий хранения и аналитики Big Data....

15Мар
2021

Зачем вам Arenadata Platform Security: ТОП-5 преимуществ корпоративного Apache Ranger для безопасности Hadoop-кластера от отечественного разработчика Big Data решений

Автор Анна Вичуговав категории Блог, Статьи

курсы Hadoop, обучение администраторов Big Data, Hadoop кластер администратор курсы обучение, курсы хадуп администратор, администрирование Hadoop, безопасность Hadoop, Apache Ranger Hadoop course, Arenadata Hadoop кластер администратор, Arenadata авторизованные курсы, обучение Big Data, Школа Больших Данных Учебный центр Коммерсант

В январе 2021 года российский разработчик решений для хранения и аналитики больших данных, компания Arenadata, представила новый продукт в линейке сервисов отечественного дистрибутива Apache Hadoop. Модуль Arenadata Platform Security обеспечивает централизованное управление групповыми политиками безопасности кластера. Разбираемся, что представляет собой эта система, как она связана с Apache Ranger и чем...

12Мар
2021

5 советов по совместному использованию Apache Spark и PostgreSQL

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков и инженеров данных, PostgreSQL, Big Data, курсы инженеров данных, обучение дата-инженеров

В этой статье по обучению дата-инженеров и разработчиков Big Data рассмотрим, как эффективно записать большие данные в СУБД PostgreSQL с применением Apache Spark. Читайте далее, чем отличается foreach() от foreachBatch(), как это связано с количеством подключений к БД, асимметрией разделов и семантикой доставки сообщений. Как Spark-приложение записывает данные в PostgreSQL...

11Мар
2021

От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, Kafka для инженеров данных, Кафка кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, Kafka, озеро данных, Data Lake

Постоянно добавляя в наши курсы Apache Kafka для разработчиков интересные и практические примеры, сегодня мы разберем кейс тревел-площадки Trainline, которая агрегирует данные от 270 железнодорожных и автобусных компаний в 45 странах, предлагая выгодные билеты на европейские поезда и автобусы. Читайте далее, почему пакетный режим работы озера данных перестал отвечать требованиям...

10Мар
2021

Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков, Delta Lake, Databricks Google Cloud, Big Data

Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021 года. Читайте далее, чем хороша эта проприетарная Big Data платформа для аналитики больших данных на Spark, инструментах визуализации и MLOps,...

09Мар
2021

Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы по Kafka, обучение Кафка, курсы инженеров данных, курсы Spark, обучение Apache Spark, big data pipeline on Apache Kafka and Spark

Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и других технологий Big Data. Читайте далее о преимуществах облачного Delta Lake от Databricks над традиционным Data Lake. Постановка задачи: финансовая...

06Мар
2021

Что такое SnappyData (TIBCO ComputeDB) и при чем здесь Apache Spark

Автор Анна Вичуговав категории Spark, Блог

SnappyData TIBCO ComputeDB on SparkSpark, курсы по Spark, Apache Spark для разработчиков и инженеров данных курсы обучение, обучение Big Data, Spark SQL курсы

Недавно мы уже упоминали о некоторых продуктах на базе Apache Spark. Продолжая обучение основам Big Data, сегодня рассмотрим, что такое SnappyData или TIBCO ComputeDB и как это связано с популярным фреймворком разработки распределенных приложений аналитики больших данных. Кому и зачем нужны дополнительные решения поверх Apache Spark При всей популярности Apache Spark,...

04Мар
2021

Apache Spark для инженера данных: 3 полезных инструмента построения ETL-конвейеров

Автор Анна Вичуговав категории Spark, Use Cases, Блог

ETL pipeline Spark, курсы по Spark, Apache Spark для инженеров данных курсы обучение, экономика больших данных, Big Data AWS Spark Livy

Дополняя наши курсы дата-инженеров полезными примерами, сегодня рассмотрим, как упростить разработку и мониторинг ETL-конвейеров с помощью дополнительных технологий Big Data, совместимых с Apache Spark. Читайте далее, когда и зачем инженеру данных пригодятся SaaS-продукт Prophecy.io, движок StreamSets Transformer и REST-интерфейс Apache Livy, а также как все они связаны со Spark. 3...

02Мар
2021

3 проблемы с топиками Kafka для администратора кластера и способы их решения

Автор Анна Вичуговав категории Use Cases, Блог

курсы по Kafka, Kafka кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, архитектура, Kafka, администрирование

В этой статье рассмотрим типичные проблемы топиков Apache Kafka, с которыми сталкивается каждый администратор Big Data кластера. Читайте далее, почему топики чрезмерно разрастаются, как работает очистка логов, когда старые сообщения могут остаться в почищенных сегментах и какие параметры конфигураций помогут справиться со всем этим. Брокеры и разделы: как устроены топики...