Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Статьи

Информационно-аналитические статьи и новости о технологиях анализа и хранения Больших Данных (Big Data), машинного обучения (Machine Learning), администрирования кластеров (Hadoop, Kafka, Spark, AirFlow), а также реальные истории и лучшие практики их прикладного использования в российских и зарубежных компаниях

17Дек
2021

Диску больше не наливать: проблема spill-файлов в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры, Greenplum для инженеров данных и разработчиков обучение курс примеры, spill файлы Greenplum Arenadata Greenplum примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

О том, что такое spill-эффект, мы недавно писали на примере Apache Spark. Однако, проблема переброса данных из оперативной памяти на жёсткий диск и обратна характерна и для Greenplum. Где посмотреть количество и объем spill-файлов, а также как устранить причину их образования с помощью конфигурационных параметров и инструментов администратора. Что такое...

16Дек
2021

Насыпать соль на рану: решаем проблему перекоса данных в Apache Spark с помощью криптографии

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, курсы Apache Spark Для разработчиков, анализа данных с Apache Spark, аналитика больших данных курсы, партиционирование в Apache Spark, проблема перекосов в Apache Spark, обучение большим данным для разработчиков и аналитиков примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений рассмотрим, как избежать искаженных данных с помощью простого и давно известного в криптографии приема, который принято называть «соль». Почему неравномерное распределение данных может вызвать ошибку нехватки памяти и как сбалансировать распределение ключей, добавив столбец со случайными числами. Перекосы и перемешивания Искажение или неравномерное распределение...

15Дек
2021

Потоки и пакеты: унифицированная аналитика больших данных c Apache Flink в Pinterest

Автор Анна Вичуговав категории Flink, Use Cases, Блог

курсы Apache Kafka примеры обучение, Kafka Flinkпримеры обучение курсы, обучение большим данных, курсы по kafka, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Ранее мы писали о том, как фотохостинг Pinterest с помощью новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, объединяет пакетную и потоковую аналитику больших данных, чтобы еще лучше обслуживать более 475 миллионов своих пользователей. Сегодня поговорим про контроль сетевого трафика и синхронизацию источников данных через генерацию...

14Дек
2021

Apache Kafka на Kubernetes vs KubeMQ

Автор Анна Вичуговав категории Kafka, Блог

Kafka микросервисы обучение курсы примеры, KubeMQ, Kafka Kubernetes, Kafka примеры курсы обучение, Kubernetes примеры курсы обучение, обучение администраторов и разработчиков Kafka курсы, обучение большим данным курсы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы рассказывали про KubeMQ – stateless-сервис обмена сообщениями для Kubernetes, который может заменить собой сложное развертывание Apache Kafka на этой платформе управления контейнерами. Сегодня разберем, как устроен KubeMQ и сравним его с Apache Kafka по нескольким параметрам, наиболее интересным для разработчиков распределенных приложений и администраторов. Операторы и пользовательские ресурсы...

13Дек
2021

Фильтр Блума в Apache Spark для Parquet-файлов

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark, обучение разработчиков Apache Spark, анализ данных с Apache Spark, обучение большим данным, курсы Big Data для разработчиков, Parquet Spark, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое фильтр Блума и как эта структура данных используется в Apache Spark для чтения Parquet-файлов. Про хеширование, UUID, достоинства и недостатки Bloom-фильтра для бинарного колоночного формата хранения больших данных в распределенных системах. Что такое фильтр Блума Фильтр Блума активно используется во многих информационных системах для быстрого поиска...

11Дек
2021

Зачем нужна статистика таблиц Apache Hive и как ее собрать

Автор Анна Вичуговав категории Hive, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop примеры курсы обучение, Apache Hadoop SQL администратор аналитик данных примеры курсы обучение, обучение аналитиков больших данных, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали, зачем нужна статистика таблиц при оптимизации SQL-запросов на примере Greenplum. Сегодня рассмотрим, как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop. Еще раз о пользе статистики для оптимизации запросов в...

10Дек
2021

Фильтрация подграфов в Neo4j с библиотекой Graph Data Science

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j Graph Data Science, графовая аналитика больших данных, аналитика больших данных на графах курсы обучение, курсы примеры обучение Neo4j, обучение большим данным, курсы Data Science обучение примеры, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наши курсы по прикладной Data Science и графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим специальную DS-библиотеку в Neo4j и ее возможности для фильтрации подграфов. А также разберем, чем версия сообщества отличается от Enterprise Edition, как запустить анализ слабо связанных компонент и алгоритм определения центральности на проекции графа в памяти. Graph...

09Дек
2021

Apache Kafka и Kubernetes для микросервисов в логистике: кейс Sixfold

Автор Анна Вичуговав категории Kafka, Блог

Kafka микросервисы, Kafka и Kubernetes, Kafka примеры курсы обучение, Kubernetes примеры курсы обучение, обучение администраторов и дата-инженеров Kafka курсы, обучение большим данным курсы, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем пример европейской логистической компании Sixfold, которая смогла увеличить пропускную способность своей системы мониторинга транспортных отгрузок на базе Apache Kafka и Kubernetes. Также рассмотрим, как дата-инженеры Sixfold справились с проблемами изоляции при последовательной обработке сообщений и транзакционной записи в топики Kafka с базами данных отдельных микросервисов на подах Kubernetes....

08Дек
2021

Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps курсы обучение примеры, инженерия данных курсы, обучение дата-инженеров, обучение Data Science, курсы Data Science, аналитика больших данных Machine Learning примеры курсы обучение, ML Feature Engineering примеры обучение курсы, обучение аналитик больших данных Data Scientist, курсы аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

В рамках наших курсов для дата-инженеров и специалистов в области Data Science, сегодня рассмотрим, как реализовать один из важнейших этапов машинного обучения – Feature Engineering. Читайте далее, как генерировать признаки для ML-модели с помощью SQL, напрямую обращаясь к источникам данных и хранилищам фич, а также что такое Apache Hivemall и...

07Дек
2021

Управление жизненным циклом конвейеров Apache Airflow: советы дата-инженеров Databand

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение AirFlow, курсы Apache AirFlow, курсы инженеров данных, инженерия данных обучение, дата-инженер курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы для дата-инженеров по Apache AirFlow, сегодня рассмотрим, как автоматизировать развертывание сложных DAG’ов с помощью Docker и Kubernetes на примере управления конвейерами обработки данных. Лучшие практики и советы от инженеров данных DataOps-компании Databand. 4 вопроса дата-инженера к production-развертыванию конвейеров Apache Airflow Apache AirFlow считается одним из самых популярных...