Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

12Фев
2022

5 шагов по миграции на новый релиз Apache Kafka 3.1.0 и подводные камни

Автор Анна Вичуговав категории Kafka, Блог

администратор кластера Kafka, обучение Apache Kafka, Apache Kafka, курсы примеры обучение для разработчиков и администраторов, последняя версия Apache Kafka, обновления Apache Kafka 3.1.0, обучение разработчиков и администраторов Big Data, Школа Больших Данных Учебный центр Коммерсант

Вчера мы писали о недавно вышедшем свежем релизе Apache Kafka 3.1.0, который вышел в январе 2022 года. Сегодня рассмотрим, как безболезненно перейти на эту версию и избежать возможных побочных эффектов, связанных с некоторыми архитектурными изменениями платформы. Побочные эффекты и подводные камни обновления Напомним, в Apache Kafka 3.1.0 добавлена новая фича...

11Фев
2022

Apache Kafka 3.1.0: что нового?

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka, курсы примеры обучение для разработчиков и администраторов, последняя версия Apache Kafka, обновления Apache Kafka 3.1.0, обучение разработчиков и администраторов Big Data, Школа Больших Данных Учебный центр Коммерсант

24 января 2022 года вышел новый релиз Apache Kafka. Главные новинки самой последней на сегодня стабильной версии 3.1.0: добавленные фичи, улучшения и исправленные баги краткий обзор для разработчиков распределенных приложений Kafka Streams и администраторов кластера этой платформы потоковой передачи событий. Новинки Apache Kafka 3.1.0 для администратора кластера В свежем релизе...

10Фев
2022

Архитектура больших данных: 5 шаблонов проектирования распределенных систем

Автор Анна Вичуговав категории Kafka, Блог

архитектура больших данных курсы примеры обучение, шаблоны проектирования распределенных приложений, Saga CQRS Sharded services микросервисная архитектура примеры курсы обучение, курсы для ИТ-архитекторов по Big Data, обучение разработчиков больших данных распределенных приложений, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали про архитектурный шаблон CQRS и его реализацию на базе Apache Kafka. В продолжение этой темы для обучения ИТ-архитекторов и разработчиков Big Data приложений, сегодня рассмотрим еще несколько популярных шаблонов проектирования распределенных систем: достоинства, недостатки, примеры реализации и способы их использования. Шаблоны проектирования распределенных систем: что это и...

09Фев
2022

От AWS EMR к Apache Spark 3 на Kubernetes в маркетплейсе Joom

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Spark AirFlow Kubernetes курсы примеры обучение, обучение дата-инженеров, курсы Apache Spark, курсы AirFlow, обучение инженеров данных Big Data, Школа Больших Данных Учебный центр Коммерсант

Развивая наши курсы по Apache Spark и AirFlow для дата-инженеров и администраторов кластеров, сегодня рассмотрим кейс крупного маркетплейса Joom по переходу от 2-ой версии фреймворка на облачной платформе EMR к развертыванию сотен распределенных заданий на 3-ей версии в Amazon Elastic Kubernetes Service. Про сокращение расходов, повышение производительности и апдейт вычислительных движков. Постановка...

08Фев
2022

Дедупликация, нумерация и ранжирование строк в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

обучение Apache Hive, курсы SQL-on-Hadoop, Hive Hadoop курсы примеры обучение, обучение дата-инженеров, нумерация с трок в Hive, Hive SQL Примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по SQL-on-Hadoop для дата-инженеров и разработчиков распределенных приложений интересные примеры, сегодня рассмотрим пару практических техник по работе с Apache Hive. Читайте далее, как автоматически пронумеровать строки Hive-таблицы, исключив дубликаты в последовательности, и чем аналитическая функция row_number() отличается от rank() с dense_rank(). Генерация порядкового номера строки...

07Фев
2022

Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и с Phoenix: кейс Salesforce

Автор Анна Вичуговав категории HBase, Блог

вторичный индекс HBase, HBase Phoenix вторичная индексация, обучение Hadoop SQl администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно на примере ИТ-компании Salesforce мы рассказывали про вторичную индексацию таблиц Apache HBase с помощью Phoenix – средства обращения к NoSQL-хранилищу через SQL-запросы. В продолжение этого кейса, сегодня рассмотрим, как были перепроектированы глобальные вторичные индексы для обеспечения более высокого уровня согласованности, чем предлагает Apache Phoenix. Реализация вторичных индексов в таблицах...

06Фев
2022

MLOps на практике: опыт Glassdoor

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение, разработка и внедрение ML-решений в production для инженеров, MLOps для профессионалов реальный кейс, как внедрить MLOps, инструменты MLOps, обучение большим данным, курсы дата-инженеров и ML-разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Практическая реализация MLOps-концепции на примере международной рекрутинговой компании Glassdoor. Как построить самоуправляемую автоматизированную систему разработки и сопровождения ML-моделей с MLFlow, Apache Spark и AirFlow, Kubernetes, GitLab, SageMaker Feature Store, Whylogs, Jenkins, Spinnaker и Prometheus с Grafana. Предыстория: зачем MLOps в Glassdoor Glassdoor с 2008 года помогает соискателям по всему миру...

05Фев
2022

Подсчет записей в CSV-файлах средствами Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark курсы, примеры Spark обработка CSV, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Spark еще более полезными, сегодня разберем 2 варианта решения типовой задачи инженерии данных. Как быстро и эффективно считать данные из множества CSV-файлов с одинаковой схемой за несколько строк кода на PySpark. Постановка задачи: рутинная работа с CSV-файлами Наряду с JSON-файлами, про которые мы писали...

04Фев
2022

Современная инженерия данных: от Data Lake к облачной Лямбда

Автор Анна Вичуговав категории AirFlow, HBase, Kafka, Spark, Use Cases, Блог

инженерия данных курсы обучение примеры, архитектура больших данных курсы примеры обучение, обучение большим данным, курс дата-инженер Kafka Spark AirFlow Hadoop, обучение BIg Data для архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Сегодня обсудим ключевые тренды развития дата-инженерии и инструментальные средства их реализации. Как это применяется на практике, рассмотрим на примере эволюции хранилища данных в индонезийской ИТ-компании Bukalapak, от локального кластера Apache HBase до Лямбда-архитектуры в облаке Google Cloud Platform с Kafka, Spark и AirFlow. 7 главных драйверов развития дата-инженерии В наши...

03Фев
2022

Бесплатный вебинар по графовым алгоритмам в бизнесе

Автор Анна Вичуговав категории Новости, Статьи

24 февраля в 19:30 (мск) Школа Больших Данных проводит открытую встречу по нашему новому курсу "Графовые алгоритмы. Бизнес-приложения". За пару часов вы узнаете, как повысить эффективность предприятия с помощью Data Science, дискретной математики и прикладных средств реализации графовых алгоритмов в современных базах данных и вычислительных движках. Автор курса и ведущий...