Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

04Дек
2021

Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi новый релиз, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

7 ноября 2021 года вышел очередной релиз Apache NiFi с новыми фичами, улучшениями и исправлениями ошибок. Краткий обзор самых важных новинок: от постоянного хранилища для stateless-потоков и настроек облачных провайдеров до интеграции процессоров с пользователями Kerberos и улучшения работы с GitHub. Новинки и улучшения Apache NiFi 1.15.0 Свежий выпуск Apache...

01Дек
2021

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Hadoop, курсы Apache Hadoop, обучение Hive Hadoop, курсы Apache Hive Hadoop SQL, Hadoop Hive Spark администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS S3 с помощью заданий Hive и Spark. А также заглянем внутрь конфигурационных xml-файлов Hadoop и Hive. Еще раз о разнице...

25Ноя
2021

Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

Автор Анна Вичуговав категории HBase, Блог

обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

В статье для дата-инженеров и администраторов Apache Hadoop разберем, как реализовать инкрементное резервное копирование таблиц HBase из кластеров CDH/CDP в облачное объектное хранилище AWS S3. Практический пример от международной ИТ-компании Clairvoyant. 5 способов резервного копирования в Apache HBase Apache HBase - это популярная колоночная NoSQL-СУБД, которая работает поверх распределенной файловой...

20Ноя
2021

Один на всех: реализация единого API для унифицированной аналитики больших данных c Apache Flink и Kafka в Pinterest

Автор Анна Вичуговав категории Flink, Kafka, Use Cases, Блог

курсы Apache Kafka примеры обучение, Kafka Flinkпримеры обучение курсы, обучение большим данных, курсы по kafka, обучение Apache Hadoop Flink SQL, новинки Flink 1.14, курсы Apache Hadoop Flink SQL, курсы Hadoop Для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали, что в новой версии Apache Flink 1.14, которая вышла в конце сентября 2021 года, сделаны попытки объединения потоковой и пакетной парадигм обработки данных. Сегодня рассмотрим, как подобное стремление к унификации реализуется на практике дата-инженерами фотохостинга Pinterest, которые используют Apache Flink как универсальный инструмент аналитики больших данных в...

12Ноя
2021

Потоковая аналитика больших данных в Udemy: система отслеживания событий на Apache Hive и Kafka в AWS

Автор Анна Вичуговав категории Hive, Kafka, Блог

аналитика больших данных примеры кейсы обучение курсы, курсы Apache Kafka, курсы Hive SQL, обучение большим данным на практических примерах, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс платформы онлайн-обучения Udemy по разработке собственной системы потоковой аналитики больших данных о событиях пользовательского поведения на Apache Kafka, Hive и сервисах Amazon. Про требования к инфраструктуре отслеживания событий и их реализацию с помощью Apache Kafka, Hive, Kubernetes, AWS S3 и EMR, а также чем AVRO лучше Protobuf....

05Ноя
2021

От Cassandra к Google Cloud Spanner: опыт Uber

Автор Анна Вичуговав категории Use Cases, Блог

графовые алгоритмы курсы обучение, аналитика больших данных геоинформационные системы, геоинформационные сиcтемы курсы обучение кейсы примеры Big Data, аналитика больших данных для руководителей курсы примеры обучение, Cassandra NoSQL курсы обучение, NewSQL Google Cloud Spanner Uber case h3, Школа Больших Данных Учебный центр Коммерсантобучение примеры

Сегодня рассмотрим, как Uber эффективно обрабатывает миллионы запросов на поездки c помощью технологий надежного хранения и быстрой аналитики больших данных. Вас ждет краткий ликбез по системе геопространственной индексации H3 и рассказ о том, почему компания заменила NoSQL-Cassandra c компонентом Saga интеграционного фреймворка Camel на геораспределенную облачную NewSQL-СУБД Spanner от Google....

22Окт
2021

5 главных плюсов облачного развертывания VMware Tanzu Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

обучение Greenplum, курсы Greenplum, Greenplum для инженеров данных, администрирование Greenplum, Greenplum развертывание в облаке, Greenplum примеры внедрения, Arenadata DB курсы примеры обучение внедрение облачное развертывание, Школа Больших Данных Учебный центр Коммерсант

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим, что представляет собой облачная платформа VMware Tanzu Greenplum, где ее можно развернуть и каковы преимущества cloud-решения по сравнению с локальной версией этой MPP-СУБД. Что такое VMware Tanzu Greenplum и чем это отличается от open-source версии Напомним, в 2020 году корпорация...

06Окт
2021

Детектирование устройств с WURFL: потоковый конвейер в Apache NiFi

Автор Анна Вичуговав категории NiFi, Блог

курсы NiFI, NiFi для инженеров данных, обучение дата-инженеров Apache NiFi примеры, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы по Apache NiFi для дата-инженеров и администраторов, сегодня рассмотрим, как как обогатить поток данных, сделав информацию об устройстве доступной для систем, которые хранят или потребляют данные в следующих этапах конвейера. Также разберем, зачем нужна технология детектирования устройств, что такое WURFL и как это реализовать в Apache NiFi....

05Окт
2021

От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

Автор Анна Вичуговав категории Spark, Блог

аналитика больших данных примеры кейсы курсы обучение, курсы Apache Spark SQL, обучение Spark SQL Google BigQuery, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим кейс компании PayPal, которая переводит свои аналитические рабочие нагрузки из локального кластера Apache Spark в Google Cloud Processing. Читайте далее, чем это решение оказалось лучше выполнения Spark-заданий в кластере DataProc с использованием данных BigQuery и облачного хранилища Google (GCS, Google Cloud Storage) для потоковой...

10Сен
2021

Apache NiFi для всех: Cloudera Flow Management в публичном облаке

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi Cloudera DataFlow , обучение Apache NiFi для дата-инженеров и администраторов, Cloudera NiFi курсы обучение, обучение дата-инженеров и администраторов кластеров Big Data, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы по Apache NiFi для дата-инженеров еще более полезными, сегодня рассмотрим новые возможности последнего релиза Cloudera Flow Management 2.1.1 на базе этого фреймворка. Выпущенная в апреле 2021 года, платформа Cloudera Flow Management в составе публичного и частного облака предоставляет Apache NiFi версии 1.13.2, включая дополнительные компоненты, а...

01Сен
2021

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Анна Вичуговав категории Spark, Блог, Цифровая трансформация

цифровизация, цифровая трансформация, аналитика больших данных для руководителей примеры и кейсы из промышленности, обучение Apache Spark, курсы Apache Spark, инженерия данных, обучение Big Data, курсы Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики больших данных с производства средствами Google сервисов и снижение затрат на облако в 2 раза через изменение конфигурации Spark SQL....

31Авг
2021

Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Kafka, обучение Kafka, курсы по Spark, обучение Spark, аналитика больших данных курсы обучение, примеры конвейера аналитики больших данных, аналитика больших данных с Kafka и Spark Для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов для дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим пример построения системы потоковой передачи для аналитики больших данных на базе Apache Kafka, Spark и Google BigQuery. Читайте далее про Proof of Concept для конвейера продуктовой аналитики, который обрабатывает 50 миллиардов событий каждый день, и какие важные уроки ИТ-архитектор...

20Июл
2021

Еще больше потоковой аналитики Big Data с Kafka Streams: обработка больших сообщений

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka Streams KSQL, SerDe Apache Kafka Streams Confluent Cloud, обучение разработчиков курсы Apache Kafka, курсы по Kafka Streams, обучение Kafka, разработка потоковых приложений Kafka, обработка больших данных с Apache Kafka KSQL, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим проблему обработки больших сообщений в Apache Kafka Streams и способы ее решения с помощью средства сериализации и десериализации (SerDe) от немецкой ИТ-компании Bakdata. Узнайте, почему максимального лимита конфигурации max.message.bytes не хватает, зачем и как приложение Kafka Streams материализует данные, а также каким образом kafka-s3-backed-serde читает и записывает большие...

17Июн
2021

Как повысить эффективность Apache Airflow в 3 раза с помощью прокси-сервера RDS

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

курсы по Airflow, Apache Airflow обучение, курсы дата-инженеров, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

Увеличение пропускной способности и повышение скорости обработки данных на любой Big Data платформе при приемлемых затратах – одна из главных задач дата-инженера. Сегодня мы рассмотрим, как улучшить производительность множества экземпляров Apache AirFlow с помощью прокси-сервера Amazon RDS и сколько это стоит в денежном выражении: кейс компании Datafy. Больше не значит...

03Июн
2021

Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы Spark, курсы Kafka, обучение Spark, обучение Kafka, конвейер аналитики больших данных, анализ сетевого трафика в реальном времени, NetFlow аналитика, Школа Больших Данных Учебный Центр Коммерсант

Продолжая добавлять в наши практические курсы по Apache Kafka и Spark еще больше интересных примеров, сегодня рассмотрим, как с помощью этих технологий Big Data анализировать метаданные сетевых потоков в реальном времени. В этой статье мы приготовили для вас кейс по потоковой аналитики больших данных о сетевом трафике с помощью Apache...

01Июн
2021

Что такое Apache Sedona или GeoSpark: Spark-фреймворк для обработки пространственных геоданных

Автор Анна Вичуговав категории Spark, Блог

курсы Spark, обучение Apache Spark SQL, Apache Sedona, GeoSpark, обработка и анализ пространственных геоданных в Apache Spark SQL, Школа Больших Данных Учебный центр Коммерсант

Сегодня поговорим про обработку геопространственных данных с Apache Spark и рассмотрим, что такое Apache Sedona, как этот фреймворк связан с GeoSpark, какие форматы и структуры данных он поддерживает. Читайте далее про пространственные RDD, Spatial SQL-запросы и построение конвейеров обработки геоданных в облачных сервисах Amazon. Как обработать геопространственные данные в...

27Май
2021

Аналитика больших данных с JSON и AVRO в Apache Kafka: кейс компании Mobimeo

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

разработчик Kafka курс, обучение Apache Kafka, Apache Kafka для разработчиков инженеров данных и администраторов курсы, администратор кластера Apache Kafka, администрирование кластера Apache Kafka обучение, курсы по большим данным, Big Data, Apache Kafka обучение для разработчика курсы, Kafka vs ActiveMQ, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши практические курсы по Apache Kafka еще больше интересных примеров, сегодня рассмотрим кейс немецкой ИТ-компании Mobimeo, которая несколько раз перекраивала свою систему аналитики больших данных, чтобы быстро узнавать о событиях клиентских приложений. Читайте далее, зачем дата-инженеры Mobimeo предпочли AVRO формату JSON, почему вместо брокера сообщений ActiveMQ решили...

20Май
2021

3 оператора Apache Airflow для контейнерных конвейеров данных

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, Apache Airflow обучение, курсы дата-инженеров, обучение инженеров Big Data, инженерия больших данных, AirFlow развертывание, data pipeline, AirFlow deployment AWS GCC Kubernetes

Совмещение Airflow с Kubernetes уже становится стандартом де-факто для дата-инженеров. Недавно мы рассказывали про 3 популярные среды развертывания и сопровождения этого ETL-фреймворка в Kubernetes. Продолжая эту тему, сегодня рассмотрим, какие операторы использовать для контейнерного запуска batch-задач, а также поговорим о том, как Docker-образы помогут решить проблему изменения версий Python и...

05Май
2021

Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера

Автор Анна Вичуговав категории AirFlow, Блог

Для практического использования Apache Airflow в production дата-инженеру необходимо не только обучение основам работы с этим фреймворком, но и знания о базовой инфраструктуре его развертывания. Поэтому сегодня поговорим о 3-х популярных средах для развертывания и сопровождения этого ETL-фреймворка: Astronomer, Google Cloud Composer и Amazon Managed Workflows, разобрав их основные возможности...

01Май
2021

На заметку разработчику: 3 причуды Apache Spark и как с ними бороться

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark для разработчиков, разработка Spark, Apache Spark AWS S3 коннекторы, обучение разработчиков Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Развивая наши курсы по Apache Spark, сегодня мы рассмотрим несколько особенностей, с разработчик которыми может столкнуться при выполнении обычных операции, от чтения архивированного файла до обращения к сервисам Amazon. Читайте далее, что не так с методом getDefaultExtension(), зачем к AWS S3 так много коннекторов и почему PySpark нужно дополнительно конфигурировать...