Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

04Май
2020

Завод, телеком и госсектор: 3 примера внедрения Arenadata

Автор Анна Вичуговав категории Greenplum, Hive, Kafka, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake, цифровизация, цифровая трансформация, Kafka, Spark, NiFi, Airflow, DWH, Аренадата, Arenadata

В этой статье мы продолжим рассказывать про практическое использование отечественных Big Data решений на примере российского дистрибутива Arenadata Hadoop (ADH) и массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB). Сегодня мы приготовили для вас еще 3 интересных кейса применения этих решений в проектах цифровизации бизнеса и государственном...

19Апр
2020

Data lineage и provenance: близнецы или двойняшки – Big Data Management для начинающих

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, ETL, Hadoop, Airflow, Spark, Kafka, Data Lineage, Data Provenance, Data Governance, Data Management

В этой статье мы продолжим разговор про основы управления данными и рассмотрим, что такое data provenance и data lineage, чем похожи и чем отличаются эти понятия. Также разберем, почему эти термины особенно важны для Big Data, какие инструменты помогают работать с ними, а также при чем здесь GDPR. Что такое...

11Апр
2020

Что такое Каппа-архитектура: альтернатива Лямбда для потоков Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Блог

Big Data, Большие данные, Kafka, архитектура, Spark, Hadoop, машинное обучение, Machine Learning, Каппа, Лямбда

Вчера мы рассказали, что такое лямбда-архитектура. Сегодня рассмотрим Каппа - альтернативный подход к проектированию Big Data систем. Читайте в нашей статье, зачем нужна эта концепция, каковы ее достоинства и недостатки, чем Каппа отличается от Лямбда, где это используется на практике и при чем тут Apache Kafka с Machine Learning. Зачем...

24Мар
2020

7 принципов Lean в Big Data: бережливое производство больших данных

Автор Анна Вичуговав категории Kafka, Spark, Блог, Цифровая трансформация

Big Data, Большие данные, системный анализ, DevOps, предиктивная аналитика, цифровизация, цифровая трансформация, интернет вещей, Internet of Things, Spark, Kafka, Airflow, Lean, бережливое производство

Не претендуя на лавры Мэри и Тома Поппендиков, которые впервые освятили применение Lean в разработке ПО, сегодня мы расскажем, как идеи бережливого производства реализуются в области Big Data. Читайте в нашей статье про принцип вытягивания в Apache Kafka, концепцию «точно вовремя» в Apache Spark, SMED в Kubernetes и облачных кластерах...

03Мар
2020

Как выбрать курсы по Spark: 4 ключевых аспекта, на что обратить внимание

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Spark, обучение Apache Spark, Big Data, Большие данные, архитектура, Hadoop, Spark, SQL, администрирование, Kafka

Выбирая курсы по Spark, Hadoop, Kafka и другим технологиям больших данных, легко запутаться во многочисленных предложениях от различных учебных центров и платформах онлайн-обучения. Сегодня мы расскажем, что должна включать программа курса по Big Data, чтобы результат обучения оправдал ваши ожидания и даже превзошел их. 4 главных свойства эффективного курса по...

25Фев
2020

Как работает Apache Zookeeper: 5 проблем самой популярной службы синхронизации для распределенных Big Data систем

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Apache Zookeeper, Зукипер, Big Data, Большие данные, архитектура, Hadoop, HBase, Kafka, администрирование

Однажды мы уже рассматривали, зачем Apache Kafka, Hadoop, HBase и другие Big Data системы используют Zookeeper, почему он необходим в распределенных проектах и чем можно заменить его заменить. Сегодня поговорим о том, как работает этот популярный централизованный сервис для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления...

15Фев
2020

Как Apache Kafka используется в реальном производстве: пример Северстали

Автор Анна Вичуговав категории Kafka, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, Kafka, архитектура, Docker, Kubernetes, Hadoop, цифровизация, цифровая трансформация, IIoT, IoT, интернет вещей, промышленность

Рассматривать обучение Кафка интереснее на практических примерах. Сегодня мы расскажем, как Apache Kafka применяется в одной из крупнейших промышленных компаний России - ПАО «Северсталь». Эта статья написана на основе выступления Доната Фетисова, главного архитектора «Северсталь Диджитал». Доклад был представлен 7 декабря 2019 года на очередном ИТ-митапе компании Авито по Big...

13Фев
2020

Как ускорить работу producer’ов Kafka: параметры конфигурации производителей

Автор Анна Вичуговав категории Kafka, Блог

Big Data, Большие данные, Kafka, архитектура

Вчера мы рассказывали, от чего зависит скорость работы Apache Kafka и как можно повысить. Сегодня рассмотрим подробнее, как именно конфигурация отправителей (производителей, producers) сообщений влияет на общую производительность этой распределенной Big Data системы потоковой агрегации событий. Что такое конфигурация производителей Apache Kafka Напомним, общая производительность Кафка зависит от следующих факторов:...

12Фев
2020

Почему ваша Kafka такая медленная и как ее ускорить: 7 главных факторов производительности этой Big Data системы

Автор Анна Вичуговав категории Kafka, Блог

Продолжая практическое обучение Kafka, сейчас мы рассмотрим, от чего зависит производительность этой распределенной Big Data системы потоковой агрегации событий. Частично эту тему мы уже рассматривали в статье про применение Кафка в высоконагруженных проектах. Читайте в сегодняшнем материале, какие параметры влияют на скорость работы Кафка и как можно ее повысить. Как...

06Фев
2020

Что такое гарантия доставки сообщений или как избавиться от дублей и потерь в Apache Kafka и других Big Data брокерах

Автор Анна Вичуговав категории Kafka, Блог

Вчера мы говорили про концепцию QaaS, очереди сообщений в Apache Kafka и другие проблемы производительности высоконагруженных систем с использованием этой Big Data платформы. Сегодня рассмотрим сложности многопоточной обработки событий в разном порядке: когда возникают подобные ситуации и как их решить. Для этого еще раз сравним Кафку с ее вечным конкурентом,...