Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

23Сен
2019

Как хранить большие данные: Apache Parquet, Avro и другие форматы Big Data

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Hadoop, Spark

Мы уже упоминали формат Parquet в статье про Apache Avro, одну из наиболее распространенных схем данных Big Data, часто используемую в Kafka, Spark и Hadoop. Сегодня рассмотрим более подробно, чем именно хорошо Apache Parquet и как он отличается от других форматов Big Data. Что такое Apache Parquet и как он...

19Сен
2019

DevOps для потоков Big Data: Apache Kafka в кластере Kubernetes

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, DevOps, Kubernetes

Для высоконагруженных Big Data систем и платформ интернета вещей (Internet of Things, IoT) с непрерывными информационными потоками Apache Kafka, практически, стала стандартом де факто для обмена сообщениями и управления очередями. Аналогичную популярность среди DevOps-инструментов завоевал Kubernetes (K8s) как наиболее мощное средство для автоматизации развертывания и управления контейнеризованными приложениями. В этой...

17Сен
2019

Как связать Apache Kafka и Spark Streaming: 2 способа интеграции Big Data систем

Автор Анна Вичуговав категории Kafka, Spark, Блог

Интеграция Apache Kafka и Spark Streaming, Big Data

Мы уже рассказывали, зачем нужна интеграция Apache Kafka и Spark Streaming. Сегодня рассмотрим, как технически организовать такой Big Data конвейер по непрерывной обработке потоковых данных в режиме реального времени. Способы интеграции Наладить двустороннюю связь между Apache Kafka и Spark Streaming возможны следующими 2-мя способами: получение сообщений через службу синхронизации Zookeeper...

16Сен
2019

Синергия Apache Kafka и Spark Streaming: потоковая обработка Big Data в реальном времени

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark, машинное обучение, Machine Learning

В этой статье мы рассмотрим архитектуру Big Data конвейера по непрерывной обработке потоковых данных в режиме реального времени на примере интеграции Apache Kafka и Spark Streaming. Что такое Spark Streaming и для чего он нужен Spark Streaming – это надстройка фреймворка с открытым исходным кодом Apache Spark для обработки потоковых...

14Сен
2019

Apache Kafka vs RabbitMQ в Big Data: сходства и различия самых популярных брокеров сообщений

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka, RabbitMQ, Big Data, Большие данные, архитектура, обработка данных

Apache Kafka – не единственный программный брокер сообщений и система управления очередями, используемая в высоконагруженных Big Data проектах. Кафка часто сравнивают с другим популярным продуктом аналогичного назначения – RabbitMQ. В сегодняшней статье мы рассмотрим, чем похожи и чем отличаются Apache Kafka и RabbitMQ, а также поговорим о том, что следует...

13Сен
2019

Что такое Avro: как Apache Kafka и другие технологии Big Data используют эту схему данных

Автор Анна Вичуговав категории Kafka, Блог

Мы уже рассказывали о сериализации, схемах данных и их важности в Big Data на примере Schema Registry для Apache Kafka. В продолжение ряда статей про основы Кафка для начинающих, сегодня мы поговорим про Apache Avro – наиболее популярную схему и систему сериализации данных: ее особенностях и применении в технологиях Big...

12Сен
2019

Как Apache Kafka работает с разными файлами Big Data: зачем нужен Schema Registry

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных

Продолжая серию публикаций про основы Apache Kafka для начинающих, в этой статье мы рассмотрим, зачем этой распределенной системе управления сообщениями нужен реестр схем данных (Schema Registry) и что такое сериализация файлов Big Data. Что такое схемы данных в Big Data и как они используются Понятие схемы неразрывно связано с форматом...

09Сен
2019

Еще раз про Big Data Security: как обеспечить безопасность кластера Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, защита информации, безопасность, security

В рамках серии публикаций про основы Apache Kafka для начинающих, сегодня мы поговорим про информационную безопасность этой популярной в сфере Big Data распределенной системы управления сообщениями: шифрование, защищенные протоколы, аутентификация, авторизация и другие средства cybersecurity. Что обеспечивает безопасность Apache Kafka в кластере Big Data Информационная безопасность Apache Kafka основана на...

08Сен
2019

И чем же она хороша: ТОП-10 достоинств Apache Kafka для Big Data систем

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, архитектура, обработка данных, интеграция

Продолжая разговор про основы Apache Kafka, сегодня мы рассмотрим, почему этот распределённый брокер сообщений стал таким популярным в архитектуре систем Big Data. Читайте в нашей статье, как Кафка обеспечивает высокую производительность процессов сбора и агрегации информационных потоков от множества источников, надежно гарантируя долговечную сохранность сообщений, и эффективно интегрируется с другими...

06Сен
2019

Как связаны Apache Kafka и Machine Learning: архитектура Big Data и IoT-систем

Автор Анна Вичуговав категории Internet of Things, Kafka, Spark, Use Cases, Блог

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, архитектура, обработка данных, машинное обучение, Machine Learning, Spark

Рассмотрев основы Apache Kafka, сегодня мы расскажем о месте этого распределённого брокера сообщений в архитектуре Big Data систем. Читайте в нашей статье, какие компоненты Кафка обеспечивают ее использование в программных продуктах машинного обучения (Machine Learning, ML), интернете вещей (Internet Of Things, IoT), системах бизнес-аналитики (Business Intelligence, BI), а также других...

05Сен
2019

Роль Apache Kafka в Big Data и DevOps: краткий ликбез и практические кейсы

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, DevOps, архитектура, администрирование, обработка данных

Мы уже упоминали Apache Kafka в статье про промышленный интернет вещей (Industrial Internet Of Things, IIoT). Сегодня поговорим о том, где и для чего еще в Big Data проектах используется эта распределённая, горизонтально масштабируемая система обработки сообщений. Как работает Apache Kafka Apache Kafka позволяет в режиме онлайн обеспечить сбор и...

29Авг
2019

Упакуем все: зачем нужны контейнеры и как с ними работать в Big Data

Автор Анна Вичуговав категории Блог, Статьи

Big Data, контейнеры, Kubernetes, Docker

Мы уже рассказывали про достоинства и недостатки самой популярной DevOps-технологии 2019 года – платформы управления контейнерами Kubernetes для Big Data систем. Сегодня поговорим, зачем вообще нужны контейнеры, чем они отличаются от виртуальных машин, каковы их плюсы и минусы, а также для чего нужна их оркестрация. Что такое контейнеризация приложений и...

25Авг
2019

Блеск и нищета Kubernetes: достоинства и недостатки самой популярной DevOps-технологии для Big Data систем

Автор Анна Вичуговав категории Блог, Цифровая трансформация

оркестрация котейнеров, кПлюсы и минусы Kubernetes, Big Data, большие данныеубернетис, k8s,

Сегодня, когда ИТ-компании распиливают монолиты своих Big Data систем на микросервисы, а DevOps-подход совершает свое победное шествие по локальным и облачным кластерам, Kubernetes стал, пожалуй, самой востребованной технологией 2019 года. Однако, K8s нужен далеко не каждому проекту. В этой статье мы поговорим о достоинствах и недостатках кубернетис, в каких случаях...

20Авг
2019

Кто такой Big Data Administrator: профессиональные компетенции администратора больших данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

администрирование, администратор, большие данные, administrator big data

В прошлых выпусках мы рассмотрели, чем занимаются аналитик (Data Analyst), исследователь (Data Scientist) и инженер больших данных (Data Engineer). Завершая цикл статей о самых популярных профессиях Big Data, поговорим об администраторе больших данных – его рабочих обязанностях, профессиональных компетенциях, зарплате и отличиях от других специалистов. Итак, в сегодняшней статье –...

19Авг
2019

Кто такой Data Engineer в Big Data: профессиональные компетенции инженера данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Data Engineer, инженер данных, инженер Big Data

Мы уже рассказывали о некоторых профессиях Big Data, например, объясняли «для чайников», кто такие аналитик (Data Analyst) и исследователь (Data Scientist): что каждый из них должен знать и уметь, чем они занимаются и как отличаются друг от друга. Сегодня поговорим об инженере данных (Data Engineer) – его рабочих обязанностях, профессиональных...

18Авг
2019

Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных

Автор Анна Вичуговав категории Machine Learning, Блог, Цифровая трансформация

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

В этом выпуске мы продолжаем введение в Data Science для чайников, разбирая профессии Big Data, и рассказываем, кто такой Data Scientist: что необходимо знать ученому по данным и чем исследователь отличается от аналитика. Что делает ученый по данным Как и Data Analyst, исследователь данных тоже работает с информационными массивами путем...

14Авг
2019

Кто такой Data Analyst в Big Data: что нужно знать аналитику данных

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Продолжая разговор про то, с чего начать вход в большие данные, и какие бывают ИТ-специальности, сегодня мы расскажем, чем именно занимается аналитик Big Data, что он должен знать и уметь, а также где и как получить необходимые профессиональные компетенции. Что делает аналитик данных Как правило, Data Analyst работает с информационными...

12Авг
2019

Я в Big Data пойду – пусть меня научат: большие данные — с чего начать

Автор Анна Вичуговав категории Блог, Цифровая трансформация

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, интернет вещей, IoT, Internet of Things, машинное обучение, Machine Learning

Этой статьей мы продолжаем серию материалов по ИТ-специальностям мира больших данных и начинаем описывать профессиональные компетенции в области Big Data и машинного обучения (Machine Learning). Ищите в сегодняшнем выпуске ответ на главный вопрос новичка Big Data – с чего начать, что нужно знать и уметь, а также где этому учиться...

08Авг
2019

Алиса посылает Бобу сообщение: криптография в IoT и Big Data системах

Автор Анна Вичуговав категории Internet of Things, Блог, Цифровая трансформация

Big Data, Большие данные, интернет вещей, IoT, Internet of Things, Security, безопасность, защита информации, персональные данные, утечки данных

Почти каждая статья по системам шифрования и криптографическим методам иллюстрируется примере отношений Алисы с Бобом и прочими метафизическими личностями [1]. В продолжение темы информационной безопасности в интернете вещей и Big Data, сегодня мы поговорим о том, как именно криптография помогает защитить каналы передачи данных и IoT-устройства от перехвата управления и...

07Авг
2019

Сетевая безопасность IoT-систем: IPv6 и криптография микроконтроллеров

Автор Анна Вичуговав категории Internet of Things, Блог, Цифровая трансформация

Продолжая разбираться с информационной безопасностью Internet of Things и Big Data систем, сегодня мы поговорим о каналах передачи данных – защищенных протоколах и криптографических средствах в smart-устройствах. От IoT-устройства в облако Big Data: особенности многоуровневой передачи данных по сетям Интернет вещей – это комплексная система трехзвенной архитектуры: информация с «умного»...