Публикации с меткойHadoop

15Фев
2020

Как Apache Kafka используется в реальном производстве: пример Северстали

Автор Анна Вичуговав категории Kafka, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, Kafka, архитектура, Docker, Kubernetes, Hadoop, цифровизация, цифровая трансформация, IIoT, IoT, интернет вещей, промышленность

Рассматривать обучение Кафка интереснее на практических примерах. Сегодня мы расскажем, как Apache Kafka применяется в одной из крупнейших промышленных компаний России - ПАО «Северсталь». Эта статья написана на основе выступления Доната Фетисова, главного архитектора «Северсталь Диджитал». Доклад был представлен 7 декабря 2019 года на очередном ИТ-митапе компании Авито по Big...

14Фев
2020

Корпоративное обучение Big Data vs индивидуальные курсы: 4 ключевых отличия

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

обучение Big Data, курсы по большим данным, тренинги большие данные для руководителей

Сегодня рассмотрим, чем корпоративное обучение большим данным (Big Data) отличается от индивидуального. Читайте в нашей статье, почему образовательные курсы по Apache Kafka, Hadoop, Spark и другим технологиям Big Data сплотят ваших сотрудников лучше любого тимбилдинга и как повысить эффективность такого обучающего тренинга. Почему корпоративное обучение Big Data эффективнее индивидуальных курсов:...

30Янв
2020

Зачем Apache Kafka и другие Big Data системы используют Zookeeper и чем его заменить

Автор Анна Вичуговав категории Kafka, Блог

Big Data, Большие данные, Kafka, Hadoop, HBase

Рассматривая практическое обучение Kafka, сегодня мы поговорим, зачем нужен Zookeeper и можно ли использовать Кафка без этой централизованной службы синхронизации распределенных сервисов. Читайте в нашей статье о роли Zoo в системах обработки больших данных (Big Data) и о том, может ли Apache Kafka эффективно работать без Zookeeper, а также как...

27Янв
2020

Кому и когда нужны курсы по Kafka и другим технологиям Big Data: 5 реальных кейсов

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, Kafka, интернет вещей, Internet of Things, IoT, IIoT, DevOps, Spark, Hadoop, Machine Learning, машинное обучение, цифровизация, цифровая трансформация

Продолжая разговор о том, как выбрать курсы по Kafka и другим технологиям больших данных (Big Data), сегодня рассмотрим, кому и в каких случаях нужно такое повышение квалификации. В этой статье мы собрали для вас 5 прикладных кейсов по Кафка для ИТ-профессионалов разных специальностей, от системного администратора до Data Engineer’а. А...

23Дек
2019

Apache Cassandra vs HBase: что и когда выбирать для NoSQL в Big Data

Автор Анна Вичуговав категории HBase, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop, IoT, Internet of Things, IIoT, интернет вещей, предиктивная аналитика

Рассмотрев ключевые сходства и различия Cassandra и HBase, сегодня мы поговорим, в каких случаях стоит выбирать ту или иную нереляционную СУБД для обработки больших данных (Big Data) в NoSQL-хранилище. Где используются NoSQL-СУБД в Big Data Прежде всего отметим основные области применения рассматриваемых нереляционных СУБД. Проанализировав наиболее известные примеры использования (use...

21Дек
2019

Apache Cassandra и HBase: конкуренты или альтернативы – 10 ключевых сходств и отличий

Автор Анна Вичуговав категории HBase, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop

Cassandra и HBase считаются наиболее популярными NoSQL-СУБД в мире Big Data. Сегодня мы поговорим, что между ними общего и чем отличаются эти нереляционные базы данных, сравнив их по 10 ключевым параметрам: от архитектуры до инструментальных средств. Что общего между Apache Cassandra и HBase: 5 главных сходств Прежде всего отметим, чем...

19Дек
2019

Как Apache Cassandra, Kafka, Storm и Hadoop формируют рекомендации пользователям Spotify

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, машинное обучение, Machine Learning, Spark, Kafka, предиктивная аналитика, Hadoop

Продолжая разговор про примеры практического использования Apache Cassandra в реальных Big Data проектах, сегодня мы расскажем вам о рекомендательной системе стримингового сервиса Spotify на базе этой нереляционной СУБД в сочетании с другими технологиями больших данных: Kafka, Storm, Crunch и HDFS. Рекомендательная система Spotify: зачем она нужна и что должна делать...

14Дек
2019

7 основных преимуществ и пара недостатков Apache HBase для Big Data систем

Автор Анна Вичуговав категории HBase, Use Cases, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, Hadoop, SQL, NoSQL, HBase, Caasandra, Hive, Impala

В этой статье мы поговорим про ключевые достоинства и недостатки Apache HBase, а также рассмотрим наиболее интересные примеры практического использования этой нереляционной распределенной СУБД в крупных Big Data проектах. Достоинства и недостатки одной из самых популярных NoSQL СУБД для Big Data Прежде всего, отметим, что Apache HBase и Cassandra считаются...

11Дек
2019

Птичка + рыбка: синергия Apache Phoenix и HBase для быстрой SQL-аналитики Big Data в Hadoop

Автор Анна Вичуговав категории HBase, Блог

Apache Phoenix, Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

Сегодня мы рассмотрим еще один инструмент стека SQL-on-Hadoop: Apache Phoenix, позволяющий выполнять SQL-запросы к нереляционной СУБД HBase. Читайте в нашей статье, что представляет собой этот исполнительный механизм, как он работает и чем отличается от других Big Data решений подобного класса (Cloudera Impala, Apache Hive и Drill). Также мы собрали для...

09Дек
2019

Apache Drill vs Cloudera Impala: SQL-аналитика Big Data не только в Hadoop

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala, Apache Drill vs Cloudera Impala

Cloudera Impala – далеко не единственное SQL-решение для быстрой обработки больших данных (Big Data), хранящихся в среде Hadoop. C Impala часто сравнивают Apache Hive, однако они существенно отличаются в плане прикладного использования, как мы уже показали здесь. Гораздо ближе к Impala с точки зрения вычислительной модели и сценариев использования (use...

06Дек
2019

Что выбрать для SQL-аналитики Big Data в Hadoop: Apache Hive или Cloudera Impala

Автор Анна Вичуговав категории Hive, Блог

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

Завершая сравнение SQL-инструментов для больших данных (Big Data), хранящихся в среде Hadoop, сегодня мы рассмотрим аргументы в пользу Apache Hive и Cloudera Impala – когда стоит выбирать ту или иную систему и почему. Также в этой статье мы собрали для вас несколько практических примеров реального использования Импала и Хайв в...

05Дек
2019

Как защитить Big Data в Hive и Impala: проблема безопасности в SQL-on-Hadoop

Автор Анна Вичуговав категории Hive, Блог

Big Data, Большие данные, архитектура, SQL, Hadoop, Hive, Impala, защита данных, безопасность, security

Продолжая тему SQL-on-Hadoop, сегодня мы рассмотрим вопросы обеспечения информационной безопасности в Apache Hive и Cloudera Impala. Читайте в нашем материале, что такое RBAC, в чем специфика cybersecurity больших данных в экосистеме Hadoop и какие средства помогут защитить Big Data при работе с Hive и Impala. Что такое RBAC для SQL-on-Hadoop...

04Дек
2019

Что такое HiveQL: SQL для Big Data в Apache Hadoop — как работают Hive и Impala

Автор Анна Вичуговав категории Hive, Блог

HiveQL, Big Data, Большие данные, архитектура, SQL, Hadoop, Hive, Impala

Мы уже разобрали, что общего между Apache Hive и Cloudera Impala. В этой статье рассмотрим работу этих систем с точки зрения программиста, а также поговорим про язык HiveQL. Читайте в сегодняшнем материале, как эти системы выполняют SQL-запросы для аналитики больших данных (Big Data), хранящихся в кластере Hadoop. Что такое HiveQL,...

03Дек
2019

Hive vs Impala: сходства и различия SQL-инструментов для Apache Hadoop

Автор Анна Вичуговав категории Hive, Блог

В прошлой статье мы рассмотрели основные возможности и ключевые характеристики Apache Hive и Cloudera Impala. Сегодня подробнее поговорим про то, что между ними общего и чем отличаются друг от друга эти SQL-инструменты для обработки больших данных (Big Data), хранящихся в кластере Hadoop. Что общего между Apache Hive и Cloudera Impala:...

02Дек
2019

Hive и Impala: коллеги или конкуренты – обзор SQL-инструментов для Apache Hadoop

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, архитектура, Hive, Impala, SQL

Сегодня мы рассмотрим Apache Hive и Cloudera Impala – аналитические SQL-средства для работы с данными, хранящимися в экосистеме Apache Hadoop и других Big Data хранилищах: HDFS, HBase, Amazon S3. Читайте в нашей статье, что такое Hive и Impala, где они используются и почему они не заменяют, а дополняют друг друга....

20Ноя
2019

Что такое Apache Chukwa, Sqoop и Falcon: сравнение 3-х пакетных ETL-средств для Big Data

Автор Анна Вичуговав категории Hive, Internet of Things, Kafka, Use Cases, Блог

ETL, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Hadoop

Продолжая разговор про Apache NiFi и другие ETL-инструменты больших данных, сегодня мы подробнее расскажем про пакетные средства загрузки и маршрутизации информации из различных источников: Sqoop, Chuckwa и Falcon. Читайте в нашей статье, чем они похожи и чем отличаются, а также как применяются в Big Data системах и интернете вещей (Internet...

01Ноя
2019

Блеск и нищета главной технологии Big Data: достоинства и недостатки MapReduce

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop

MapReduce можно назвать основой Big Data, т.к. именно данная технология позволяет обрабатывать огромные массивы информации параллельно в распределенных кластерах. Эту вычислительную модель поддерживают множество различных коммерческих и свободных продуктов: Apache Hadoop, Spark, Greenplum, Hive, MongoDB, Phoenix, DryadLINQ и прочие Big Data фреймворки и библиотеки, написанные на разных языках программирования [1]. Сегодня...

19Окт
2019

Где и как используется Apache Samza: реальные примеры Big Data проектов

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza часто сравнивают с другими Big Data фреймворками распределенных потоковых вычислений в реальном времени (Real Time, RT): Kafka Streams, Spark Streaming, Flink и Storm. Apache Spark и Flink обладают практически одинаковым набором функциональных возможностей и компонентов, поэтому их можно сравнивать между собой более-менее объективно. Apache Samza является более простой...

17Окт
2019

Где и как в Big Data используется Apache Storm: примеры применения

Автор Анна Вичуговав категории Kafka, Spark, Блог

Apache Storm, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Storm (Сторм, Шторм) часто употребляется в контексте других BigData инструментов для распределенных потоковых вычислений в реальном времени (Real Time, RT): Spark Streaming, Kafka Streams, Flink и Samza. Однако, если Apache Spark и Flink по функциональным возможностям и составу компонентов еще могут конкурировать между собой, то сравнивать с ними Шторм,...

13Окт
2019

ТОП-7 сходств и различий между Apache Kafka Streams и Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Сегодня мы рассмотрим популярные Big Data инструменты обработки потоковых данных: Apache Kafka Streams и Spark Streaming: чем они похожи и чем отличаются. Стоит сказать, что Спарк Стриминг и Кафка Стримс – возможно, наиболее популярные, но не единственные средства обработки информационных потоков Big Data. Для этой цели существует еще множество альтернатив,...