Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

14Фев
2020

Корпоративное обучение Big Data vs индивидуальные курсы: 4 ключевых отличия

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

обучение Big Data, курсы по большим данным, тренинги большие данные для руководителей

Сегодня рассмотрим, чем корпоративное обучение большим данным (Big Data) отличается от индивидуального. Читайте в нашей статье, почему образовательные курсы по Apache Kafka, Hadoop, Spark и другим технологиям Big Data сплотят ваших сотрудников лучше любого тимбилдинга и как повысить эффективность такого обучающего тренинга. Почему корпоративное обучение Big Data эффективнее индивидуальных курсов:...

27Янв
2020

Кому и когда нужны курсы по Kafka и другим технологиям Big Data: 5 реальных кейсов

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, Kafka, интернет вещей, Internet of Things, IoT, IIoT, DevOps, Spark, Hadoop, Machine Learning, машинное обучение, цифровизация, цифровая трансформация

Продолжая разговор о том, как выбрать курсы по Kafka и другим технологиям больших данных (Big Data), сегодня рассмотрим, кому и в каких случаях нужно такое повышение квалификации. В этой статье мы собрали для вас 5 прикладных кейсов по Кафка для ИТ-профессионалов разных специальностей, от системного администратора до Data Engineer’а. А...

19Дек
2019

Как Apache Cassandra, Kafka, Storm и Hadoop формируют рекомендации пользователям Spotify

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, машинное обучение, Machine Learning, Spark, Kafka, предиктивная аналитика, Hadoop

Продолжая разговор про примеры практического использования Apache Cassandra в реальных Big Data проектах, сегодня мы расскажем вам о рекомендательной системе стримингового сервиса Spotify на базе этой нереляционной СУБД в сочетании с другими технологиями больших данных: Kafka, Storm, Crunch и HDFS. Рекомендательная система Spotify: зачем она нужна и что должна делать...

18Дек
2019

10 примеров применения Apache Cassandra в 5 направлениях Big Data

Автор Анна Вичуговав категории Internet of Things, Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Internet of Things, IoT, IIoT, интернет вещей, машинное обучение, Machine Learning, Spark

Благодаря быстроте, надежности и другим достоинствам Apache Cassandra, эта распределенная NoSQL-СУБД широко применяется во многих Big Data проектах по всему миру. В этой статье мы собрали для вас несколько интересных примеров реального использования Кассандры в 5 ключевых направлениях современного ИТ. Где используется Apache Cassandra: 5 главных приложений c примерами Промышленные...

01Дек
2019

4 этапа SQL-оптимизации в Big Data: насколько эффективен Catalyst в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL

Завершая тему SQL-оптимизации в Big Data на примере Apache Spark, сегодня мы подробнее расскажем, какие действия выполняются на каждом этапе преобразования дерева запросов в исполняемый код. А рассмотрим, за счет чего так эффективна автоматическая кодогенерация в Catalyst. Читайте в нашей статье про планы выполнения запросов, квазиквоты Scala и операции с...

30Ноя
2019

Как работает оптимизация SQL-запросов в Apache Spark: деревья запросов в Catalyst optimizer

Автор Анна Вичуговав категории Spark, Блог

дерево запросов, Big Data, Catalyst, Большие данные, архитектура, Spark, SQL

Продолжая разговор про SQL-оптимизацию в Apache Spark, сегодня мы рассмотрим, что такое дерево запросов и как оптимизатор Catalyst преобразует его в исполняемый байт-код при аналитической обработке Big Data в рамках Спарк. Деревья структурированных запросов и правила управления ими в Apache Spark Отметим, что деревья запросов отличаются от алгебраических деревьев операций тем, что...

29Ноя
2019

Что такое оптимизация SQL-запросов в Apache Spark: разбираемся с Catalyst optimizer

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL, SQL-оптимизация, Apache Spark, Catalyst

Мы уже немного рассказывали об SQL-оптимизации в Apache Spark. Продолжая эту тему, сегодня рассмотрим подробнее, что такое Catalyst – встроенный оптимизатор структурированных запросов в Spark SQL, а также поговорим про базовые понятия SQL-оптимизации. Читайте в нашей статье о логической и физической оптимизации, плане выполнения запросов и зачем эти концепции нужны...

28Ноя
2019

Что лучше: RDD, DataFrame или DataSet и почему – выбор структуры данных Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

RDD, DataFrame, DataSet, Big Data, Большие данные, архитектура, Spark, SQL

Завершая сравнение структур данных Apache Spark, сегодня мы рассмотрим, в каких случаях разработчику Big Data стоит выбирать датафрейм (DataFrame), датасет (DataSet) или RDD и почему. Также мы приведем практический примеры и сценарии использования (use cases) этих программных абстракций, важных при разработке систем и сервисов по интерактивной аналитике больших данных с...

27Ноя
2019

RDD, DataFrame и DataSet с точки зрения программиста Apache Spark: в чем разница

Автор Анна Вичуговав категории Spark, Блог

Big Data, RDD, DataFrame, DataSet, Большие данные, архитектура, Spark, SQL,

Продолжая говорить о сходствах и отличиях структур данных Apache Spark, сегодня мы рассмотрим, чем похожи датафрейм (DataFrame), датасет (DataSet) и RDD с позиции разработчика Big Data. Читайте в нашей статье, как обеспечивается оптимизация кода, безопасность типов при компиляции и прочие аспекты, важные при разработке распределенных программ и интерактивной аналитике больших...

26Ноя
2019

RDD vs DataFrame vs DataSet: чем отличаются эти структуры данных Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL, DataFrame, DataSet, RDD

В прошлый раз мы рассмотрели понятия датафрейм (DataFrame), датасет (DataSet) и RDD в контексте интерактивной аналитики больших данных (Big Data) с помощью Spark SQL. Сегодня поговорим подробнее, чем отличаются эти структуры данных, сравнив их по разным характеристикам: от времени возникновения до специфики вычислений. Критерии сравнения структур данных Apache Spark Прежде...

25Ноя
2019

3 набора данных в Spark SQL для аналитики Big Data: что такое dataframe, dataset и RDD

Автор Анна Вичуговав категории Spark, Блог

Этой статьей мы открываем цикл публикаций по аналитике больших данных (Big Data) с помощью SQL-инструментов: Apache Impala, Spark SQL, KSQL, Drill, Phoenix и других средств работы с реляционными базами данных и нереляционными хранилищами информации. Начнем со Spark SQL: сегодня мы рассмотрим, какие структуры данных можно анализировать с его помощью и...

13Ноя
2019

Блокчейн, озеро данных и еще 3 кейса Apache NiFi в комплексных Big Data системах

Автор Анна Вичуговав категории Internet of Things, Kafka, NiFi, Spark, Use Cases, Блог

Большие данные, предиктивная аналитика, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, Spark

В прошлый раз мы рассмотрели пример прототипа IIoT-системы на основе одноплатного мини-компьютера Raspberry Pi, брокере обмена сообщениями Mosquitto и платформе маршрутизации данных Apache NiFi. Сегодня мы покажем, что этот инструмент преобразования и доставки данных из множества сторонних систем может применяться не только в IoT-решениях. Читайте в нашей статье про 5...

10Ноя
2019

12 уровней IIoT-архитектуры: от периферийных датчиков до аналитики Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IoT, IIoT, интернет вещей, архитектура, Kafka, обработка данных, Spark, машинное обучение, Machine Learning

Мы уже рассматривали типовую архитектуру систем Internet of Things (IoT). Сегодня поговорим подробнее про уровневую модель передачи и обработки данных от конечных устройств до облачных IoT-платформ, а также приведем примеры наиболее популярных средств обеспечения каждого из уровней этой сложной архитектуры Industrial Internet of Things, включая инструменты Big Data. Многоуровневый IIoT:...

01Ноя
2019

Блеск и нищета главной технологии Big Data: достоинства и недостатки MapReduce

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop

MapReduce можно назвать основой Big Data, т.к. именно данная технология позволяет обрабатывать огромные массивы информации параллельно в распределенных кластерах. Эту вычислительную модель поддерживают множество различных коммерческих и свободных продуктов: Apache Hadoop, Spark, Greenplum, Hive, MongoDB, Phoenix, DryadLINQ и прочие Big Data фреймворки и библиотеки, написанные на разных языках программирования [1]. Сегодня...

27Окт
2019

Apache Kafka Streams, Spark Streaming, Flink, Storm или Samza: что и когда выбирать для обработки потоков Big Data

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия пяти самых популярных Big Data фреймворков для распределенных потоковых вычислений (Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza), в этой статье мы сравним их по 10 критериям и отметим, какие именно факторы являются наиболее значимыми для объективного выбора. Сравнительный анализ самых популярных фреймворков потоковой обработки...

26Окт
2019

Сходства и различия популярных Big Data фреймворков распределенной потоковой обработки: сравниваем Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Kafka

В этой статье мы рассмотрим, чем похожи и чем отличаются 5 самых популярных инструментов распределенной обработки потоков Big Data: Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza, а также поговорим про наиболее значимые факторы выбора между этими программными средствами. 5 общих характеристик распределенных Big Data фреймворков потоковой обработки Прежде...

19Окт
2019

Где и как используется Apache Samza: реальные примеры Big Data проектов

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza часто сравнивают с другими Big Data фреймворками распределенных потоковых вычислений в реальном времени (Real Time, RT): Kafka Streams, Spark Streaming, Flink и Storm. Apache Spark и Flink обладают практически одинаковым набором функциональных возможностей и компонентов, поэтому их можно сравнивать между собой более-менее объективно. Apache Samza является более простой...

17Окт
2019

Где и как в Big Data используется Apache Storm: примеры применения

Автор Анна Вичуговав категории Kafka, Spark, Блог

Apache Storm, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Storm (Сторм, Шторм) часто употребляется в контексте других BigData инструментов для распределенных потоковых вычислений в реальном времени (Real Time, RT): Spark Streaming, Kafka Streams, Flink и Samza. Однако, если Apache Spark и Flink по функциональным возможностям и составу компонентов еще могут конкурировать между собой, то сравнивать с ними Шторм,...

15Окт
2019

Apache Flink vs Spark: что и когда выбрать для потоковой обработки Big Data

Автор Анна Вичуговав категории Flink, Spark, Use Cases, Блог

Flink vs Spark, Big Data, Большие данные, архитектура, обработка данных, Apache Spark

Flink часто сравнивают с Apache Spark, другим популярным инструментом потоковой обработки данных. Оба этих распределенных отказоустойчивых фреймворка с открытым исходным кодом используются в высоконагруженных Big Data приложениях для анализа данных, хранящихся в кластерах Hadoop [1] и других кластерных системах. В этой статье мы поговорим, чем похожи и чем отличаются Флинк и Спарк, а...

14Окт
2019

Что выбрать для потоковой обработки Big Data: Apache Kafka Streams или Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия Apache Kafka Streams и Spark Streaming, можно сделать некоторые выводы относительно выбора того или иного решения в качестве основного инструмента потоковой обработки Big Data. В этой статье мы собрали для вас аргументы в пользу Кафка Стримс и Спарк Стриминг в конкретных ситуациях, а также нашли некоторые...