Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

05Июл
2020

Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, DWH, цифровизация, цифровая трансформация, Arenadata

В этой статье разберем кейс построения экосистемы управления Big Data с озером данных на примере федеральной фармацевтической сети - российской Ассоциации независимых аптек (АСНА). Читайте в этом материале, зачем фармацевтическому ритейлеру большие данные, с какими трудностями столкнулся этот проект цифровизации и как открытые технологии (Arenadata Hadoop, Apache Spark, NiFi и...

03Июл
2020

Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Apache Bigtop, Big Data, Большие данные, обработка данных, архитектура, Hadoop, MapReduce, Hbase

Сегодня поговорим про еще один open-source проект от Apache Software Foundation – Bigtop, который позволяет собрать и протестировать собственный дистрибутив Hadoop или другого Big Data фреймворка, например, Greenplum. Читайте в нашей статье, что такое Apache Bigtop, как работает этот инструмент, какие компоненты он включает и где используется на практике. Что...

01Июл
2020

Big Data в профиль: что такое профилирование больших данных

Автор Анна Вичуговав категории Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, ETL, DWH, нефтянка, нефтегазовая промышленность, Spark

Мы уже затрагивали тему корпоративных хранилищ данных (КХД), управления мастер-данными и нормативно-справочной информаций (НСИ) в контексте технологий Big Data. В продолжение этого, сегодня рассмотрим, что такое профилирование данных, зачем это нужно, при чем тут озера данных (Data Lake) и ETL-процессы, а также прочие аспекты инженерии и аналитики больших данных. Что...

29Июн
2020

Потоковая платформа для интеграции Big Data и не только: 7 плюсов Apache Kafka

Автор Анна Вичуговав категории Kafka, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Kafka, DevOps

Продолжая разговор про интеграцию информационных систем с помощью стриминговой платформы, сегодня мы рассмотрим преимущества event streaming архитектуры на примере Apache Kafka. Также читайте в нашей статье про 5 ключевых сценариев использования Кафка в потоковой обработке событий: от IoT/IIoT до микросервисного разделения в системах аналитики больших данных (Big Data) и машинного...

26Июн
2020

От беспорядочных связей к микросервисной консистентности: архитектурная история Big Data систем на примере Apache Kafka

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, Agile, DevOps, DWH, Data Lake

В этой статье поговорим про интеграцию информационных систем: обсудим SOA и ESB-подходы, рассмотрим стриминговую архитектуру и возможности Apache Kafka для организации быстрого и эффективного обмена данными между различными бизнес-приложениями. Также обсудим, что влияет на архитектуру интеграции корпоративных систем и распределенных Big Data приложений, что такое спагетти-структура и почему много сервисов...

25Июн
2020

Роль Python в мире Big Data: 5 причин освоить этот язык программирования

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Python, Big Data, Большие данные, обработка данных, администрирование, Kafka, Hadoop, Spark

Сегодня мы расскажем, почему каждый Big Data специалист должен знать этот язык программирования и как «Школа Больших Данных» поможет вам освоить его на профессиональном уровне. Читайте в нашей статье, кому и зачем нужны корпоративные курсы по Python в области Big Data, Machine Learning и других методов Data Science. Чем хорош...

24Июн
2020

5 причин разделения кластеров Apache Kafka по DevOps

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL, Agile, DevOps

В продолжение темы про проявление Agile-принципов в Big Data системах, сегодня мы рассмотрим, как DevOps-подход отражается в использовании Apache Kafka. Читайте в нашей статье про кластерную архитектуру коннекторов Кафка и KSQL – SQL-движка на основе API клиентской библиотеки Kafka Streams для аналитики больших данных, о которой мы рассказывали здесь. Из...

22Июн
2020

Быстро, непрерывно, вместе: 3 принципа Agile в KSQL и Apache Kafka Connect

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL, Agile

Мы уже рассказывали, как некоторые принципы Agile отражаются в Big Data системах. Сегодня рассмотрим это подробнее на примере коннекторов Кафка и KSQL – SQL-движка для Apache Kafka. Он который базируется на API клиентской библиотеки для разработки распределенных приложений с потоковыми данными Kafka Streams и позволяет обрабатывать данные в режиме реального...

19Июн
2020

Эластичные облака: краткий обзор SaaS/PaaS-решений для Elasticsearch

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

Elastic Cloud Enterprise, Big Data, Большие данные, архитектура, NoSQL, SQL, Elasticsearch, облака,

Сегодня рассмотрим облачные сервисы и платформы ELK-стека, которые позволяют использовать все функциональные преимущества Elasticsearch с Kibana без развертывания собcтвенной ИТ-инфраструктуры (on-demand), интегрируя их с другими облачными приложениями. Читайте в нашей статье, что такое Elastic Cloud Enterprise и чем это отличается от Amazon Elasticsearch Service, Open Distro и других cloud-решений. Такие...

17Июн
2020

Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, Hadoop, Spark, банк, Hive

В этой статье поговорим про интеграцию ELK-стека с экосистемой Apache Hadoop: зачем это нужно и с помощью каких средств можно организовать обмен данными между HDFS и Elasticsearch, а также при чем здесь Apache Spark, Hive и Storm. Еще рассмотрим несколько практических примеров, где реализована такая интеграция Big Data систем для...

16Июн
2020

ТОП-10 ошибок интеграции Elasticsearch и Кафка при использовании Kafka Connect

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, Elasticsearch, SQL

Продолжая разговор про интеграцию Elasticsearch с Кафка, сегодня мы рассмотрим, с какими ошибками можно столкнуться при практическом использовании Apache Kafka Connect. Также рассмотрим, как Kafka Connect поддерживает обработку ошибок и какие параметры нужно настроить для непрерывной передачи данных или ее остановки в случае сбоя. 2 варианта обработки ошибок в Kafka...

15Июн
2020

Зачем вам Kafka Connect: разбираем на примере интеграции Elasticsearch с Кафка

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Kafka, Elasticsearch, SQL, NoSQL

Сегодня поговорим, как связать Elasticsearch с Apache Kafka: рассмотрим, зачем нужны коннекторы, когда их следует использовать и какие особенности популярных в Big Data форматов JSON и AVRO стоит при этом учитывать. Также читайте в нашей статье, что такое Logstash Shipper, чем он отличается от FileBeat и при чем тут Kafka...

13Июн
2020

Аналитика больших данных в Elasticsearch: возможности Machine Learning в ELK Stack

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, Elasticsearch, Machine Learning, машинное обучение, Data Lake, NoSQL, предиктивная аналитика

В этой статье рассмотрим несколько примеров по аналитике больших данных в Elasticsearch (ES), а также разберем возможности алгоритмов машинного обучения в ELK Stack. Читайте, как использовать NoSQL-СУБД ES в качестве озера данных для проверки различных бизнес-гипотез с помощью Machine Learning, показывая результаты моделирования в интерфейсе Kibana: практическая аналитика Big Data....

11Июн
2020

Как сделать Elasticsearch безопасным: защищаем Big Data от утечек

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, Elasticsearch, security, утечки данных, защита информации, безопасность, администрирование, Docker, Kubernetes

Вчера мы рассказывали про самые известные утечки Big Data с открытых серверов Elasticsearch (ES). Сегодня рассмотрим, как предупредить подобные инциденты и надежно защитить свои большие данные. Читайте в нашей статье про основные security-функции ELK-стека: какую безопасность они обеспечивают и в чем здесь подвох. Несколько cybersecurity-решений для ES под разными лицензиями...

10Июн
2020

Такой эластичный, что вся Big Data утекает: 9 крупных инцидентов cybersecurity с Elasticsearch за последние 3 года

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, Elasticsearch, security, утечки данных, защита информации, персональные данные, безопасность

Продолжая разговор про Elastic Stack, сегодня мы рассмотрим проблемы cybersecurity в Elasticsearch: разберем самые известные утечки данных за последнюю пару лет и поговорим, кто и как обнаруживает подобные инциденты. Читайте в нашей статье, какие средства используют «белые хакеры» для поиска уязвимостей в Big Data системах и что общего между Росгвардией...

09Июн
2020

5 ключевых достоинств и 3 главных недостатка ELK-стека: разбираемся с Elasticsearch, Logstash и Kibana на реальных Big Data кейсах

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, NoSQL, ClickHouse, Elasticsearch, ELK Stack

Сегодня рассмотрим основные преимущества и недостатки ELK-стека. Читайте в этой статье, чем хороши Elasticsearch с Logsatsh и Kibana, а также каковы их основные недостатки и ограничения для использования в реальных Big Data проектах. Также мы собрали для вас несколько практических примеров, где и как используется Elasticsearch в интернет-магазинах, банках и...

08Июн
2020

3 товарища в поиске и аналитике Big Data: Elasticsearch, Logstash и Kibana

Автор Анна Вичуговав категории Use Cases, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, администрирование

В этой статье рассмотрим ELK-инфраструктуру: разберем, зачем поисковый движок Elasticsearch использует сборщик логов Logstash и при чем здесь визуальный интерфейс Kibana. Также поговорим, в каких Big Data проектах используются эти системы и для чего. Зачем вам Elasticsearch: полнотекстовый поиск по Big Data Чтобы определить, почему деньги пропали с банковского счета или...

06Июн
2020

Что не так с ClickHouse: 10 главных недостатков

Автор Анна Вичуговав категории ClickHouse, Блог, Статьи

Big Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse

Вчера мы разобрали, чем хорош ClickHouse и почему. Сегодня рассмотрим обратную сторону скорости, расширяемости и других преимуществ этой аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Также читайте в нашей статье, как обойти недостатки и ограничения этой системы или понизить степень их влияния на...

05Июн
2020

За что все его так любят: ТОП-5 достоинств ClickHouse для Big Data

Автор Анна Вичуговав категории ClickHouse, Use Cases, Блог, Статьи

g Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH, Kafka, Zookeeper, Hive, Hadoop

Сегодня рассмотрим основные преимущества ClickHouse – аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Читайте в нашей статье, чем еще хорош Кликхаус, кроме высокой скорости, и почему эту систему так любят аналитики, разработчики и администраторы Big Data. Чем хорош ClickHouse: главные преимущества Напомним, основным...

03Июн
2020

Не только Kafka Engine: 4 альтернативы для интеграции ClickHouse и кейс Ситимобил

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Kafka, ClickHouse, DWH

Интеграционный движок Kafka Engine для потоковой загрузки данных в ClickHouse из топиков Кафка – наиболее популярный инструмент для связи этих Big Data систем. Однако, он не единственное средство интеграции Кликхаус с Apache Kafka. Сегодня рассмотрим, как еще можно организовать потоковую передачу больших данных от самого популярного брокера сообщений в колоночную...