Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

15Июл
2020

Быстрая аналитика больших данных в Data Lake на Apache Kudu с Kafka и Spark

Автор Анна Вичуговав категории Hive, Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive, Kafka, Spark, Kudu

В продолжение темы про совместное использование Apache Kudu с другими технологиями Big Data, сегодня рассмотрим, как эта NoSQL-СУБД работает вместе с Kafka, Spark и Cloudera Impala для построения озера данных (Data Lake) для быстрой аналитики больших данных в режиме реального времени. Также читайте в нашей статье про особенности интеграции Apache...

01Июл
2020

Big Data в профиль: что такое профилирование больших данных

Автор Анна Вичуговав категории Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, ETL, DWH, нефтянка, нефтегазовая промышленность, Spark

Мы уже затрагивали тему корпоративных хранилищ данных (КХД), управления мастер-данными и нормативно-справочной информаций (НСИ) в контексте технологий Big Data. В продолжение этого, сегодня рассмотрим, что такое профилирование данных, зачем это нужно, при чем тут озера данных (Data Lake) и ETL-процессы, а также прочие аспекты инженерии и аналитики больших данных. Что...

25Июн
2020

Роль Python в мире Big Data: 5 причин освоить этот язык программирования

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Python, Big Data, Большие данные, обработка данных, администрирование, Kafka, Hadoop, Spark

Сегодня мы расскажем, почему каждый Big Data специалист должен знать этот язык программирования и как «Школа Больших Данных» поможет вам освоить его на профессиональном уровне. Читайте в нашей статье, кому и зачем нужны корпоративные курсы по Python в области Big Data, Machine Learning и других методов Data Science. Чем хорош...

17Июн
2020

Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, Hadoop, Spark, банк, Hive

В этой статье поговорим про интеграцию ELK-стека с экосистемой Apache Hadoop: зачем это нужно и с помощью каких средств можно организовать обмен данными между HDFS и Elasticsearch, а также при чем здесь Apache Spark, Hive и Storm. Еще рассмотрим несколько практических примеров, где реализована такая интеграция Big Data систем для...

13Май
2020

Big Data, Machine Learning и Internet of Things в складской логистике: 7 FMCG-кейсов

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, ритейл, предиктивная аналитика, интернет вещей, Internet of Things, IoT, IIoT, машинное обучение, Machine Learning, дрон, квадрокоптер, RFID, Kafka, Spark, Hadoop

Вчера мы затрагивали тему управления поставками в ритейле с помощью технологий Big Data и Machine Learning. Теперь разберем подробнее, как большие данные, машинное обучение и интернет вещей меняют складскую логистику и насколько это выгодно бизнесу. Сегодня мы собрали для вас 7 практических примеров: кейсы от отечественных и зарубежных транспортных компаний,...

04Май
2020

Завод, телеком и госсектор: 3 примера внедрения Arenadata

Автор Анна Вичуговав категории Greenplum, Hive, Kafka, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake, цифровизация, цифровая трансформация, Kafka, Spark, NiFi, Airflow, DWH, Аренадата, Arenadata

В этой статье мы продолжим рассказывать про практическое использование отечественных Big Data решений на примере российского дистрибутива Arenadata Hadoop (ADH) и массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB). Сегодня мы приготовили для вас еще 3 интересных кейса применения этих решений в проектах цифровизации бизнеса и государственном...

23Апр
2020

Современное КХД в облаках: гибриды, лямбда, MPP и прочая Big Data

Автор Анна Вичуговав категории Hive, Machine Learning, Spark, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Impala, Spark, Machine Learning, машинное обучение, корпоративное хранилище данных, облачные вычисления, облачное КХД, Data warehouse, DWH

В продолжение темы про корпоративные хранилища данных, сегодня мы рассмотрим облачные варианты Data Warehouse с учетом тренда на расширенную аналитику Big Data на базе машинного обучения. Читайте в нашей статье про синергию классической LSA-архитектуры локального КХД с Лямбда-подходом, MPP-СУБД, а также Apache Hadoop, Spark, Hive и другими технологиями больших данных....

19Апр
2020

Data lineage и provenance: близнецы или двойняшки – Big Data Management для начинающих

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, ETL, Hadoop, Airflow, Spark, Kafka, Data Lineage, Data Provenance, Data Governance, Data Management

В этой статье мы продолжим разговор про основы управления данными и рассмотрим, что такое data provenance и data lineage, чем похожи и чем отличаются эти понятия. Также разберем, почему эти термины особенно важны для Big Data, какие инструменты помогают работать с ними, а также при чем здесь GDPR. Что такое...

15Апр
2020

Когда количество не переходит в качество: почему большие данные требуют обеспечения Data Quality

Автор Анна Вичуговав категории Machine Learning, Блог, Цифровая трансформация

Data Management, Big Data, Большие данные, Spark, Airflow, машинное обучение, Machine Learning, обработка данных, ETL, Data Quality Assurance

Сегодня мы поговорим про качество данных – что это за показатель, в чем он измеряется и почему так важен для машинного обучения и других приложений Big Data. Читайте в нашей статье про процессы и инструменты управления качеством данных, а также профессию Data Quality инженера. Почему большие данные должны быть качественными...

11Апр
2020

Что такое Каппа-архитектура: альтернатива Лямбда для потоков Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Блог

Big Data, Большие данные, Kafka, архитектура, Spark, Hadoop, машинное обучение, Machine Learning, Каппа, Лямбда

Вчера мы рассказали, что такое лямбда-архитектура. Сегодня рассмотрим Каппа - альтернативный подход к проектированию Big Data систем. Читайте в нашей статье, зачем нужна эта концепция, каковы ее достоинства и недостатки, чем Каппа отличается от Лямбда, где это используется на практике и при чем тут Apache Kafka с Machine Learning. Зачем...

10Апр
2020

Что такое лямбда-архитектура: основы Big Data для начинающих

Автор Анна Вичуговав категории Internet of Things, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, Spark, Hadoop, машинное обучение, интернет вещей, Internet of Things, IoT, IIoT, Machine Learning, лямбда-архитектура

Рассматривая основы больших данных, сегодня мы расскажем лямбда-архитектуру, одну из двух главных подходов к построению Big Data систем. Читайте в нашей статье, зачем нужна эта концепция и как она работает, а также при чем тут машинное обучение, интернет вещей, Apache Spark и Hadoop. Что такое Лямбда-архитектура и зачем она нужна...

24Мар
2020

7 принципов Lean в Big Data: бережливое производство больших данных

Автор Анна Вичуговав категории Kafka, Spark, Блог, Цифровая трансформация

Big Data, Большие данные, системный анализ, DevOps, предиктивная аналитика, цифровизация, цифровая трансформация, интернет вещей, Internet of Things, Spark, Kafka, Airflow, Lean, бережливое производство

Не претендуя на лавры Мэри и Тома Поппендиков, которые впервые освятили применение Lean в разработке ПО, сегодня мы расскажем, как идеи бережливого производства реализуются в области Big Data. Читайте в нашей статье про принцип вытягивания в Apache Kafka, концепцию «точно вовремя» в Apache Spark, SMED в Kubernetes и облачных кластерах...

16Мар
2020

Что такое Airflow Executor: 5 исполнителей задач и 2 их основных ограничения

Автор Анна Вичуговав категории AirFlow, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, Kubernetes, Docker, Spark, Kafka

Недавно мы рассказывали про Airflow Kubernetes Executor, который позволяет выполнять задачи DAG-графа Эйрфлоу в среде Kubernetes, развертывая Docker-контейнер на отдельном пользовательском модуле (pod). Сегодня рассмотрим, какие еще есть исполнители задач в Apache Airflow, как они используются при автоматизации batch-процессов обработки больших данных и с какими проблемами можно столкнуться при их...

15Мар
2020

AirFlow KubernetesExecutor: 3 способа запуска и 4 главных плюса для DevOps-инженера

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, DevOps, Kubernetes, Docker, Spark

Эффективное обучение AirFlow, также как курсы по Spark, Hadoop, Kafka и другим технологиям больших данных (Big Data) также включают нюансы интеграции этого фреймворка с другими средами. Например, вчера мы рассматривали преимущества DevOps-подхода к разработке Data Flow на примере взаимосвязи Apache Airflow с Kubernetes посредством специальных операторов. Продолжая эту тему, сегодня...

10Мар
2020

7 достоинств и 5 недостатков Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, ETL, Spark, Hive, Hadoop

Продолжая говорить про обучение Airflow, сегодня мы рассмотрим ключевые преимущества и основные проблемы этой библиотеки для автоматизации часто повторяющихся batch-задач обработки больших данных (Big Data). Также мы собрали для вас пару полезных советов, как обойти некоторые ограничения Airflow на примере кейсов из Mail.ru, IVI и АльфаСтрахования. Чем хорош Apache AirFlow:...

09Мар
2020

ETL для пакетов Big Data: 3 примера использования Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, бизнес, ритейл, обработка данных, NiFi, AirFlow, ETL, Hadoop, Spark, Hive, AirFlow

В этой статье мы поговорим про Apache AirFlow - эффективный инструмент для пакетных ETL-задач при работе с большими данными (Big Data): что это такое, как работает и чем полезен для инженера данных (Data Engineer). Также рассмотрим несколько практических примеров реального использования этой библиотеки для разработки, планирования и мониторинга batch-процессов. Что...

06Мар
2020

Облачный конвейер аналитики Big Data: что такое Data Fabric

Автор Анна Вичуговав категории Блог, Цифровая трансформация

фабрика данных, Data Fabric, Big Data, Большие данные, предиктивная аналитика, цифровизация, цифровая трансформация, Hadoop, Spark, Kafka

Сегодня мы рассмотрим, что такое Data Fabric, почему этот тренд в аналитике больших данных (Big Data) считается одним из самых перспективных в 2020 году, зачем нужна фабрика данных и как она устроена. Читайте в нашей статье, чем Data Fabric отличается от Data Factory, причем тут цифровизация, DataOps и конвейеры по...

03Мар
2020

Как выбрать курсы по Spark: 4 ключевых аспекта, на что обратить внимание

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Spark, обучение Apache Spark, Big Data, Большие данные, архитектура, Hadoop, Spark, SQL, администрирование, Kafka

Выбирая курсы по Spark, Hadoop, Kafka и другим технологиям больших данных, легко запутаться во многочисленных предложениях от различных учебных центров и платформах онлайн-обучения. Сегодня мы расскажем, что должна включать программа курса по Big Data, чтобы результат обучения оправдал ваши ожидания и даже превзошел их. 4 главных свойства эффективного курса по...

02Мар
2020

От администрирования до разработки Big Data систем: 7 главных проблем Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, Hadoop, Spark, SQL, администрирование

Обычно курсы по Spark подробно рассказывают, чем хорош этот Big Data фреймворк для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных. Но, чтобы обучение Apache Spark было максимально полезным, стоит знать и о недостатках этого многофункционального инструмента обработки больших данных. Сегодня мы рассмотрим некоторые проблемы, которые возникают при практическом...

26Фев
2020

Хайп вокруг Big Data с Machine Learning: прогнозы Gartner и российские реалии

Автор Анна Вичуговав категории Internet of Things, Machine Learning, Блог, Статьи

Big Data, Большие данные, предиктивная аналитика, машинное обучение, Machine Learning, искусственный интеллект, Spark, Hadoop, Kafka, SQL

Сегодня мы поговорим, что такое Hype Cycle от самого известного аналитического агентства Gartner и как будут развиваться наиболее популярные сегодня ИТ-тренды в области больших данных (Big Data), управления данными (Data Management), машинного обучения (Machine Learning) и искусственного интеллекта (Artificial Intelligence). Что такое цикл зрелости технологий – Hype Cycle от Gartner...