Что такое AirFlow Kubernetes Operator и как это работает: обзор решений от K8s и Google

Вчера мы рассказали, почему запускать Airflow на Kubernetes – это эффективно и выгодно для всех участников batch-процессов с большими данными (Big Data): разработчиков Data Flow, Data Scientist’ов, аналитиков и инженеров. Сегодня рассмотрим, что такое Airflow Kubernetes Operator и чем он отличается от подобной разработки компании Google. Как работает AirFlow Kubernetes...

Внимание, РОЗЫГРЫШ призов!!!

ДАРИМ ПРИЗЫ ЗА ОТЗЫВЫ в 2020 году! Итоги акции "Напиши отзыв и получи шанс выиграть наушники Sony WH-1000XM3 !" В 2020 году «Школа Больших Данных» проводила для своих слушателей Розыгрыш призов: напиши и опубликуй отзыв по прослушанному курсу в Google или Yandex и участвуй в розыгрыше 5 Bluetooth наушников Sony WH-1000XM3....

AirFlow на Kubernetes: DevOps-подход к автоматизации batch-процессов в Big Data

Чтобы обучение Airflow было максимально приближенным к практике, сегодня мы поговорим про особенности реального внедрения этого фреймворка для разработки, планирования и мониторинга пакетных процессов обработки больших данных (Big Data) с учетом современного DevOps-подхода. Читайте в нашей статье, зачем вообще нужна связка Apache Эйрфлоу с Kubernetes и как это реализовать технически....

7 достоинств и 5 недостатков Apache AirFlow

Продолжая говорить про обучение Airflow, сегодня мы рассмотрим ключевые преимущества и основные проблемы этой библиотеки для автоматизации часто повторяющихся batch-задач обработки больших данных (Big Data). Также мы собрали для вас пару полезных советов, как обойти некоторые ограничения Airflow на примере кейсов из Mail.ru, IVI и АльфаСтрахования. Чем хорош Apache AirFlow:...

ETL для пакетов Big Data: 3 примера использования Apache AirFlow

В этой статье мы поговорим про Apache AirFlow - эффективный инструмент для пакетных ETL-задач при работе с большими данными (Big Data): что это такое, как работает и чем полезен для инженера данных (Data Engineer). Также рассмотрим несколько практических примеров реального использования этой библиотеки для разработки, планирования и мониторинга batch-процессов. Что...

Красивая Big Data и модный Machine Learning: 15 историй из мира fashion

В честь Международного женского дня, 8 марта, мы собрали для вас 15 интересных кейсов о том, как большие данные (Big Data) и машинное обучение (Machine Learning, ML) используются в индустрии моды и красоты. Читайте в нашей сегодняшней статье как Zara, H&M, Burberry и другие fashion-гиганты внедряют умные примерочные, виртуальных стилистов,...

Облачный конвейер аналитики Big Data: что такое Data Fabric

Сегодня мы рассмотрим, что такое Data Fabric, почему этот тренд в аналитике больших данных (Big Data) считается одним из самых перспективных в 2020 году, зачем нужна фабрика данных и как она устроена. Читайте в нашей статье, чем Data Fabric отличается от Data Factory, причем тут цифровизация, DataOps и конвейеры по...

Что такое BABOK и при чем здесь Big Data

Чтобы дополнить курс Аналитика больших данных для руководителей актуальными трендами в области системного и бизнес-анализа анализа, сегодня мы расскажем, что такое BABOK, для чего нужен этот профессиональный стандарт бизнес-аналитика и как его содержание коррелирует с технологиями Big Data. Что такое BABOK и зачем он нужен Начнем с определения: BABOK®Guide – это...

Machine Learning и не только: как устроены чат-боты

Продолжая тему прикладного использования искусственного интеллекта в различных бизнес-кейсах, сегодня мы расскажем о том, как устроены чат-боты, при чем здесь большие данные (Big Data) и машинное обучение (Machine Learning), системы распознавания речи и понимания естественного языка. Какие бывают чат-боты Все многообразие чат-ботов можно разделить на 2 большие категории [1]: работающие...

Как выбрать курсы по Spark: 4 ключевых аспекта, на что обратить внимание

Выбирая курсы по Spark, Hadoop, Kafka и другим технологиям больших данных, легко запутаться во многочисленных предложениях от различных учебных центров и платформах онлайн-обучения. Сегодня мы расскажем, что должна включать программа курса по Big Data, чтобы результат обучения оправдал ваши ожидания и даже превзошел их. 4 главных свойства эффективного курса по...

От администрирования до разработки Big Data систем: 7 главных проблем Apache Spark

Обычно курсы по Spark подробно рассказывают, чем хорош этот Big Data фреймворк для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных. Но, чтобы обучение Apache Spark было максимально полезным, стоит знать и о недостатках этого многофункционального инструмента обработки больших данных. Сегодня мы рассмотрим некоторые проблемы, которые возникают при практическом...

От телекомов до медицины: 10 примеров использования чат-ботов в бизнесе

Вчера мы рассказывали о рынке чат-ботов, голосовых помощников и виртуальных ассистентов на базе больших данных (Big Data) и машинного обучения (Machine Learning) . Напомним, на 2020 год они признаны аналитическим бюро Gartner одной из самых перспективных и наиболее эффективных технологий искусственного интеллекта. Сегодня поговорим о том, где именно они используются...

Как Big Data и Machine Learning разговаривают с вами: чат-боты в России и за рубежом

В этой статье мы представим для вас краткий обзор рынка чат-ботов и голосовых помощников. А также расскажем, где используются эти решения на базе технологий больших данных (Big Data) и машинного обучения (Machine Learning) и чего ждать от них в будущем. Чат-боты в России и за рубежом: обзор рынка Прежде всего,...

Хайп вокруг Big Data с Machine Learning: прогнозы Gartner и российские реалии

Сегодня мы поговорим, что такое Hype Cycle от самого известного аналитического агентства Gartner и как будут развиваться наиболее популярные сегодня ИТ-тренды в области больших данных (Big Data), управления данными (Data Management), машинного обучения (Machine Learning) и искусственного интеллекта (Artificial Intelligence). Что такое цикл зрелости технологий – Hype Cycle от Gartner...

Как работает Apache Zookeeper: 5 проблем самой популярной службы синхронизации для распределенных Big Data систем

Однажды мы уже рассматривали, зачем Apache Kafka, Hadoop, HBase и другие Big Data системы используют Zookeeper, почему он необходим в распределенных проектах и чем можно заменить его заменить. Сегодня поговорим о том, как работает этот популярный централизованный сервис для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления...

3 причины, почему искусственный интеллект не примет за вас решение – по крайней мере, пока

В продолжение темы, от чего большие данные, машинное обучение и другие методы искусственного интеллекта смогут защитить человечество, сегодня мы поговорим, почему эти технологии не заменят человека везде и полностью. В этой статье мы собрали доводы против абсолютной автоматизации принятия управленческих решений с помощью Big Data и Machine Learning. Когда Big...

5 угроз, от которых искусственный интеллект защитит человечество, провоцируя множество новых

К 23 февраля мы собрали для вас 5 кейсов, где выступать в роли защитника будет искусственный интеллект. Смертельные болезни, внешние угрозы, преступники, экологические проблемы и чрезмерные траты ресурсов – читайте в нашей сегодняшней статье, как цифровизация на базе больших данных (Big Data) и машинного обучения (Machine Learning, ML) защитит нас...

Аналитика больших данных и Machine Learning в образовании: 5 кейсов из ВУЗов

Чтобы повысить мотивацию студентов к обучению, преподаватели активно применяют различные подходы к организации образовательного процесса, в т.ч. используемые в HR. Сегодня мы покажем, как, по аналогии с управлением человеческими ресурсами, аналитика больших данных (Big Data) и методы машинного обучения (Machine Learning) помогают увеличить вовлеченность учеников и улучшить качество образования. От...

Аналитика больших данных и машинное обучение в HR: 5 примеров инсайтов на Big Data

Вчера мы рассматривали, как аналитика больших данных (Big Data) и машинного обучения (Machine Learning) помогают снизить текучесть кадров и предупредить увольнение ключевых сотрудников. Сегодня поговорим о том, как эти технологии позволяют выявить главные компетенции успешного сотрудника, обнаружить неявную зависимость прибыли компании от вовлеченности персонала, а также получить другие полезные HR-инсайты....

Как снизить текучку кадров с помощью Big Data и Machine Learning: реальный опыт 5 крупных компаний

Продолжая разговор про цифровизацию HR-процессов, сегодня мы рассмотрим, как технологии больших данных (Big Data) и машинного обучения (Machine Learning) помогают сократить текучку кадров и удержать ключевых работников. Читайте в нашей новой статье 5 успешных примеров применения аналитики Big Data в HR для принятия эффективных управленческих решений. Big Data и Machine...