Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

10Апр
2020

Что такое лямбда-архитектура: основы Big Data для начинающих

Автор Анна Вичуговав категории Internet of Things, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, Spark, Hadoop, машинное обучение, интернет вещей, Internet of Things, IoT, IIoT, Machine Learning, лямбда-архитектура

Рассматривая основы больших данных, сегодня мы расскажем лямбда-архитектуру, одну из двух главных подходов к построению Big Data систем. Читайте в нашей статье, зачем нужна эта концепция и как она работает, а также при чем тут машинное обучение, интернет вещей, Apache Spark и Hadoop. Что такое Лямбда-архитектура и зачем она нужна...

10Мар
2020

7 достоинств и 5 недостатков Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, AirFlow, ETL, Spark, Hive, Hadoop

Продолжая говорить про обучение Airflow, сегодня мы рассмотрим ключевые преимущества и основные проблемы этой библиотеки для автоматизации часто повторяющихся batch-задач обработки больших данных (Big Data). Также мы собрали для вас пару полезных советов, как обойти некоторые ограничения Airflow на примере кейсов из Mail.ru, IVI и АльфаСтрахования. Чем хорош Apache AirFlow:...

09Мар
2020

ETL для пакетов Big Data: 3 примера использования Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, бизнес, ритейл, обработка данных, NiFi, AirFlow, ETL, Hadoop, Spark, Hive, AirFlow

В этой статье мы поговорим про Apache AirFlow - эффективный инструмент для пакетных ETL-задач при работе с большими данными (Big Data): что это такое, как работает и чем полезен для инженера данных (Data Engineer). Также рассмотрим несколько практических примеров реального использования этой библиотеки для разработки, планирования и мониторинга batch-процессов. Что...

06Мар
2020

Облачный конвейер аналитики Big Data: что такое Data Fabric

Автор Анна Вичуговав категории Блог, Цифровая трансформация

фабрика данных, Data Fabric, Big Data, Большие данные, предиктивная аналитика, цифровизация, цифровая трансформация, Hadoop, Spark, Kafka

Сегодня мы рассмотрим, что такое Data Fabric, почему этот тренд в аналитике больших данных (Big Data) считается одним из самых перспективных в 2020 году, зачем нужна фабрика данных и как она устроена. Читайте в нашей статье, чем Data Fabric отличается от Data Factory, причем тут цифровизация, DataOps и конвейеры по...

03Мар
2020

Как выбрать курсы по Spark: 4 ключевых аспекта, на что обратить внимание

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Spark, обучение Apache Spark, Big Data, Большие данные, архитектура, Hadoop, Spark, SQL, администрирование, Kafka

Выбирая курсы по Spark, Hadoop, Kafka и другим технологиям больших данных, легко запутаться во многочисленных предложениях от различных учебных центров и платформах онлайн-обучения. Сегодня мы расскажем, что должна включать программа курса по Big Data, чтобы результат обучения оправдал ваши ожидания и даже превзошел их. 4 главных свойства эффективного курса по...

02Мар
2020

От администрирования до разработки Big Data систем: 7 главных проблем Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, Hadoop, Spark, SQL, администрирование

Обычно курсы по Spark подробно рассказывают, чем хорош этот Big Data фреймворк для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных. Но, чтобы обучение Apache Spark было максимально полезным, стоит знать и о недостатках этого многофункционального инструмента обработки больших данных. Сегодня мы рассмотрим некоторые проблемы, которые возникают при практическом...

26Фев
2020

Хайп вокруг Big Data с Machine Learning: прогнозы Gartner и российские реалии

Автор Анна Вичуговав категории Internet of Things, Machine Learning, Блог, Статьи

Big Data, Большие данные, предиктивная аналитика, машинное обучение, Machine Learning, искусственный интеллект, Spark, Hadoop, Kafka, SQL

Сегодня мы поговорим, что такое Hype Cycle от самого известного аналитического агентства Gartner и как будут развиваться наиболее популярные сегодня ИТ-тренды в области больших данных (Big Data), управления данными (Data Management), машинного обучения (Machine Learning) и искусственного интеллекта (Artificial Intelligence). Что такое цикл зрелости технологий – Hype Cycle от Gartner...

25Фев
2020

Как работает Apache Zookeeper: 5 проблем самой популярной службы синхронизации для распределенных Big Data систем

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Apache Zookeeper, Зукипер, Big Data, Большие данные, архитектура, Hadoop, HBase, Kafka, администрирование

Однажды мы уже рассматривали, зачем Apache Kafka, Hadoop, HBase и другие Big Data системы используют Zookeeper, почему он необходим в распределенных проектах и чем можно заменить его заменить. Сегодня поговорим о том, как работает этот популярный централизованный сервис для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления...

15Фев
2020

Как Apache Kafka используется в реальном производстве: пример Северстали

Автор Анна Вичуговав категории Kafka, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, Kafka, архитектура, Docker, Kubernetes, Hadoop, цифровизация, цифровая трансформация, IIoT, IoT, интернет вещей, промышленность

Рассматривать обучение Кафка интереснее на практических примерах. Сегодня мы расскажем, как Apache Kafka применяется в одной из крупнейших промышленных компаний России - ПАО «Северсталь». Эта статья написана на основе выступления Доната Фетисова, главного архитектора «Северсталь Диджитал». Доклад был представлен 7 декабря 2019 года на очередном ИТ-митапе компании Авито по Big...

14Фев
2020

Корпоративное обучение Big Data vs индивидуальные курсы: 4 ключевых отличия

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

обучение Big Data, курсы по большим данным, тренинги большие данные для руководителей

Сегодня рассмотрим, чем корпоративное обучение большим данным (Big Data) отличается от индивидуального. Читайте в нашей статье, почему образовательные курсы по Apache Kafka, Hadoop, Spark и другим технологиям Big Data сплотят ваших сотрудников лучше любого тимбилдинга и как повысить эффективность такого обучающего тренинга. Почему корпоративное обучение Big Data эффективнее индивидуальных курсов:...