Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

03Авг
2023

ETL для PostgreSQL с Apache AirFlow в Google Colab

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow PostreSQL , DAG Apache AirFlow PostreSQL Colab пример, Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня реализуем простой ETL-конвейер для реляционной СУБД PostgreSQL, запустив Apache AirFlow в интерактивной среде Google Colab. Пример DAG из 3-х задач: получить количество строк в одной из таблиц БД, сгенерировать новые строки и записать их, не нарушив ограничений уникальности первичного ключа. Постановка задачи Возьмем в качестве примера базу данных для...

02Авг
2023

Изменение таблиц в Greenplum 7 без их перезаписи

Автор Анна Вичуговав категории Greenplum, Блог

изменение таблиц Greenplum 7, Greenplum курсы, обучение Greenplum, обучение Arenadata DB курсы, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, курсы NoSQL, обучение NoSQL, Школа Больших Данных Учебный центр Коммерсант

Какие команды изменения таблиц добавлены в 7-ю версию Greenplum и чем они полезны дата-инженеру. Разбираемся с новыми функциями: как добавить столбец, изменить его тип, кодировку хранения и перезаписать несколько таблиц одной командой. Добавление столбца О новых функциях работы с партиционированаными таблицами в Greenplum 7 мы уже писали. В частности, Greenplum...

01Авг
2023

Алиасы столбцов и параметризованные SQL-запросы в Apache Spark 3.4

Автор Анна Вичуговав категории Spark, Блог

Apache Spark 3.4 SQL примеры, алиасы столбцов и параметры SQL-запросов в Apache Spark, Apache Spark простые примеры SQL-запросов, PySpark примеры курсы обучение, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Чем полезны новые фичи Apache Spark SQL, выпущенные в релизе 3.4. Разбираемся с псевдонимами столбцов и параметризованными SQL-запросами на простых примерах, запуская Spark-приложение в Google Colab. Псевдонимы столбцов Хотя с момента выхода Apache Spark 3.4 в апреле 2023 года, о чем мы писали здесь, прошло почти полгода, возможность ссылаться на...

30Июл
2023

3 новых графовых алгоритма в Neo4j: новинки 2023

Автор Анна Вичуговав категории Neo4j, NoSql, Блог

графовые алгоритмы Neo4j , обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, поиск путей и выявление сообществ Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как включить отрицательные веса в поиск пути, выявлять центральные и периферийные кластеры на основе заданной плотности, а также делать выборки из больших графов для масштабирования машинного обучения. Знакомимся с графовыми алгоритмами, недавно добавленными в библиотеку Neo4j Graph Data Science 2.4: декомпозиция K-ядра, алгоритм кратчайшего пути Беллмана-Форда и случайное блуждание с...

29Июл
2023

8 исправленных ошибок в Apache Kafka 3.5.1

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka для разработчиков и администраторов, Apache Kafka 3.5.1 обзор релиза, Apache Kafka примеры курсы обучение, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про уязвимости Apache Kafka, обнаруженные и исправленные в 2023 и 2022 гг. Сегодня рассмотрим, как одна из них устранена в отладочном релизе 3.5.1, опубликованного 21 июля 2023 года. А также познакомимся с другими улучшениями и исправлениями ошибок этого выпуска. Обновления Apache Kafka 3.5.1 Релиз Apache Kafka 3.5.1...

27Июл
2023

4 главных недостатка запуска Apache AirFlow в Colab

Автор Анна Вичуговав категории AirFlow, Блог

DAG Apache AirFlow Colab пример, Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Медленно, муторно, небезопасно: что не так с запуском Apache AirFlow в интерактивной среде Google Colab и можно ли с этим смириться. Разбираем на личном опыте. Трудности работы с Apache AirFlow в среде Google Colab О том, что можно настроить AirFlow в Google Cloud Platform, и запускать DAG-файлы из Colab, используя...

26Июл
2023

Как ускорить выполнение заданий Apache Flink с помощью спекулятивного выполнения

Автор Анна Вичуговав категории Flink, Блог

потоковая обработка данных с Apache Flink, перекосы данных Flink, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink разработка приложений, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Что такое спекулятивное выполнение заданий в Apache Flink, какой планировщик его поддерживает, какие конфигурации нужно настроить для его эффективного использования и зачем при этом переопределять поведение генератора разделений потокового источника данных. Что такое спекулятивное выполнение заданий Apache Flink Распределенная природа Apache Flink приводит к тому, что приложения, созданные с помощью...

25Июл
2023

5 уязвимостей Apache Spark за последние 3 года

Автор Анна Вичуговав категории Spark, Блог

уязвимости безопасность Spark-приложений, обучение Spark, курсы Apache Spark для разработчиков примеры обучение, безопасность spark приложений, проблемы с безопасностью Spark-приложений, Spark app security, обучение большим данным, курсы Big Data для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

От межсайтового скриптинга до внедрения вредоносного кода: какие проблемы информационной безопасности были обнаружены и исправлены в Apache Spark в 2023, 2022 и 2021 годах. Последние известные и исправленные проблемы информационной безопасности Apache Spark Недавно мы писали о механизмах обеспечения информационной безопасности в Apache Spark. Однако, несмотря на наличие этих средств,...

23Июл
2023

Мультимодельные базы данных: мифы и реальность на примере 3-х СУБД

Автор Анна Вичуговав категории NoSql, Блог

архитектура больших данных хранилища базы СУБД, NoSQL мультимодельные базы данных примеры, курсы обучение, архитектура данных, графы примеры курсы обучение, обработка графов и документов в Greenplum и PostgreSQL, обучение Greenplum Arenadata DB курсы, Greenplum для инженеров данных и и разработчиков, хранение и аналитика больших данных с Greenplum, Школа Больших Данных Учебный центр Коммерсант

Как устроены по-настоящему мультимодельные базы данных, чем они отличаются от реляционных и NoSQL-СУБД, а также какова истинная природа универсального подхода к хранению и оперированию данными. Разбираемся на примере ArangoDB, OrientDB и Cosmos DB. Что такое мультимодельная СУБД и зачем она нужна Любая технология предназначена, прежде всего, для решения конкретных проблем,...

22Июл
2023

Что такое GQL и при чем здесь Cypher: новый стандарт языка запросов к графам

Автор Анна Вичуговав категории NoSql, Блог

графы примеры курсы обучение, обработка графовых данных в NoSQL, язык запросов к графам, стандарт SQL для графовых баз данных, NoSQL графы примеры курсы обучение, обучение большим данным курсы, GQL для инженеров данных и и разработчиков, графовые алгоритмы, Школа Больших Данных Учебный центр Коммерсант

Кто и зачем создает аналог SQL для запросов к графовым базам данных, когда выйдет официальная версия стандарт и при чем здесь Cypher из Neo4j. Что такое GQL и кто его разрабатывает В рамках продвижения нашего курса по графовым алгоритмам в бизнес-приложениях мы часто рассказываем про инструменты хранения и анализа графовых...