Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

09Янв
2022

Apache Spark и AWS S3: лучшие практики и опыт Pinterest

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для дата-инженеров примеры курсы обучение, AggregateByKey() in Apache Spark, обучение Spark курсы, примеры Spark AWS S3, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений и дата-инженеров рассмотрим особенности взаимодействия с облачным объектным хранилищем больших данных AWS S3. Как повысить эффективность и ускорить выполнения Spark-заданий на чтение данных из S3: рекомендации Pinterest. Пара советов по работе Apache Spark с AWS S3 Прежде чем перейти к опыту дата-инженеров фотохостинга Pinterest,...

06Янв
2022

Обработка вложенных структур в JSON-файлах для Hive Metastore c Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop курсы примеры обучение, Hive Metastore JSON Spark, Apache Hive Spark, обучение Spark Hive курсы, обучение Spark SQL, примеры Spark Hive для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чем хороши JSON-файлы и как с ними работать в Apache Spark и Hive: проблемы обработки вложенных структур данных и способы их решения на практических примерах. Как автоматизировать переименование некорректных названий полей во вложенных структурах данных JSON-файлов на любом количестве таблиц со множеством полей, чтобы создать таблицу в Hive Metastore и...

03Янв
2022

Как работает AggregateByKey() в Apache Spark: краткий ликбез и пара примеров

Автор Анна Вичуговав категории Spark, Блог

агрегатные функции в Apache Spark, AggregateByKey() in Apache Sparkб обучение Spark курсы, обучение Spark SQL, примеры Spark Для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-аналитиков и разработчиков Spark-приложений, сегодня рассмотрим одну из агрегатных функций обработки данных в этом распределенном вычислительном фреймворке. Чем aggregateByKey() отличается от reduceByKey() и groupByKey(), и когда стоит ее использовать. Как устроена функция aggregateByKey(): назначение и синтаксис Функция aggregateByKey() - одна из агрегатных функций, наряду с reduceByKey() и...

31Дек
2021

Размер имеет значение: Spark и Phoenix для больших запросов в Apache HBase

Автор Анна Вичуговав категории Spark, Блог

HBase курсы примеры обучение, обучение Hadoop, курсы SQL-on-Hadoop, обучение разработчиков Hadoop HBase примеры, Spark Phoenix Hadoop HBase курсы примеры обучение, обучение дата-инженеров и разработчиков Hadoop HBase, Школа Больших Данных Учебный Центр Коммерсант

Добавляя новые интересные примеры в наши курсы для дата-аналитиков, разработчиков распределенных приложений и администраторов SQL-on-Hadoop, сегодня рассмотрим опыт видеоаналитики в компании Vimeo с использованием Apache Spark. Как быстро запросить множество данных из Apache HDFS через Phoenix и Spark из моментальных снимков HBase с минимальным влиянием на кластер. Аналитика очень больших...

30Дек
2021

Как сократить стоимость и время обработки данных в Spark-приложений: кейс AppsFlyer

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, курсы Apache Spark, Apache Spark для разработчиков и дата-инженеров, администрирование Apache Spark, обучение большим данным, локальность данных в Apache Spark, Apache Spark data locality, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим кейс международной ИТ-компании AppsFlyer, которая создает SaaS-решения для маркетинговой аналитики в режиме онлайн. В этой статье команда разработки аналитического продукта Data Locker делится опытом оптимизации ETL-приложений Apache Spark для снижения стоимости обработки данных и ускорения вычислений. Предыстория: слишком много файлов в ETL-решении на Spark и AWS S3 в...

24Дек
2021

Знай свое место: локальность данных в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

В рамках обучения разработчиков Spark-приложений и дата-инженеров, сегодня рассмотрим, что такое локальность данных и как это влияет на производительность заданий. А также разберем, где в UI Apache Spark посмотреть нахождение данных для распределенных вычислений и какие параметры конфигурации следует настроить, чтобы повысить скорость их выполнения. Что такое локальность данных в...

18Дек
2021

Дыра в Apache Log4j: опасность для Hadoop, Spark, Kafka, Neo4j и других технологий Big Data

Автор Анна Вичуговав категории Flink, Greenplum, Hive, Kafka, Neo4j, Spark, Блог

уязвимость Apache Log4j, безопасность Big Data, уязвимость Log4Shell Hadoop Spark Kafka и Neo4j, обучение большим данным, cybersecurity Big Data, Школа Больших Данных Учебный Центр Коммерсант

В начале декабря 2021 года мир ИТ взволновала новость о критической уязвимости CVE-2021-44228 в библиотеке Apache Log4j. Разбираемся, что это такое и чем опасно для систем хранения и аналитики больших данных на Apache Hadoop, Kafka, Spark, Elasticsearch и Neo4j. Критическая уязвимость в библиотеке Apache Log4j: чем опасна CVE-2021-44228 9 декабря...

16Дек
2021

Насыпать соль на рану: решаем проблему перекоса данных в Apache Spark с помощью криптографии

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, курсы Apache Spark Для разработчиков, анализа данных с Apache Spark, аналитика больших данных курсы, партиционирование в Apache Spark, проблема перекосов в Apache Spark, обучение большим данным для разработчиков и аналитиков примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений рассмотрим, как избежать искаженных данных с помощью простого и давно известного в криптографии приема, который принято называть «соль». Почему неравномерное распределение данных может вызвать ошибку нехватки памяти и как сбалансировать распределение ключей, добавив столбец со случайными числами. Перекосы и перемешивания Искажение или неравномерное распределение...

13Дек
2021

Фильтр Блума в Apache Spark для Parquet-файлов

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark, обучение разработчиков Apache Spark, анализ данных с Apache Spark, обучение большим данным, курсы Big Data для разработчиков, Parquet Spark, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое фильтр Блума и как эта структура данных используется в Apache Spark для чтения Parquet-файлов. Про хеширование, UUID, достоинства и недостатки Bloom-фильтра для бинарного колоночного формата хранения больших данных в распределенных системах. Что такое фильтр Блума Фильтр Блума активно используется во многих информационных системах для быстрого поиска...

08Дек
2021

Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps курсы обучение примеры, инженерия данных курсы, обучение дата-инженеров, обучение Data Science, курсы Data Science, аналитика больших данных Machine Learning примеры курсы обучение, ML Feature Engineering примеры обучение курсы, обучение аналитик больших данных Data Scientist, курсы аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

В рамках наших курсов для дата-инженеров и специалистов в области Data Science, сегодня рассмотрим, как реализовать один из важнейших этапов машинного обучения – Feature Engineering. Читайте далее, как генерировать признаки для ML-модели с помощью SQL, напрямую обращаясь к источникам данных и хранилищам фич, а также что такое Apache Hivemall и...

06Дек
2021

Найти и обезвредить Spill в Spark-приложениях: причины и решения

Автор Анна Вичуговав категории Spark, Блог

обучение Spark, курсы Apache Spark Для разработчиков примеры обучение, spill in spark apps, проблемы с производительностью Spark-приложений, обучение большим данным, курсы Big Data для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений разберем проблему с производительностью Apache Spark из-за неоптимальной стратегии переброса данных между оперативной и постоянной памятью. Что такое spill-эффект, почему он случается, как его идентифицировать и устранить. Что такое spill и почему он случается: под капотом Spark-приложений При том, что spill можно рассматривать...

29Ноя
2021

Все сложно: Morpheus, Cypher и Apache Spark GraphX

Автор Анна Вичуговав категории Spark, Блог

курсы Спарк, обучение разработчиков Спарк, анализ данных с Apache Spark, Spark курсы примеры обучение, Cypher Neo4j Spark, графовая аналитика больших данных в Spark Cypher, Школа Больших Данных Учебный Центр Коммерсант

В рамках нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, как язык запросов Cypher должен был появиться в Apache Spark 3.0, зачем это нужно и почему до сих пор не реализовано. Краткая история проекта Morpheus, его связь с Neo4j, а также модулями Spark GraphX и GraphFrames. Что такое Morpheus...

27Ноя
2021

Польза умных сенсоров Apache Airflow: Smart Sensor для LRLW-задач

Автор Анна Вичуговав категории AirFlow, Use Cases, Блог

обучение дата-инженеров, AirFlow курсы примеры обучение, Apache AirFlow для инженеров данных, Smart Sensor AirFlow примеры польза. обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как Airbnb развивает Apache AirFlow и на практике используют эту платформу для создания, планирования и мониторинга конвейеров данных. Что такое Smart Sensor и как умные датчики экономят ресурсы на выполнение долгосрочных легковесных задач. Легкие, долгие и ресурсоемкие: проблемы...

23Ноя
2021

Интеграция Neo4j с Apache Spark: обзор коннектора 4.1

Автор Анна Вичуговав категории Neo4j, Spark, Блог

Neo4j Apache Spark интеграция коннектор примеры обучение курсы, обучение графовые алгоритмы Neo4j Apache Spark, курсы Neo4j, обучение Apache Spark, курсы Neo4j с Apache Spark GraphFrames GraphX, графовые алгоритмы в бизнес-приложениях курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня заглянем под капот коннектора Neo4j к Apache Spark. Сценарии использования, принципы работы, поддержка потоковой передачи Spark и другие новинки версии 4.1 для построения эффективных аналитических коннекторов с помощью алгоритмов на графах. Как работает коннектор Neo4j к Apache Spark: краткий обзор Осенью...

22Ноя
2021

ACID-транзакции в Apache Hive: настройка, принципы работы и ограничения

Автор Анна Вичуговав категории Hive, Блог

ACID Compaction Apache Hive, транзакции Apache Hive, Apache Hive примеры курсы обучение, SQL on Hadoop Hive, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения аналитиков данных и дата-инженеров тонкостям работы с Apache Hive, сегодня разберем особенности ACID-транзакций в этом популярном инструменте класса SQL-on-Hadoop. Зачем и когда нужны ACID-транзакции в Apache Hive, какие параметры нужно настроить для их выполнения, при чем здесь блокировки, каковы ограничения и особенности уплотнения дельта-каталогов. Еще раз про...

18Ноя
2021

AVRO и JSON В Apache Kafka: краткий ликбез по реестру схем

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka примеры обучение, Kafka AVRO, apache avro примеры обучение курсы, обучение большим данных, курсы по kafka, Школа Больших Данных Учебный центр Коммерсант

Apache AVRO не случайно считается очень востребованным форматом и популярной системой сериализации данных, который активно в Kafka. Сегодня рассмотрим, как сериализуются данные в AVRO, каким образом это связано со структурами JSON и при чем здесь реестр схем Confluent. Еще раз про AVRO и сериализацию данных Apache Kafka часто используется в...

17Ноя
2021

На заметку разработчику Spark-приложений: 3 ошибки PySpark и тонкости Outer Join

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных примеры курсы обучение, Spark SQL курсы примеры обучение, PySpark курсы примеры обучение, Spark SQL для дата-аналитиков и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-аналитиков и разработчиков распределенных приложений рассмотрим несколько распространенных ошибок, которые можно сделать в PySpark-коде. Когда PySpark-код на DataFrame DSL лучше запросов Spark SQL, как изящно решить проблему длинных строк, почему пользоваться функцией cache() надо осторожно, а также откуда появляются NULL-значения при внешних соединениях потоковых таблиц. Spark...

09Ноя
2021

Apache Spark 3.2.0 и Scala 3.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчика курсы примеры обучение Scala, обучение Apache Spark, Spark Apache Spark примеры разработки приложений, Spark обработка данных Scala Spark пример, Scala 3 примеры Apache Spark, Apache Spark для разработчика Scala Java курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В начале сентября 2021 года вышел 3-й релиз языка программирования Scala, который разработчики называют полностью переработанным из-за модернизации системы типов и добавления новых функций. Текущая версия Apache Spark 3.2.0, выпущенная месяцем позже, поддерживает Scala 2.13 и 3.0 с ограничением некоторых возможностей. Читайте далее, как разработчикам распределенных Spark-приложений писать задания на...

03Ноя
2021

Проблема вызовов REST API в Apache Spark и способы ее решения

Автор Анна Вичуговав категории Spark, Блог

Библиотека REST Data Source для Apache Spark, обучение Apache Spark, Spark предобработка данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Spark разберем, что не так с вызовами REST API в этом фреймворке, и как решить эту проблему с помощью готовых библиотек или создания собственных UDF-функций на PySpark и не только. Для наглядности рассмотрим практический пример вызова REST API на PySpark с библиотекой Rest Data...

30Окт
2021

Машинное обучение для обогащения графа торгового ассортимента: кейс H&M

Автор Анна Вичуговав категории Use Cases, Блог

обучение Data Science, курсы Data Science, графовая аналитика больших данных, аналитика больших данных примеры курсы обучение, Школа Больших Данных, Apache GraphX GraphFrames примеры обучение курсы, обучение аналитик больших данных, курсы аналитика больших данных

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим работу Data Science исследователей из Пизанского университета и сотрудников крупного ритейлера H&M по анализу данных торгового ассортимента компании с помощью ML-моделей на графах. Читайте далее, как машинное обучение на графовых нейросетях автоматизирует подбор сочетаемых предметов одежды и...