Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

23Янв
2022

Автоматическая диагностика и исправление сбоев в платформе данных Netflix c Apache Spark, Kafka, Flink и другими технологиями Big Data

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

обучение дата-инженеров, инженерия данных курсы, инженер Big Data, курсы Flink Kafka Spark, обучение большим данным примеры кейсы курсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров еще более интересными, сегодня рассмотрим практический пример построения инфраструктуры для автоматической диагностики и исправления ошибок пакетной и потоковой обработки данных в Netflix. Комплексная система на базе Apache Spark, Kafka, Flink, Druid, сервисов AWS и других технологий Big Data. Предыстория: зачем Netflix разработал Pensive Обработка...

21Янв
2022

Доступ к пользовательским JAR из Spark-заданий на AWS EMR

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для дата-инженеров примеры курсы обучение, Apache Spark Livy AWS EMR, обучение Spark курсы, примеры Spark AWS S3, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения разработчиков распределенных Spark-приложений, сегодня рассмотрим, как добавить функции из пользовательских JAR-файлов в кластер AWS EMR. Достоинства и недостатки действия начальной загрузки EMR с переопределением конфигурации Spark, а также расширенное управление зависимостями через spark-submit. Трудности обращения к пользовательским JAR в Amazon EMR с Apache Spark и Livy На...

13Янв
2022

Spark NLP 3.4.0: новый релиз ML-библиотеки для Apache Spark 3.2.x на Scala 2.12

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для дата-аналитиков и сайнтистов примеры курсы обучение, Spark NLP курсы примеры обучение Data Science, обучение Spark курсы, примеры Spark NLP, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

2022 год только начался, а John Snow Labs уже радует разработчиков ML-приложений новым релизом библиотеки Spark NLP. Ключевые фичи 3.4.0 для версии Apache Spark 3.2.x на Scala 2.12: новые GPT-2 трансформеры, аннотаторы для ALBERT, XLNet, RoBERTa, XLM-RoBERTa и Longformer, расширенный хаб готовых Machine Learning моделей и конвейеров, а также исправление...

09Янв
2022

Apache Spark и AWS S3: лучшие практики и опыт Pinterest

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для дата-инженеров примеры курсы обучение, AggregateByKey() in Apache Spark, обучение Spark курсы, примеры Spark AWS S3, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений и дата-инженеров рассмотрим особенности взаимодействия с облачным объектным хранилищем больших данных AWS S3. Как повысить эффективность и ускорить выполнения Spark-заданий на чтение данных из S3: рекомендации Pinterest. Пара советов по работе Apache Spark с AWS S3 Прежде чем перейти к опыту дата-инженеров фотохостинга Pinterest,...

06Янв
2022

Обработка вложенных структур в JSON-файлах для Hive Metastore c Apache Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop курсы примеры обучение, Hive Metastore JSON Spark, Apache Hive Spark, обучение Spark Hive курсы, обучение Spark SQL, примеры Spark Hive для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Чем хороши JSON-файлы и как с ними работать в Apache Spark и Hive: проблемы обработки вложенных структур данных и способы их решения на практических примерах. Как автоматизировать переименование некорректных названий полей во вложенных структурах данных JSON-файлов на любом количестве таблиц со множеством полей, чтобы создать таблицу в Hive Metastore и...

03Янв
2022

Как работает AggregateByKey() в Apache Spark: краткий ликбез и пара примеров

Автор Анна Вичуговав категории Spark, Блог

агрегатные функции в Apache Spark, AggregateByKey() in Apache Sparkб обучение Spark курсы, обучение Spark SQL, примеры Spark Для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-аналитиков и разработчиков Spark-приложений, сегодня рассмотрим одну из агрегатных функций обработки данных в этом распределенном вычислительном фреймворке. Чем aggregateByKey() отличается от reduceByKey() и groupByKey(), и когда стоит ее использовать. Как устроена функция aggregateByKey(): назначение и синтаксис Функция aggregateByKey() - одна из агрегатных функций, наряду с reduceByKey() и...

31Дек
2021

Размер имеет значение: Spark и Phoenix для больших запросов в Apache HBase

Автор Анна Вичуговав категории Spark, Блог

HBase курсы примеры обучение, обучение Hadoop, курсы SQL-on-Hadoop, обучение разработчиков Hadoop HBase примеры, Spark Phoenix Hadoop HBase курсы примеры обучение, обучение дата-инженеров и разработчиков Hadoop HBase, Школа Больших Данных Учебный Центр Коммерсант

Добавляя новые интересные примеры в наши курсы для дата-аналитиков, разработчиков распределенных приложений и администраторов SQL-on-Hadoop, сегодня рассмотрим опыт видеоаналитики в компании Vimeo с использованием Apache Spark. Как быстро запросить множество данных из Apache HDFS через Phoenix и Spark из моментальных снимков HBase с минимальным влиянием на кластер. Аналитика очень больших...

30Дек
2021

Как сократить стоимость и время обработки данных в Spark-приложений: кейс AppsFlyer

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, курсы Apache Spark, Apache Spark для разработчиков и дата-инженеров, администрирование Apache Spark, обучение большим данным, локальность данных в Apache Spark, Apache Spark data locality, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим кейс международной ИТ-компании AppsFlyer, которая создает SaaS-решения для маркетинговой аналитики в режиме онлайн. В этой статье команда разработки аналитического продукта Data Locker делится опытом оптимизации ETL-приложений Apache Spark для снижения стоимости обработки данных и ускорения вычислений. Предыстория: слишком много файлов в ETL-решении на Spark и AWS S3 в...

24Дек
2021

Знай свое место: локальность данных в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

В рамках обучения разработчиков Spark-приложений и дата-инженеров, сегодня рассмотрим, что такое локальность данных и как это влияет на производительность заданий. А также разберем, где в UI Apache Spark посмотреть нахождение данных для распределенных вычислений и какие параметры конфигурации следует настроить, чтобы повысить скорость их выполнения. Что такое локальность данных в...

18Дек
2021

Дыра в Apache Log4j: опасность для Hadoop, Spark, Kafka, Neo4j и других технологий Big Data

Автор Анна Вичуговав категории Flink, Greenplum, Hive, Kafka, Neo4j, Spark, Блог

уязвимость Apache Log4j, безопасность Big Data, уязвимость Log4Shell Hadoop Spark Kafka и Neo4j, обучение большим данным, cybersecurity Big Data, Школа Больших Данных Учебный Центр Коммерсант

В начале декабря 2021 года мир ИТ взволновала новость о критической уязвимости CVE-2021-44228 в библиотеке Apache Log4j. Разбираемся, что это такое и чем опасно для систем хранения и аналитики больших данных на Apache Hadoop, Kafka, Spark, Elasticsearch и Neo4j. Критическая уязвимость в библиотеке Apache Log4j: чем опасна CVE-2021-44228 9 декабря...

16Дек
2021

Насыпать соль на рану: решаем проблему перекоса данных в Apache Spark с помощью криптографии

Автор Анна Вичуговав категории Spark, Блог

обучение Apache Spark, курсы Apache Spark Для разработчиков, анализа данных с Apache Spark, аналитика больших данных курсы, партиционирование в Apache Spark, проблема перекосов в Apache Spark, обучение большим данным для разработчиков и аналитиков примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков Spark-приложений рассмотрим, как избежать искаженных данных с помощью простого и давно известного в криптографии приема, который принято называть «соль». Почему неравномерное распределение данных может вызвать ошибку нехватки памяти и как сбалансировать распределение ключей, добавив столбец со случайными числами. Перекосы и перемешивания Искажение или неравномерное распределение...

13Дек
2021

Фильтр Блума в Apache Spark для Parquet-файлов

Автор Анна Вичуговав категории Spark, Блог

курсы Apache Spark, обучение разработчиков Apache Spark, анализ данных с Apache Spark, обучение большим данным, курсы Big Data для разработчиков, Parquet Spark, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое фильтр Блума и как эта структура данных используется в Apache Spark для чтения Parquet-файлов. Про хеширование, UUID, достоинства и недостатки Bloom-фильтра для бинарного колоночного формата хранения больших данных в распределенных системах. Что такое фильтр Блума Фильтр Блума активно используется во многих информационных системах для быстрого поиска...

06Дек
2021

Найти и обезвредить Spill в Spark-приложениях: причины и решения

Автор Анна Вичуговав категории Spark, Блог

обучение Spark, курсы Apache Spark Для разработчиков примеры обучение, spill in spark apps, проблемы с производительностью Spark-приложений, обучение большим данным, курсы Big Data для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для разработчиков распределенных приложений разберем проблему с производительностью Apache Spark из-за неоптимальной стратегии переброса данных между оперативной и постоянной памятью. Что такое spill-эффект, почему он случается, как его идентифицировать и устранить. Что такое spill и почему он случается: под капотом Spark-приложений При том, что spill можно рассматривать...

01Дек
2021

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Hadoop, курсы Apache Hadoop, обучение Hive Hadoop, курсы Apache Hive Hadoop SQL, Hadoop Hive Spark администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS S3 с помощью заданий Hive и Spark. А также заглянем внутрь конфигурационных xml-файлов Hadoop и Hive. Еще раз о разнице...

29Ноя
2021

Все сложно: Morpheus, Cypher и Apache Spark GraphX

Автор Анна Вичуговав категории Spark, Блог

курсы Спарк, обучение разработчиков Спарк, анализ данных с Apache Spark, Spark курсы примеры обучение, Cypher Neo4j Spark, графовая аналитика больших данных в Spark Cypher, Школа Больших Данных Учебный Центр Коммерсант

В рамках нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, как язык запросов Cypher должен был появиться в Apache Spark 3.0, зачем это нужно и почему до сих пор не реализовано. Краткая история проекта Morpheus, его связь с Neo4j, а также модулями Spark GraphX и GraphFrames. Что такое Morpheus...

23Ноя
2021

Интеграция Neo4j с Apache Spark: обзор коннектора 4.1

Автор Анна Вичуговав категории Neo4j, Spark, Блог

Neo4j Apache Spark интеграция коннектор примеры обучение курсы, обучение графовые алгоритмы Neo4j Apache Spark, курсы Neo4j, обучение Apache Spark, курсы Neo4j с Apache Spark GraphFrames GraphX, графовые алгоритмы в бизнес-приложениях курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня заглянем под капот коннектора Neo4j к Apache Spark. Сценарии использования, принципы работы, поддержка потоковой передачи Spark и другие новинки версии 4.1 для построения эффективных аналитических коннекторов с помощью алгоритмов на графах. Как работает коннектор Neo4j к Apache Spark: краткий обзор Осенью...

17Ноя
2021

На заметку разработчику Spark-приложений: 3 ошибки PySpark и тонкости Outer Join

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных примеры курсы обучение, Spark SQL курсы примеры обучение, PySpark курсы примеры обучение, Spark SQL для дата-аналитиков и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-аналитиков и разработчиков распределенных приложений рассмотрим несколько распространенных ошибок, которые можно сделать в PySpark-коде. Когда PySpark-код на DataFrame DSL лучше запросов Spark SQL, как изящно решить проблему длинных строк, почему пользоваться функцией cache() надо осторожно, а также откуда появляются NULL-значения при внешних соединениях потоковых таблиц. Spark...

09Ноя
2021

Apache Spark 3.2.0 и Scala 3.0: что нового?

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчика курсы примеры обучение Scala, обучение Apache Spark, Spark Apache Spark примеры разработки приложений, Spark обработка данных Scala Spark пример, Scala 3 примеры Apache Spark, Apache Spark для разработчика Scala Java курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В начале сентября 2021 года вышел 3-й релиз языка программирования Scala, который разработчики называют полностью переработанным из-за модернизации системы типов и добавления новых функций. Текущая версия Apache Spark 3.2.0, выпущенная месяцем позже, поддерживает Scala 2.13 и 3.0 с ограничением некоторых возможностей. Читайте далее, как разработчикам распределенных Spark-приложений писать задания на...

03Ноя
2021

Проблема вызовов REST API в Apache Spark и способы ее решения

Автор Анна Вичуговав категории Spark, Блог

Библиотека REST Data Source для Apache Spark, обучение Apache Spark, Spark предобработка данных курсы обучение, Spark SQL примеры курсы обучение, анализ данных Apache Spark, Spark обработка данных PySpark пример, PySpark примеры Apache Spark, аналитика больших данных с Apache Spark курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Spark разберем, что не так с вызовами REST API в этом фреймворке, и как решить эту проблему с помощью готовых библиотек или создания собственных UDF-функций на PySpark и не только. Для наглядности рассмотрим практический пример вызова REST API на PySpark с библиотекой Rest Data...

29Окт
2021

4 причины сбоя в системах на Apache Hadoop, Spark и Livy + способы их лечения от дата-инженеров Pinterest

Автор Анна Вичуговав категории Spark, Блог

Сегодня разберем типовые ошибки, которые часто возникают в системах аналитики больших данных на базе Apache Hadoop YARN, Spark и RESTful-интерфейсу Livy, а также каким образом их избежать. В качестве практического примера используем ранее рассмотренный кейс интерактивной аналитики о пользовательском поведении в фотохостинге Pinterest. Интерактивная аналитика больших данных в Pinterest Недавно...