Публикации с меткой HDFS

23Дек
2025

Урок 5. Наследие Hadoop — интеграция с HDFS и использование AirFlow Сенсоров

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Статьи

Интеграция Apache Airflow с Hadoop HDFS и использование сенсоров

В мире Big Data технологии меняются с бешеной скоростью, но слон (Hadoop) все еще в комнате. Несмотря на популярность облачных S3-хранилищ, распределенная файловая система HDFS остается стандартом де-факто для многих корпоративных хранилищ Data Lake и on-premise кластеров. Даже если вы не пишете MapReduce-задачи на Java, ваш Airflow, скорее всего,...

18Фев
2025

Отказ от Hive-коннектора и другие обновления в Trino 470

Автор Анна Вичуговав категории Trino

Trino курсы примеры обучение, Trino для разработчика, Trino примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о том, как Trino работает с удаленными объектными хранилищами и файловыми системами. Сегодня поговорим о том, какие изменения выпущены в февральском релизе 2025 года, почему в Trino удалена поддержка доступа к Azure Storage, Google Cloud Storage, S3 и S3-совместимым файловым системам через Hive и что использовать вместо...

05Окт
2024

Интеграция приложений Apache Spark с облачными хранилищами

Автор Анна Вичуговав категории Spark

Spark HDFS S3. Spark разработка примеры курсы обучение, Spark для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Чем объектное хранилище данных отличается от классической файловой системы POSIX, как это влияет на разработку Spark-приложений, почему операция переименования снижает производительность облачных вычислений и что поможет ее избежать. Еще раз об отличиях объектных и файловых хранилищ и как это влияет на приложения Spark Будучи компонентом экосистемы Apache Hadoop, фреймворк Spark...

25Сен
2024

Утечка токена делегирования Hadoop в приложении Spark и как ее избежать

Автор Анна Вичуговав категории Spark

Spark Hadoop HDFS безопасность, токены делегирования Hadoop Spark, Обучение Spark Hadoop

24 сентября вышел очередной релиз Apache Spark. Он не содержит новых фичей, но зато в нем есть несколько полезных оптимизаций и исправлений безопасности. Читайте далее о самом главном из них, связанном с утечкой токена делегирования Hadoop. Зачем нужны токены делегирования Hadoop в Spark и как они работают В выпуске Apache...

03Окт
2023

Моментальные снимки распределенной файловой системы Apache Hadoop: тонкости снапшотов HDFS

Автор Анна Вичуговав категории Блог, Статьи

Apache Hadoop HDFS настройка администрирование кластера, снапшоты бэкапы Hadoop HDFS, Hadoop администратор обучение курсы, администрирование кластера Hadoop, Hadoop для инженеров данных, HDFS Apache Hadoop для администратора кластера, курсы Hadoop администратор кластера обучение, Apache Hadoop для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Зачем делать моментальные снимки состояния распределенной файловой системы Apache Hadoop, почему не стоит создавать снапшоты HDFS в корневом каталоге и как найти оптимальную частоту сохранения состояния больших данных. Как устроен механизм снапшотов в HDFS Чтобы повысить надежность системы, ее состояние необходимо периодически сохранять. Для баз данных и файловых систем эта...

30Май
2023

Средства обеспечения безопасности в приложениях Apache Spark

Автор Анна Вичуговав категории Spark, Блог

обучение Spark, курсы Apache Spark для разработчиков примеры обучение, безопасность spark приложений, проблемы с безопасностью Spark-приложений, Spark app security, обучение большим данным, курсы Big Data для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений рассмотрим, какие механизмы обеспечения информационной безопасности поддерживает Apache Spark и как организовать безопасное взаимодействие Spark-приложения с хранилищами данных в экосистеме Hadoop. Безопасная работа Spark-приложений с сервисами Hadoop Многие технологии Big Data изначально оптимизированы для хранения и аналитики больших объемов данных с...

10Апр
2023

Как устроен HFile: тонкости хранения данных в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

HFile, HBase, Hadoop, Big Data курсы примеры обучение, Apache HBase дата-инженер разработка файлы курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое HFile, как появился этот низкоуровневый файловый формат, каковы его главные принципы работы, как Apache HBase использует его для хранения и быстрой аналитики больших данных, и при чем здесь фильтр Блума. Роль HFile в Apache HBase Apache HBase реализует возможности Google BigTable для Hadoop. Эта NoSQL-СУБД типа «семейство колонок»...

26Мар
2023

Apache HBase vs Google BigTable: сходства и различия, варианты использования

Автор Анна Вичуговав категории HBase, NoSql, Блог

обучение Hadoop, курсы Hadoop HBase, обучение дата-инженеров и администраторов Hadoop HBase, HBase vs BigTable сходства и отличия, обучение большим данным примеры кейсы, Школа Больших Данных Учебный Центр Коммерсант

Что общего у Apache HBase с Google Bigtable, чем они отличаются и какую NoSQL-СУБД выбирать для практического использования. Чем похожи NoSQL-хранилища для больших данных Apache HBase часто называют Google BigTable для Hadoop, поскольку она обеспечивает аналогичные возможности и использует многие концепции этой облачной NoSQL-СУБД. В частности, именно Bigtable был выпущен...

16Мар
2023

Apache HBase vs Redis: сходства и различия, варианты использования

Автор Анна Вичуговав категории HBase, NoSql, Блог

архитектура данных, курсы HBase примеры обучение, Apache HBase Hadoop администратор кластера курс, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня на примере Apache HBase и Redis разберемся со сходствами и отличиями NoSQL-СУБД типа «семейство колонок» и «ключ-значение». Что между ними общего и что выбирать для практического использования в зависимости от сценариев применения. 3 типа NoSQL-хранилищ данных Apache HBase и Redis являются довольно популярными базами данных среди NoSQL-решений. Однако, они...

06Мар
2023

Преимущества Apache HBase для метода ближайших соседей

Автор Анна Вичуговав категории HBase, Machine Learning, Блог

метод ближайших соседей машинное обучение, knn machine learning nosql HBase, обучение Data Science примеры курсы обучение, NoSQL HBase Hadoop, SQL-on_Hadoop примеры курсы обучение, HBase HDFS SQL Hadoop примеры курсы обучение, администратор дата-инженер Hadoop Hbase примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Метод ближайших соседей активно используется в машинном обучении для решения задач классификации в различных бизнес-приложениях. Познакомимся поближе с этим алгоритмом Machine Learning, а также разберем, почему NoSQL-хранилище Apache HBase отлично подходит для работы с ним. Что такое метод ближайших соседей: ликбез по Machine Learning В проектах Machine Learning и приложениях...

17Фев
2023

Безопасность данных в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

курсы HBase администратор списки доступа привилегии права примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня в рамках обучения администраторов SQL-on-Hadoop рассмотрим, как защитить данные в кластере Apache HBase от несанкционированного доступа. Аутентификация и авторизация пользователей, операторы управления доступом к таблицам, метки видимости и шифрование данных. Механизмы защиты данных в Apache HBase Как и любое хранилище, колоночно-ориентированная мультиверсионная NoSQL-СУБД типа key-value Apache HBase, которая работает...

07Фев
2023

Горячие точки в Apache HBase и 7 способов их устранения

Автор Анна Вичуговав категории HBase, Блог

курсы HBase дата-инженер регионы таблиц ключ строки примеры курсы обучение, Apache HBase Hadoop администратор кластера курс, администрирование Apache HBase, NoSQL курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Что такое горячие точки в Apache HBase, почему они возникают, чем опасны и как их избежать. Для этого заглянем под капот NoSQL-хранилища, чтобы разобраться с особенностями хранения данных по ключу строки. Что такое горячие точки в кластере Apache HBase и почему они случаются Apache HBase представляет собой колоночно-ориентированное мультиверсионное хранилище...

17Янв
2023

Инкрементный бэкап и стратегия восстановления таблиц в Apache HBase

Автор Анна Вичуговав категории HBase, Блог

резервное копирование и восстановление данных Apache HBase, бэкапы HBase, обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали о важности резервного копирования данных в Apache HBase на примере ИТ-компании Clairvoyant. Сегодня рассмотрим опыт индийской компании Myntra, которая предложила простую методику создания инкрементных бэкапов для Apache HBase 2.1.4 и Hadoop 2.7.3, а также восстановления нужных данных из этих резервных копий в BLOB-хранилищах по требованию пользователя. 5...

25Дек
2022

SQL-on-Hadoop: Apache Hive vs Pig

Автор Анна Вичуговав категории Hive, Блог

Pig vs Hive, Apache Hive примеры курсы обучение Hadoop SQL SQL-on-Hadoop, обучение дата-инженеров Apache Hive Data Lake, Школа Больших Данных Учебный центр Коммерсант

Хотя Apache Pig сегодня не самый актуальный инструмент для аналитики больших данных в экосистеме Hadoop, дата-инженеру полезно знать его основные принципы работы и ключевые отличия от Hive. Также рассмотрим, чем Hive отличается от Pig в качестве средства SQL-on-Hadoop. Что такое Apache Pig Apache Pig – это высокоуровневый процедурный язык для...

11Дек
2022

Зачем вам WebHCat – REST API к HCatalog в Apache Hive

Автор Анна Вичуговав категории Hive, Блог

WebHCat rest api HCatalog Apache Hive, обучение Hive Hadoop SQL-on-Hadoop примеры курсы дата-инженер разработчик, курсы SQL-on-Hadoop, Hadoop SQL Hive примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое WebHCat в Apache Hive и как этот REST API позволяет взаимодействовать с HCatalog, используя стандартные HTTP-методы. Еще разберем, какие DDL-команды Hive и HiveQL не поддерживает HCatalog, а также что полезного может быть в лог-файлах Templeton. Принципы работы компонента WebHCat как REST-сервиса Apache Hive Будучи NoSQL-хранилищем класса...

01Дек
2022

Чтение и запись файлов в Google Cloud Storage с Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Data Lake ETL Apache Spark примеры курсы обучение, озеро данных HDFS Google Cloud Storage ETL Apache Spark примеры курсы обучение, курсы Apache Spark для разработчиков и дата-инженеров, анализ данных с Apache Spark, аналитика больших данных курсы, криптография в Apache Spark, обучение большим данным для разработчиков и инженеров данных примеры Spark, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про чтение данных из AWS S3 с помощью PySpark-задний. Продолжая разбираться, как перейти от HDFS к облачным объектным хранилищам, сегодня рассмотрим пример чтения и записи файлов из Google Cloud Storage с помощью Apache Spark. От HDFS к GCS Распределенная файловая система Apache Hadoop (HDFS) уже много лет...

27Ноя
2022

Apache Hive 4.0.0-alpha-2: что нового?

Автор Анна Вичуговав категории Hive, Блог

Apache Hive примеры курсы обучение Hadoop SQL SQL-on-Hadoop, обучение дата-инженеров Apache Hive Data Lake, Школа Больших Данных Учебный центр Коммерсант

16 ноября 2022 года вышел 2-ой альфа-релиз Apache Hive 4.0.0. Какие ошибки в нем исправлены и что за новые функции, важные для дата-инженера и администратора кластера Hadoop, появились. А перед этим вспомним основные принципы работы Apache Hive. Принципы работы Apache Hive Apache Hive является популярным инструментом стека SQL-on-Hadoop, позволяя обращаться...

18Ноя
2022

Как соединить таблицы в Apache HBase: JOIN в NoSQL

Автор Анна Вичуговав категории HBase, Блог

JOIN MapReduce, SQL NoSQL HBase Hadoop, SQL-on_Hadoop Примеры курсы обучение, HBase HDFS SQL Hadoop примеры курсы обучение, администратор дата-инженер Hadoop Hbase примеыры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Поиск данных по нескольким таблицам в реляционных базах данных реализуется через SQL-запрос с оператором JOIN. В NoSQL-хранилищах такая возможность может отсутствовать. Разбираем, как соединить таблицы в Apache HBase и причем здесь MapReduce. Варианты реализации JOIN в Apache HBase Будучи популярной NoSQL-базой, которая реализует возможности Google BigTable для Apache Hadoop, HBase...

13Ноя
2022

Как запустить службу внешнего хранилища метаданных Apache Hive в AWS EKS

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive AWS EKS data lake, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Delta Lake, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, зачем нужно внешнее хранилище метаданных для Apache Hive, и как запустить его высокодоступный и масштабируемый сервис в Amazon EKS путем контейнеризации приложения. Зачем нужно внешнее хранилище метаданных Apache Hive? Apache Hive используется для доступа к данным, хранящимся в распределенной файловой системе Hadoop (HDFS) через стандартные SQL-запросы. Это NoSQL-хранилище...

31Окт
2022

Как перейти от Apache Hive к Iceberg: стратегии миграции данных

Автор Анна Вичуговав категории Hive, Блог

озеро данных, Data Lake, Apache Hive vs Iceberg, архитектура данных примеры курсы обучение, обучение архитекторов данных и дата-инженеров Apache Hive Iceberg dalta Lake, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассматривали, как дата-инженеры Airbnb перевели аналитические нагрузки корпоративного озера данных с Apache Hive на Iceberg и Spark. Продолжая разговор про эти фреймворки реализации Data Lake, сегодня разберем стратегии миграции озера данных с Apache Hive на Iceberg. Зачем уходить с Apache Hive на Iceberg и как это сделать Напомним,...