Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

27Фев
2022

Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix

Автор Анна Вичуговав категории HBase, NoSql, Блог

Cloudera Data Platform Operational Database HBase, HBase Phoenix курсы примеры обучение, обучение Hadoop SQL администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные из кластера HBase в Cloudera Operational Database, избежав их потери и других подводных камней. Что такое Cloudera Operational Database: назначение...

22Фев
2022

Не только SQL-операторы: Transform для манипулирования данными в Apache Hive

Автор Анна Вичуговав категории Hive, NoSql, Блог

Apache Hive обучение курсы примеры, SQL-on-Hadoop курсы примеры обучение, Hive QL для адат-инженера аналитика и разработчика примеры курсы обучение, Hive SQL курсы примеры обучение, HDFS SQL Hadoop Hive курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа операций с данными в Apache Hive, его возможности и ограничения, а также связь с HiveQL. Преобразования в Apache Hive Apache Hive – это популярная экосистема...

07Фев
2022

Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и с Phoenix: кейс Salesforce

Автор Анна Вичуговав категории HBase, Блог

вторичный индекс HBase, HBase Phoenix вторичная индексация, обучение Hadoop SQl администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Недавно на примере ИТ-компании Salesforce мы рассказывали про вторичную индексацию таблиц Apache HBase с помощью Phoenix – средства обращения к NoSQL-хранилищу через SQL-запросы. В продолжение этого кейса, сегодня рассмотрим, как были перепроектированы глобальные вторичные индексы для обеспечения более высокого уровня согласованности, чем предлагает Apache Phoenix. Реализация вторичных индексов в таблицах...

31Янв
2022

Сложности индексации таблиц Apache HBase и способы их обхода с Phoenix

Автор Анна Вичуговав категории HBase, Блог

В Apache HBase индексация таблиц возможна только по одному полю. Обойти это ограничение позволяет Apache Phoenix - инструмент обращения к NoSQL-хранилищу средствами SQL-запросов. В этой статье для дата-инженеров, архитекторов ИТ-решений и аналитиков данных рассмотрим типы вторичной индексации таблиц HBase в Phoenix и проблемы согласованности вторичных индексов, с которыми столкнулись специалисты...

25Янв
2022

Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Автор Анна Вичуговав категории Hive, Trino, Блог

Trino Hive курсы примеры обучение, обучение Apache Hive, Hive курсы примеры обучение, SQL-on-Hadoop примеры курсы обучение, HiveQL курсы, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop, рассмотрим, что такое Trino и как это работает с Apache Hive. А также при чем здесь Presto и зачем коннектор со своей средой выполнения использует Hive Metastore. Что такое Trino и при чем здесь Presto SQL Trino – это механизм запросов для...

22Янв
2022

SQL-запросы к Apache HBase через Phoenix с HUE

Автор Анна Вичуговав категории HBase, Hive, Блог

обучение Hadoop SQl администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS Hue, обучение большим данным, Школа Больших Данных Учебный центр Коммерсантв

Для дата-инженеров и аналитиков про манипулирование данными в Apache Hadoop HDFS средствами SQL-запросов с помощью удобных инструментов. Apache Phoenix для обращения к таблицам NoSQL-хранилища HBase через SQL-запросы из графического интерфейса Hue. Как обратиться к таблицам HBase через SQL-запросы с Phoenix Apache HBase как хранилище данных над Hadoop HDFS предоставляет множество...

14Янв
2022

Блеск и нищета Erasure Coding в Apache Hadoop 3: опыт Одноклассников c HDFS

Автор Анна Вичуговав категории Use Cases, Блог

обучение Apache Hadoop курсы примеры, Apache Hadoop для инженеров данных, дата-инженер Apache Hadoop HDFS, администрирование Apache Hadoop HDFS, Erasure Coding HDFS примеры, обучение большим данным, администрирование кластера Hadoop, обучение администратор Hadoop, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали, что Apache Hadoop 3.3.1 поддерживает технологию кодирования со стиранием (Erasure Coding, EC), которая экономит место на жестком диске по сравнению с репликацией. Однако, беспечное применение этой новой фичи может обернуться настоящей катастрофой. Кейс соцсети «Одноклассники» от ведущего разработчика Дениса Ефарова, представленный на конференции Smart Data для инженеров данных в...

05Янв
2022

Сложности перехода: миграция из Apache HBase в Google BigTable – кейс компании Box

Автор Анна Вичуговав категории HBase, Use Cases, Блог

обучение Hadoop, курсы Hadoop HBase, обучение дата-инженеров и администраторов Hadoop HBase, HBase BigTable migration, обучение большим данным примеры кейсы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про пользу snapshot’ов Apache HBase на примере компании Vimeo. Сегодня рассмотрим кейс корпорации Box, которая специализируется на облачных enterprise-продуктах совместного управления контентом и файлами. Переход от локальной HBase к Google Cloud BigTable: сложности миграции и способы их обхода. Сходства и различия Apache HBase с Google Cloud BigTable...

04Янв
2022

Savepoint vs Checkpoint в Apache Flink: сходства и отличия

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink курсы, Apache Flink для разработчиков, курсы Apache Hadoop для разработчиков примеры, Savepoint vs Checkpoint Apache Flink, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Разбираемся с механизмами отказоустойчивости Flink-приложений. Что такое контрольные точки (Checkpoint), чем они отличаются от точек сохранения (Savepoint) и что между ними общего. А также при чем здесь snapshot, что выбирать в разных случаях и как это использовать для отказоустойчивости stateful-приложений Apache Flink. Snapshot как механизм обеспечения отказоустойчивости приложений Apache Flink...

31Дек
2021

Размер имеет значение: Spark и Phoenix для больших запросов в Apache HBase

Автор Анна Вичуговав категории Spark, Блог

HBase курсы примеры обучение, обучение Hadoop, курсы SQL-on-Hadoop, обучение разработчиков Hadoop HBase примеры, Spark Phoenix Hadoop HBase курсы примеры обучение, обучение дата-инженеров и разработчиков Hadoop HBase, Школа Больших Данных Учебный Центр Коммерсант

Добавляя новые интересные примеры в наши курсы для дата-аналитиков, разработчиков распределенных приложений и администраторов SQL-on-Hadoop, сегодня рассмотрим опыт видеоаналитики в компании Vimeo с использованием Apache Spark. Как быстро запросить множество данных из Apache HDFS через Phoenix и Spark из моментальных снимков HBase с минимальным влиянием на кластер. Аналитика очень больших...

27Дек
2021

UDF в Apache Hive: создание, регистрация и эксплуатация

Автор Анна Вичуговав категории Hive, NoSql, Блог

обучение Apache Hive, курсы Apache Hiveб курсы Hadoop SQL, SQL-on-Hadoop Hive примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня в рамках обучения дата-аналитиков и разработчиков распределенных приложений, рассмотрим, что такое пользовательские функции в Apache Hive, как их создать и использовать. А также в чем проблема вызова UDF-функции, зарегистрированной в Hive, из Impala и при чем здесь Sentry. Простые и сложные UDF в Apache Hive Пользовательские функции в Hive...

11Дек
2021

Зачем нужна статистика таблиц Apache Hive и как ее собрать

Автор Анна Вичуговав категории Hive, Блог

Apache Hive курсы примеры обучение, SQL on Hadoop примеры курсы обучение, Apache Hadoop SQL администратор аналитик данных примеры курсы обучение, обучение аналитиков больших данных, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали, зачем нужна статистика таблиц при оптимизации SQL-запросов на примере Greenplum. Сегодня рассмотрим, как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop. Еще раз о пользе статистики для оптимизации запросов в...

08Дек
2021

Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps курсы обучение примеры, инженерия данных курсы, обучение дата-инженеров, обучение Data Science, курсы Data Science, аналитика больших данных Machine Learning примеры курсы обучение, ML Feature Engineering примеры обучение курсы, обучение аналитик больших данных Data Scientist, курсы аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

В рамках наших курсов для дата-инженеров и специалистов в области Data Science, сегодня рассмотрим, как реализовать один из важнейших этапов машинного обучения – Feature Engineering. Читайте далее, как генерировать признаки для ML-модели с помощью SQL, напрямую обращаясь к источникам данных и хранилищам фич, а также что такое Apache Hivemall и...

02Дек
2021

Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений

Автор Анна Вичуговав категории Greenplum, Machine Learning, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура PXF, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Greenplum Примеры курсы обучение, глубокое обучение, Deepl Learning примеры кейсы, машинное обучение нейросети курсы, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про оптимизацию SQL-запросов в PXF – интеграционном фреймворке Greenplum. Сегодня рассмотрим, как этот способ обращения к внешним источникам данных можно применить к задачам машинного обучения на примере распознавания изображений. Platform Extension Framework как инструмент извлечения и преобразования изображений из облачных объектных хранилищ для обучений глубоких нейросетей с...

01Дек
2021

Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark

Автор Анна Вичуговав категории Hive, Spark, Блог

обучение Hadoop, курсы Apache Hadoop, обучение Hive Hadoop, курсы Apache Hive Hadoop SQL, Hadoop Hive Spark администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Hadoop и компонентам этой экосистемы хранения и эффективной аналитики больших данных еще более полезными, сегодня рассмотрим, как получить данные из облачного объектного хранилища AWS S3 с помощью заданий Hive и Spark. А также заглянем внутрь конфигурационных xml-файлов Hadoop и Hive. Еще раз о разнице...

25Ноя
2021

Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3

Автор Анна Вичуговав категории HBase, Блог

обучение Hadoop, курсы Apache Hadoop, обучение HBase, курсы Apache HBase, Hadoop HBase администратор кластера примеры курсы обучение, обучение администраторов больших данных, Школа Больших Данных Учебный Центр Коммерсант

В статье для дата-инженеров и администраторов Apache Hadoop разберем, как реализовать инкрементное резервное копирование таблиц HBase из кластеров CDH/CDP в облачное объектное хранилище AWS S3. Практический пример от международной ИТ-компании Clairvoyant. 5 способов резервного копирования в Apache HBase Apache HBase - это популярная колоночная NoSQL-СУБД, которая работает поверх распределенной файловой...

22Ноя
2021

ACID-транзакции в Apache Hive: настройка, принципы работы и ограничения

Автор Анна Вичуговав категории Hive, Блог

ACID Compaction Apache Hive, транзакции Apache Hive, Apache Hive примеры курсы обучение, SQL on Hadoop Hive, Школа Больших Данных Учебный центр Коммерсант

В рамках обучения аналитиков данных и дата-инженеров тонкостям работы с Apache Hive, сегодня разберем особенности ACID-транзакций в этом популярном инструменте класса SQL-on-Hadoop. Зачем и когда нужны ACID-транзакции в Apache Hive, какие параметры нужно настроить для их выполнения, при чем здесь блокировки, каковы ограничения и особенности уплотнения дельта-каталогов. Еще раз про...

19Ноя
2021

PXF, Greenplum и оптимизация SQL-запросов к разным источникам данных

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня продолжим разбираться с интеграционным фреймворком Greenplum и рассмотрим, как PXF реализует SQL-запросы к различным OLAP и OLTP-источникам, поддерживая разные форматы данных. Зачем создавать внешнюю таблицу для Greenplum и какие параметры при этом указывать, а также чем хороша технология оптимизации pushdown. SQL и PXF: интеграция Greenplum с внешними источниками на...

10Ноя
2021

Как устроен PXF Greenplum: архитектура и принципы работы

Автор Анна Вичуговав категории Greenplum, Блог

Специально для дата-инженеров, разработчиков OLAP-конвейеров и архитекторов DWH на MPP-СУБД Greenplum и Arenadata DB сегодня рассмотрим, что представляет собой PXF, из каких компонентов он состоит и как они взаимодействуют друг с другом, чтобы обеспечить параллельный высокопроизводительный доступ к данным и объединенную обработку запросов к разнородным источникам. Что PXF и зачем...

01Ноя
2021

Масштабируемая индексация Apache HBase почти в реальном времени: кейс Pinterest

Автор Анна Вичуговав категории HBase, Use Cases, Блог

Apache HBase курсы обучение примеры, кейсы аналитики больших данных для дата-инженеров примеры. NoSQL курсы, Apache Hadoop курсы обучение для дата-инженеров примеры, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Обучая дата-инженеров и разработчиков распределенных приложений для аналитики больших данных, сегодня рассмотрим кейс компании Pinterest по построению масштабируемого решения для индексации записей в Apache HBase. Чем хранилище Ixia отличается от Lily HBase Indexer, зачем понадобился собственный аналог Solr и ElasticSearch, а также как все это работает в реальном времени с...