Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

17Мар
2025

Почему колоночные форматы Parquet и ORC не подходят для ML-нагрузок

Автор Анна Вичуговав категории Machine Learning

архитектура данных для ML, Machine Learning примеры курсы обучение, MLOPS примеры курсы обучение, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чем ML-сценарии работы с данными отличаются от типовых аналитических нагрузок и почему колоночные форматы не справляются с ними: сложности Parquet и ORC в хранении данных для машинного обучения. Почему колоночные форматы не справляются со всеми ML-сценариями Хотя колоночный формат хранения данных хорошо подходит для многих современных сценариев, таких как машинное...

24Фев
2025

Аналитика в реальном времени на ClickHouse с агентским ИИ

Автор Анна Вичуговав категории ClickHouse

агентский ИИ, машинное обучение с ClickHouse, искусственный интеллект Agent AI ClickHouse

Зачем использовать ClickHouse для аналитики в реальном времени с агентами ИИ и как это сделать: современные вызовы внедрения LLM. Как реализовать ML-систему агентского ИИ с ClickHouse Продолжим разговор про агентский ИИ на основе LLM, когда ML-система не просто реагирует на запросы пользователя, а работает автономно, интеллектуально решая задачи без прямого...

20Фев
2025

ТОП-5 проблем агентского ИИ и как их преодолеть

Автор Анна Вичуговав категории Machine Learning

Machine Learning примеры курсы обучение, MLOPS примеры курсы обучение, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чем хорош агентский ИИ, какие риски и проблемы с ним связаны, и как их избежать: технические и организационные меры внедрения ML-систем в реальный бизнес. Что сдерживает внедрение агентского ИИ Мы уже писали об агентском ИИ, когда ML-система не просто реагирует на запросы пользователя, а работает автономно, интеллектуально решая задачи без...

16Янв
2025

Потоковая обработка данных и EDA-архитектура для LLM-систем

Автор Анна Вичуговав категории Machine Learning

Промышленный Machine Learning примеры курсы обучение, MLOps для дата-инженера, архитектура данных MLOps примеры курсы обучение, инженерия больших данных и AI LLM, Школа Больших Данных Учебный Центр Коммерсант

Почему генеративный ИИ основан на потоковой обработке данных и EDA-архитектуре, для чего оценивать качество LLM-модели и как построить такую систему мониторинга: подходы и технологии. О важности потоковой обработки данных и EDA-архитектуры для LLM-систем Все больше современных бизнес-приложений включают в себя большие языковые модели (LLM, Large Language Model), чтобы автоматизировать поддержку...

03Окт
2024

5 причин использовать Clickhouse для ML-задач

Автор Анна Вичуговав категории ClickHouse, Machine Learning

ClickHouse Feature Store, ML ClickHouse для дата-инженера, MachineLearning Clickhouse примеры курсы обучение, DWH ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Что такое хранилище признаков, зачем это нужно в машинном обучении, каковы его главные компоненты и как использовать ClickHouse в качестве Feature Store для ML-задач. Хранилище признаков для машинного обучения: архитектура и принципы работы Feature Store Будучи колоночной базой данных, ClickHouse отлично подходит на роль хранилища фичей (Feature Store) для задач...

04Сен
2024

Машинное обучение в Greenplum: агенты и расширения

Автор Анна Вичуговав категории Greenplum, Machine Learning

машинное обучение Greenplum, Greenplum Machine Learning, Greenplum ML, PostgresML Greenplum, обучение Greenplum, курсы Greenplum, курсы дата-инженер Greenplum внешние таблицы, Школа Больших Данных Учебный Центр Коммерсант

Как решать задачи машинного обучения в Greenplum с агентом gpMLBot и расширением PostgresML: возможности, ограничения и примеры. Что такое gpMLBot: Greenplum Automated Machine Learning Agent Чтобы использовать Greenplum как хранилище данных в задачах машинного обучения, в этой БД поддерживаются соответствующие механизмы. Одним из них является библиотека Apache MADlib, о которой...

27Авг
2024

Photon: новый векторизованный движок запросов Spark SQL от Databricks

Автор Анна Вичуговав категории Spark

Spark Photon Databricsks. Spark разработка примеры курсы обучение, Spark SQL для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Зачем Databricks выпустила новый движок выполнения запросов Spark SQL для ML-приложений, как он работает и где его настроить: возможности и ограничения Photon Engine. Преимущества Photon Engine для ML-нагрузок Spark-приложений Чтобы сделать Apache Apark еще быстрее, разработчики Databricks выпустили новый движок выполнения запросов - Photon Engine. Это высокопроизводительный механизм запросов, который...

26Авг
2024

4 нейросетевых трансформера для прогнозирования временных рядов

Автор Анна Вичуговав категории Machine Learning

нейросети, машинное обучение, анализ и прогнозирование временных рядов

Почему генеративный ИИ хорошо подходит для прогнозирования временных рядов, как архитектура трансформеров учитывает влияние внешних переменных и сезонных факторов на измерения, и какие нейросетевые модели можно попробовать для этих задач. Проблемы прогнозирования временных рядов и их нейросетевые решения Прогнозирование временных рядов всегда было востребованной задачей в различных отраслях бизнеса. Временной...

19Фев
2024

Databricks Arc vs Splink: автоматическое связывание данных в промышленных масштабах

Автор Анна Вичуговав категории Machine Learning

связывание данных Arc Splink , обработка больших данных, глубокий анализ данных, качество больших данных, Школа Больших Данных Учебный Центр Коммерсант

Зачем Databricks выпустил Arc, чем это отличается от Splink, и как эти инструменты позволяют решать проблему связывания данных с помощью алгоритмов машинного обучения. Как работает связывание данных Продолжая разговор про качество данных и разрешение сущностей (entity resolution) , сегодня подробно рассмотрим этап связывания записей с использованием логики на основе правил...

18Фев
2024

Знай своего клиента: качество данных с identity resolution в Zingg и Splink

Автор Анна Вичуговав категории Machine Learning, Use Cases, Цифровая трансформация

качество данных, обработка больших данных, глубокий анализ данных, entity identity resolution, , Школа Больших Данных Учебный Центр Коммерсант

Как качество данных связано с разрешением сущностей, чем entity resolution отличается от identity resolution, зачем нужны графы идентичности, как их построить и где использовать. Борьба за качество данных с entity resolution Результаты аналитической обработки данных напрямую зависят от их качества, о ключевых показателях и задачах обеспечения которого мы писали здесь....