Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

04Сен
2024

Машинное обучение в Greenplum: агенты и расширения

Автор Анна Вичуговав категории Greenplum, Machine Learning

машинное обучение Greenplum, Greenplum Machine Learning, Greenplum ML, PostgresML Greenplum, обучение Greenplum, курсы Greenplum, курсы дата-инженер Greenplum внешние таблицы, Школа Больших Данных Учебный Центр Коммерсант

Как решать задачи машинного обучения в Greenplum с агентом gpMLBot и расширением PostgresML: возможности, ограничения и примеры. Что такое gpMLBot: Greenplum Automated Machine Learning Agent Чтобы использовать Greenplum как хранилище данных в задачах машинного обучения, в этой БД поддерживаются соответствующие механизмы. Одним из них является библиотека Apache MADlib, о которой...

27Авг
2024

Photon: новый векторизованный движок запросов Spark SQL от Databricks

Автор Анна Вичуговав категории Spark

Spark Photon Databricsks. Spark разработка примеры курсы обучение, Spark SQL для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Зачем Databricks выпустила новый движок выполнения запросов Spark SQL для ML-приложений, как он работает и где его настроить: возможности и ограничения Photon Engine. Преимущества Photon Engine для ML-нагрузок Spark-приложений Чтобы сделать Apache Apark еще быстрее, разработчики Databricks выпустили новый движок выполнения запросов - Photon Engine. Это высокопроизводительный механизм запросов, который...

26Авг
2024

4 нейросетевых трансформера для прогнозирования временных рядов

Автор Анна Вичуговав категории Machine Learning

нейросети, машинное обучение, анализ и прогнозирование временных рядов

Почему генеративный ИИ хорошо подходит для прогнозирования временных рядов, как архитектура трансформеров учитывает влияние внешних переменных и сезонных факторов на измерения, и какие нейросетевые модели можно попробовать для этих задач. Проблемы прогнозирования временных рядов и их нейросетевые решения Прогнозирование временных рядов всегда было востребованной задачей в различных отраслях бизнеса. Временной...

19Фев
2024

Databricks Arc vs Splink: автоматическое связывание данных в промышленных масштабах

Автор Анна Вичуговав категории Machine Learning

связывание данных Arc Splink , обработка больших данных, глубокий анализ данных, качество больших данных, Школа Больших Данных Учебный Центр Коммерсант

Зачем Databricks выпустил Arc, чем это отличается от Splink, и как эти инструменты позволяют решать проблему связывания данных с помощью алгоритмов машинного обучения. Как работает связывание данных Продолжая разговор про качество данных и разрешение сущностей (entity resolution) , сегодня подробно рассмотрим этап связывания записей с использованием логики на основе правил...

18Фев
2024

Знай своего клиента: качество данных с identity resolution в Zingg и Splink

Автор Анна Вичуговав категории Machine Learning, Use Cases, Цифровая трансформация

качество данных, обработка больших данных, глубокий анализ данных, entity identity resolution, , Школа Больших Данных Учебный Центр Коммерсант

Как качество данных связано с разрешением сущностей, чем entity resolution отличается от identity resolution, зачем нужны графы идентичности, как их построить и где использовать. Борьба за качество данных с entity resolution Результаты аналитической обработки данных напрямую зависят от их качества, о ключевых показателях и задачах обеспечения которого мы писали здесь....

10Дек
2023

Барьерный режим выполнения в Apache Spark и при чем здесь глубокое обучение

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Spark MLмашинное обучение барьерный режим выполнения, разработка Spark-приложений примеры курсы обучение

Что такое барьерный режим выполнения в Apache Spark, чем он отличается от вычислительной модели MapReduce, как связан с глубоким машинным обучением и где используется на практике. Что такое барьерный режим выполнения в Apache Spark Способ выполнения заданий Spark определяется режимом выполнения приложения, заданным на уровне фреймворка. На платформе. Именно от...

20Ноя
2023

Кибербезопасность в MLOps: угрозы и лучшие практики

Автор Анна Вичуговав категории Machine Learning, Блог

информационная безопасность и защита данных и систем машинного обучения, MLOps примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Почему безопасность ML-систем становится все более важным вопросом и как ее обеспечить: MLOps-подходы, практики и технологии защиты данных, моделей машинного обучения, а также вычислительных и инфраструктурных конвейеров. Защита данных для машинного обучения В связи с активным внедрением система машинного обучения в производственное использование, вопрос безопасности становится все более актуальным. ML-системы...

13Ноя
2023

Что такое LLMOps или MLOps для больших языковых моделей

Автор Анна Вичуговав категории Machine Learning, Блог

машинное обучение примеры курсы MLOps, курсы по MLOps, MLOps LLM LLMOpa, курсы ML Machine Learning Data Science, обучение инженеров Big Data, инженерия больших данных, Школа Больших Данных Учебный центр Коммерсант

Зачем управлять трансферным обучением больших языковых моделей и что входит в это управление: знакомимся с расширением MLOps для LLM под названием LLMOps. Что такое LLMOps Большие языковые модели, воплощенные в генеративных нейросетях (ChatGPT и прочие аналоги), стали главной технологией уходящего года, которая уже активно используется на практике как частными лицами,...

04Ноя
2023

MLOps с Tecton и Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

MLOps AirFlow Tecton, MLOps ML AirFlow оркестрация конвейеров машинного обучения примеры, машинное обучение примеры курсы MLOps, курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

Что представляет собой MLOps-платформа Tecton и как запустить на ней конвейеры машинного обучения, используя провайдер Tecton-AirFlow, чтобы управлять ресурсами Tecton в этом ETL-оркестраторе. Что такое Tecton и при чем здесь MLOps Поскольку концепция MLOps направлена на безбарьерную автоматизацию всех этапов жизненного цикла систем машинного обучения, для этого нужны специализированные средства....

17Окт
2023

Машинное обучение с Greenplum: обзор ML-расширений

Автор Анна Вичуговав категории Greenplum, Machine Learning, Блог

машинное обучение Greenplum и PostgreSQL, расширения Greenplum и PostgreSQL, ИИ и векторные СУБД, обучение Data Science примеры курсы обучение, NoSQL векторные базы данных примеры курсы обучение, администратор дата-инженер архитектор больших данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как использовать Greenplum в проектах машинного обучения: знакомимся с расширением PostgresML и модулем pgvector. Возможности и ограничения плагинов, превращающих MPP-СУБД в полноценный MLOps-инструмент. Как превратить Greenplum в векторную базу данных с расширением pgvector Будучи вариацией PostgreSQL с механизмами массово-параллельной загрузки, Greenplum отлично справляется с огромным объемом данных. Однако, к хранилищам...