Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

20Фев
2022

MLOps на AirFlow, MLFlow и сервисах AWS с экономией на облачном кластере за счет Spark 3

Автор Анна Вичуговав категории AirFlow, Machine Learning, Spark, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы Spark Для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-инженеров и ML-специалистов лучшим практикам MLOps, сегодня рассмотрим практический пример построения конвейера машинного обучения на Airflow, MLFlow, SageMaker и других сервисах Amazon. А также как Apache Spark версии 3 сократил расходы на облачный EMR-кластер почти в 2 раза. MLOps с AirFlow и MLFlow в облаке AWS Ранее...

06Фев
2022

MLOps на практике: опыт Glassdoor

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение, разработка и внедрение ML-решений в production для инженеров, MLOps для профессионалов реальный кейс, как внедрить MLOps, инструменты MLOps, обучение большим данным, курсы дата-инженеров и ML-разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Практическая реализация MLOps-концепции на примере международной рекрутинговой компании Glassdoor. Как построить самоуправляемую автоматизированную систему разработки и сопровождения ML-моделей с MLFlow, Apache Spark и AirFlow, Kubernetes, GitLab, SageMaker Feature Store, Whylogs, Jenkins, Spinnaker и Prometheus с Grafana. Предыстория: зачем MLOps в Glassdoor Glassdoor с 2008 года помогает соискателям по всему миру...

11Ноя
2021

Синергия Apache Airflow и Ray для MLOps-конвейеров: инженерия Data Science

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, курсы Data Science, курсы Machine Learning, машинное обучение курсы примеры, AirFlow Ray примеры, обучение большим данным для инженеров и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

MLOps и построение конвейеров машинного обучения – одни из самых актуальных задач современной Data Science. Сегодня рассмотрим, чем совместное использование Apache Airflow и Ray полезно для дата-инженера и ML-разработчика. Читайте далее про кластерное развертывание Python-кода ML-моделей и упрощение ETL-процессов с Apache Airflow и Ray. Apache AirFlow для ML: возможности и...

10Мар
2021

Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Автор Анна Вичуговав категории Spark, Блог

курсы по Spark, обучение Apache Spark, Apache Spark для разработчиков, Delta Lake, Databricks Google Cloud, Big Data

Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021 года. Читайте далее, чем хороша эта проприетарная Big Data платформа для аналитики больших данных на Spark, инструментах визуализации и MLOps,...

21Дек
2020

Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

курсы по Spark, Spark MLLib, машинное обучение в Apache Spark, курсы по машинному обучению и большим данным, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Python, PySpark

Сегодня поговорим про особенности построения конвейеров машинного обучения в Apache Spark. Читайте далее, как Spark MLLib реализует идеи MLOps, что такое трансформеры и оценщики, из чего еще состоит Machine Learning pipeline, как он работает с кодом на Scala, Java, Python и R, а также каковы условия практического использования методов fit(),...

16Дек
2020

Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

Автор Анна Вичуговав категории Kafka, Machine Learning, Блог

курсы по Apache Kafka, Обучение Apache Kafka, промышленный ML, машинное обучение курсы, курсы Big Data для Data Science, Feature Store, StreamSQL, курсы по Spark, обучение Apache Spark, основы машинного обучения и больших данных, инженерия машинного обучения, MlOps

Вчера мы говорили про промышленный Machine Learning в больших данных и рассматривали проблемы микросервисной архитектуры в системах машинного обучения. Продолжая разбирать, как Feature Store повышает эффективность MLOps-процессов, сокращая цикл разработки согласно Agile-идеям, сегодня мы приготовили для вас краткий обзор хранилища признаков StreamSQL. Читайте далее, что такое StreamSQL, как оно устроено,...

14Дек
2020

Зачем вам Feature Store или что не так с микросервисами в ML-системах

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Apache Kafka, обучение Kafka, курсы Spark, обучение Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Data Lake, Kafka, Agile, микросервисная архитектура систем машинного обучения, микросервисы и ML

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store, как это хранилище признаков для моделей Machine Learning повышает эффективность MLOps-процессов и сокращает цикл разработки ML-систем, а также при чем...

11Ноя
2020

Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline’ов

Автор Анна Вичуговав категории AirFlow, Machine Learning, Use Cases, Блог

курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps, MLOps, Python, Kubernetes, DevOps, ETL

Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo, MLFlow и KubeFlow, где и как они используются, а также почему Apache Airflow все равно остается лучшим инструментом для оркестрации...

30Сен
2020

Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

Автор Анна Вичуговав категории Hive, Spark, Блог

Spark, архитектура, обработка данных, большие данные, Big Data, Hadoop, Data Lake, Hive, SQL, NoSQL, MLOps, DataOps, Delta Lake, обучение Apache Spark, курсы по Spark

При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит ожидать от этого быстрого облачного хранилище для больших данных на Apache Spark и как можно обойти эти ограничения. Читайте далее,...

29Сен
2020

Облачное Delta Lake на Apache Spark от Databricks vs классическое озеро данных на Hadoop: 5 главных отличий

Автор Анна Вичуговав категории Spark, Блог

Delta Lake Databricks, курсы по Spark, архитектура, обработка данных, большие данные, Big Data, курсы Hadoop, Data Lake

Продолжая разговор про Delta Lake, сегодня мы рассмотрим, чем это быстрое облачное хранилище для больших данных в реализации компании Databricks отличается от классического озера данных (Data Lake) на Apache Hadoop HDFS. Читайте далее, как коммерческое Cloud-решение на Apache Spark облегчает профессиональную деятельность аналитиков, разработчиков и администраторов Big Data. Больше, чем...