Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

06Апр
2022

Как улучшить рекомендательную систему с Neo4j: кейс Meredith

Автор Анна Вичуговав категории Neo4j, Блог

Neo4j курсы примеры обучение Data Science, лучшие практики разработки приложений с Neo4j, обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, аналитик разработчик Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Развивая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим американского медиаконгломерат Meredith Corporation по персонализации пользовательских профилей с помощью графовой СУБД Neo4j и алгоритма непересекающихся множеств (Union-Find). Постановка задачи: сложности идентификации анонимных клиентов Различными контент-продуктами конгломерата Meredith Corporation ежемесячно пользуется более 180 миллионов человек через приложения,...

30Мар
2022

MLOps-конвейер с MLFlow: CI/CD для модели машинного обучения

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про сложности разработки и развертывания ML-систем и способы их решения с помощью концепции MLOps. Продолжая эту тему, важную для обучения специалистов по Data Science, аналитиков и инженеров данных, сегодня рассмотрим основные некоторые преимущества фреймворка MLFlow для создания надежных конвейеров CI/CD в системах машинного обучения. CI/CD в MLOps...

23Мар
2022

Проект года-2021: фабрика данных на Arenadata Hadoop в АО «Народный банк Казахстана»

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata Hadoop примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали о победителях российского ИТ-конкурса «Проект Года 2020» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», где «Газпром нефть» и банк ВТБ делятся опытом применения российских продуктов Arenadata. Сегодня рассмотрим кейс призера 2021 года - проект «Фабрика данных» в АО «Народный банк Казахстана», в результате которого...

19Мар
2022

MLOps на коленке: простое развертывание ML-модели с Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

MLOPS Spark примеры курсы обучение, Spark MLLib, курсы Spark для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по Apache Spark и машинному обучению практические примеры для эффективного повышения квалификации Data Scientist’ов и инженеров данных, сегодня рассмотрим задачу пакетного прогнозирования и планирование ее запуска по расписанию без применения масштабных MLOps-решений. Apache Spark для пакетного прогнозирования Есть много готовых решений и инструментов для пакетного...

18Мар
2022

MLOps и переносимость ML-моделей с помощью ONNX и Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Обучая специалистов по Data Science, аналитиков и инженеров данных лучшим практикам MLOps, сегодня поговорим про переносимость моделей машинного обучения между разными этапами жизненного цикла ML-систем, от разработки до развертывания в production. А в качестве примера разберем, как использовать обученную ML-модель из Apache Spark за пределами кластера, упаковав ее в ONNX...

20Фев
2022

MLOps на AirFlow, MLFlow и сервисах AWS с экономией на облачном кластере за счет Spark 3

Автор Анна Вичуговав категории AirFlow, Machine Learning, Spark, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы Spark Для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-инженеров и ML-специалистов лучшим практикам MLOps, сегодня рассмотрим практический пример построения конвейера машинного обучения на Airflow, MLFlow, SageMaker и других сервисах Amazon. А также как Apache Spark версии 3 сократил расходы на облачный EMR-кластер почти в 2 раза. MLOps с AirFlow и MLFlow в облаке AWS Ранее...

06Фев
2022

MLOps на практике: опыт Glassdoor

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение, разработка и внедрение ML-решений в production для инженеров, MLOps для профессионалов реальный кейс, как внедрить MLOps, инструменты MLOps, обучение большим данным, курсы дата-инженеров и ML-разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Практическая реализация MLOps-концепции на примере международной рекрутинговой компании Glassdoor. Как построить самоуправляемую автоматизированную систему разработки и сопровождения ML-моделей с MLFlow, Apache Spark и AirFlow, Kubernetes, GitLab, SageMaker Feature Store, Whylogs, Jenkins, Spinnaker и Prometheus с Grafana. Предыстория: зачем MLOps в Glassdoor Glassdoor с 2008 года помогает соискателям по всему миру...

24Янв
2022

Еще больше и быстрее: извлечение данных из Neo4j с Apache Arrow

Автор Анна Вичуговав категории Neo4j, Блог

графовая аналитика больших данных курсы примеры обучение, курсы обучение Neo4j, обучение дата-аналитик, аналитик больших данных курсы, аналитика данных на графах, графовые алгоритмы на больших данных курсы примеры, обучение, Школа Больших Данных Учебный Центр Коммерсант

Дополняя наши курсы по аналитике больших данных в бизнес-приложениях новыми полезными примерами, сегодня рассмотрим, как Apache Arrow помогает повысить производительность извлечения данных из Neo4j с помощью их колоночного представления и обработки в памяти, а не на диске. Чем neo4j-arrow лучше драйверов Java и Python, а также собственной Neo4j библиотеки Graph...

13Янв
2022

Spark NLP 3.4.0: новый релиз ML-библиотеки для Apache Spark 3.2.x на Scala 2.12

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для дата-аналитиков и сайнтистов примеры курсы обучение, Spark NLP курсы примеры обучение Data Science, обучение Spark курсы, примеры Spark NLP, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

2022 год только начался, а John Snow Labs уже радует разработчиков ML-приложений новым релизом библиотеки Spark NLP. Ключевые фичи 3.4.0 для версии Apache Spark 3.2.x на Scala 2.12: новые GPT-2 трансформеры, аннотаторы для ALBERT, XLNet, RoBERTa, XLM-RoBERTa и Longformer, расширенный хаб готовых Machine Learning моделей и конвейеров, а также исправление...

23Дек
2021

Миллиарды сообщений в секунду: микросервисная ML-система на Apache Kafka и DynamoDB

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение Kafka, курсы Kafka, Apache Kafka Для инженеров и разработчиков, DynamoDB курсы NoSQL, обучение дата-инженеров, обучение большим данным, архитектура больших данных, ML Feature Store Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

В этой статье разберем кейс бразильской фудтех-компании Ifood по реализации микросервисной ML-системы на Apache Kafka и serverless NoSQL-СУБД DynamoDB с пропускной способностью миллиарды сообщений в секунду. Сложности масштабирования микросервисов и оперативное чтение данных из Feature Store с помощью библиотеки Sarama – Go-клиента для Apache Kafka. Проблема микросервисов при множестве обращений...