Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

03Май
2022

Neo4j на страже закона: кейс поиска рецидивистов

Автор Анна Вичуговав категории Machine Learning, Neo4j, Use Cases, Блог

Neo4j курсы примеры обучение Data Science, лучшие практики разработки приложений с Neo4j, обучение Neo4j graph data science курсы примеры, курсы дата-аналитик Neo4j примеры обучение, обучение аналитике больших данных, Neo4j задачи на графах бизнес приложения примеры, аналитик разработчик Neo4j, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Как быстро и эффективно с помощью Neo4j выявить преступников, незаконно ввозящих в страну контрафактные товары. Почему графовая СУБД Neo4j обошла документо-ориентированную MongoDB, из чего состоит алгоритм поиска рецидивистов средствами технологий аналитики больших данных и как это может пригодиться в других бизнес-приложениях. Постановка задачи: сложности отслеживания контрафакта Каждый день практически в...

27Апр
2022

MLOps на Python и не только: кейс банка «Открытие»

Автор Анна Вичуговав категории Machine Learning, Use Cases, Блог

обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа БОльших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы для специалистов в области Data Science и ML-инженеров еще более полезными, сегодня рассмотрим, как организовать сквозной CI/CD-конвейер разработки и развертывания системы машинного обучения в соответствии с MLOps-концепцией на 4-х популярных Python-инструментах: MLflow, DVC, Airflow, ClearML. А в качестве примера практической реализации этой идеи разберем кейс банка...

17Апр
2022

Практический MLOps: 4 стратегии развертывания систем Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

Сегодня рассмотрим наиболее распространенные в MLOps стратегии развертывания, т.е. подходы к внедрению моделей машинного обучения в производство. Выбор стратегии зависит от бизнес-требований и от контекста применения результатов ML-моделирования. Какие бывают стратегии и как они реализуются: краткий ликбез с примерами для ML-инженеров и MLOps-специалистов. Пакетное прогнозирование и веб-сервисы для MLOps Это...

16Апр
2022

NLP в Neo4j с Cypher: простой пример

Автор Анна Вичуговав категории Neo4j, Блог

Недавно мы писали про рекомендательную систему американской медиа-компании Meredith Corporation на основе графовой СУБД Neo4j и алгоритма непересекающихся множеств (Union-Find). Продолжая эту тему в рамках нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, как построить простой рекомендательный движок с помощью выражений и операторов языка запросов Cypher...

08Апр
2022

MLOps и тестирование систем Machine Learning

Автор Анна Вичуговав категории Machine Learning, Блог

Поскольку разработка и развертывание ML-систем отличаются от традиционного ПО, о чем мы писали здесь и здесь, процесс тестирования модели машинного обучения тоже имеет свою специфику, которую учитывает концепция MLOps. Читайте далее, что и как тестировать при разработке систем Machine Learning, а также при чем здесь подход Arrange-Act-Assert. MLOps и тестирование...

06Апр
2022

Как улучшить рекомендательную систему с Neo4j: кейс Meredith

Автор Анна Вичуговав категории Neo4j, Блог

Развивая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим американского медиаконгломерат Meredith Corporation по персонализации пользовательских профилей с помощью графовой СУБД Neo4j и алгоритма непересекающихся множеств (Union-Find). Постановка задачи: сложности идентификации анонимных клиентов Различными контент-продуктами конгломерата Meredith Corporation ежемесячно пользуется более 180 миллионов человек через приложения,...

30Мар
2022

MLOps-конвейер с MLFlow: CI/CD для модели машинного обучения

Автор Анна Вичуговав категории Machine Learning, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы MLOps MLFlow Machine Learning DevOps Для дата-инженеров, MLFlow MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про сложности разработки и развертывания ML-систем и способы их решения с помощью концепции MLOps. Продолжая эту тему, важную для обучения специалистов по Data Science, аналитиков и инженеров данных, сегодня рассмотрим основные некоторые преимущества фреймворка MLFlow для создания надежных конвейеров CI/CD в системах машинного обучения. CI/CD в MLOps...

23Мар
2022

Проект года-2021: фабрика данных на Arenadata Hadoop в АО «Народный банк Казахстана»

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata Hadoop примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали о победителях российского ИТ-конкурса «Проект Года 2020» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», где «Газпром нефть» и банк ВТБ делятся опытом применения российских продуктов Arenadata. Сегодня рассмотрим кейс призера 2021 года - проект «Фабрика данных» в АО «Народный банк Казахстана», в результате которого...

19Мар
2022

MLOps на коленке: простое развертывание ML-модели с Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

MLOPS Spark примеры курсы обучение, Spark MLLib, курсы Spark для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

Постоянно добавляя в наши курсы по Apache Spark и машинному обучению практические примеры для эффективного повышения квалификации Data Scientist’ов и инженеров данных, сегодня рассмотрим задачу пакетного прогнозирования и планирование ее запуска по расписанию без применения масштабных MLOps-решений. Apache Spark для пакетного прогнозирования Есть много готовых решений и инструментов для пакетного...

18Мар
2022

MLOps и переносимость ML-моделей с помощью ONNX и Apache Spark

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

Обучая специалистов по Data Science, аналитиков и инженеров данных лучшим практикам MLOps, сегодня поговорим про переносимость моделей машинного обучения между разными этапами жизненного цикла ML-систем, от разработки до развертывания в production. А в качестве примера разберем, как использовать обученную ML-модель из Apache Spark за пределами кластера, упаковав ее в ONNX...

20Фев
2022

MLOps на AirFlow, MLFlow и сервисах AWS с экономией на облачном кластере за счет Spark 3

Автор Анна Вичуговав категории AirFlow, Machine Learning, Spark, Блог

MLOPS примеры курсы обучение, AWS EMR Spark 3, курсы Spark Для дата-инженеров, обучение Apache Spark, Spark ML MLOps, обучение инженеров Machine Learning, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения дата-инженеров и ML-специалистов лучшим практикам MLOps, сегодня рассмотрим практический пример построения конвейера машинного обучения на Airflow, MLFlow, SageMaker и других сервисах Amazon. А также как Apache Spark версии 3 сократил расходы на облачный EMR-кластер почти в 2 раза. MLOps с AirFlow и MLFlow в облаке AWS Ранее...

06Фев
2022

MLOps на практике: опыт Glassdoor

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps примеры курсы обучение, разработка и внедрение ML-решений в production для инженеров, MLOps для профессионалов реальный кейс, как внедрить MLOps, инструменты MLOps, обучение большим данным, курсы дата-инженеров и ML-разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Практическая реализация MLOps-концепции на примере международной рекрутинговой компании Glassdoor. Как построить самоуправляемую автоматизированную систему разработки и сопровождения ML-моделей с MLFlow, Apache Spark и AirFlow, Kubernetes, GitLab, SageMaker Feature Store, Whylogs, Jenkins, Spinnaker и Prometheus с Grafana. Предыстория: зачем MLOps в Glassdoor Glassdoor с 2008 года помогает соискателям по всему миру...

24Янв
2022

Еще больше и быстрее: извлечение данных из Neo4j с Apache Arrow

Автор Анна Вичуговав категории Neo4j, Блог

графовая аналитика больших данных курсы примеры обучение, курсы обучение Neo4j, обучение дата-аналитик, аналитик больших данных курсы, аналитика данных на графах, графовые алгоритмы на больших данных курсы примеры, обучение, Школа Больших Данных Учебный Центр Коммерсант

Дополняя наши курсы по аналитике больших данных в бизнес-приложениях новыми полезными примерами, сегодня рассмотрим, как Apache Arrow помогает повысить производительность извлечения данных из Neo4j с помощью их колоночного представления и обработки в памяти, а не на диске. Чем neo4j-arrow лучше драйверов Java и Python, а также собственной Neo4j библиотеки Graph...

23Янв
2022

Автоматическая диагностика и исправление сбоев в платформе данных Netflix c Apache Spark, Kafka, Flink и другими технологиями Big Data

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

обучение дата-инженеров, инженерия данных курсы, инженер Big Data, курсы Flink Kafka Spark, обучение большим данным примеры кейсы курсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы для дата-инженеров еще более интересными, сегодня рассмотрим практический пример построения инфраструктуры для автоматической диагностики и исправления ошибок пакетной и потоковой обработки данных в Netflix. Комплексная система на базе Apache Spark, Kafka, Flink, Druid, сервисов AWS и других технологий Big Data. Предыстория: зачем Netflix разработал Pensive Обработка...

13Янв
2022

Spark NLP 3.4.0: новый релиз ML-библиотеки для Apache Spark 3.2.x на Scala 2.12

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для дата-аналитиков и сайнтистов примеры курсы обучение, Spark NLP курсы примеры обучение Data Science, обучение Spark курсы, примеры Spark NLP, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

2022 год только начался, а John Snow Labs уже радует разработчиков ML-приложений новым релизом библиотеки Spark NLP. Ключевые фичи 3.4.0 для версии Apache Spark 3.2.x на Scala 2.12: новые GPT-2 трансформеры, аннотаторы для ALBERT, XLNet, RoBERTa, XLM-RoBERTa и Longformer, расширенный хаб готовых Machine Learning моделей и конвейеров, а также исправление...

23Дек
2021

Миллиарды сообщений в секунду: микросервисная ML-система на Apache Kafka и DynamoDB

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение Kafka, курсы Kafka, Apache Kafka Для инженеров и разработчиков, DynamoDB курсы NoSQL, обучение дата-инженеров, обучение большим данным, архитектура больших данных, ML Feature Store Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

В этой статье разберем кейс бразильской фудтех-компании Ifood по реализации микросервисной ML-системы на Apache Kafka и serverless NoSQL-СУБД DynamoDB с пропускной способностью миллиарды сообщений в секунду. Сложности масштабирования микросервисов и оперативное чтение данных из Feature Store с помощью библиотеки Sarama – Go-клиента для Apache Kafka. Проблема микросервисов при множестве обращений...

08Дек
2021

Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps курсы обучение примеры, инженерия данных курсы, обучение дата-инженеров, обучение Data Science, курсы Data Science, аналитика больших данных Machine Learning примеры курсы обучение, ML Feature Engineering примеры обучение курсы, обучение аналитик больших данных Data Scientist, курсы аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

В рамках наших курсов для дата-инженеров и специалистов в области Data Science, сегодня рассмотрим, как реализовать один из важнейших этапов машинного обучения – Feature Engineering. Читайте далее, как генерировать признаки для ML-модели с помощью SQL, напрямую обращаясь к источникам данных и хранилищам фич, а также что такое Apache Hivemall и...

02Дек
2021

Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений

Автор Анна Вичуговав категории Greenplum, Machine Learning, Блог

Greenplum Arenadata DB обучение курсы примеры архитектура PXF, Greenplum для инженеров данных и разработчиков обучение курс примеры, Platform Extension Framework Greenplum Arenadata Greenplum Примеры курсы обучение, глубокое обучение, Deepl Learning примеры кейсы, машинное обучение нейросети курсы, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про оптимизацию SQL-запросов в PXF – интеграционном фреймворке Greenplum. Сегодня рассмотрим, как этот способ обращения к внешним источникам данных можно применить к задачам машинного обучения на примере распознавания изображений. Platform Extension Framework как инструмент извлечения и преобразования изображений из облачных объектных хранилищ для обучений глубоких нейросетей с...

11Ноя
2021

Синергия Apache Airflow и Ray для MLOps-конвейеров: инженерия Data Science

Автор Анна Вичуговав категории AirFlow, Machine Learning, Блог

обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, курсы Data Science, курсы Machine Learning, машинное обучение курсы примеры, AirFlow Ray примеры, обучение большим данным для инженеров и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

MLOps и построение конвейеров машинного обучения – одни из самых актуальных задач современной Data Science. Сегодня рассмотрим, чем совместное использование Apache Airflow и Ray полезно для дата-инженера и ML-разработчика. Читайте далее про кластерное развертывание Python-кода ML-моделей и упрощение ETL-процессов с Apache Airflow и Ray. Apache AirFlow для ML: возможности и...

04Ноя
2021

Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

пример конвейера в Apache NiFi, обучение Apache NiFi, Apache NiFi курсы, обучение дата-инженеров курсы примеры, принципы работы и примеры Apache NiFi, GridDB ETL пример ML, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров еще больше полезных примеров, сегодня рассмотрим, как построить конвейер преобразования CSV-файлов и загрузить данные в масштабируемую NoSQL-СУБД GridDB с помощью Apache NiFi. Краткий ликбез по GridDB и Apache NiFi в кейсе построения ML-системы для анализа данных временных рядов. Анализ данных временных рядов c...