В марте 2022 года в Github появился исходный код TorchMultimodal – PyTorch-библиотеки для обучения масштабных мультимодальных многозадачных ML-моделей. А 17 ноября вышел бета-релиз этой библиотеки, который содержит множество полезных примеров и лучших архитектур глубокого обучения. Разбираемся с этой новой библиотекой. Что такое мультимодальные ML-модели и при чем здесь TorchMultimodal Человек...
В этой статье для дата-инженеров и ИТ-архитекторов поговорим про шардирование баз данных и разберем, как этот способ горизонтального масштабирования системы реализуется в MPP-СУБД Greenplum, при чем здесь ключ дистрибуции и как его задать. Что такое шардирование БД и как оно работает Чтобы повысить производительность приложения через увеличение пропускной способности СУБД...
Уважаемые коллеги, начнем с хорошей новости: в 2023 году мы запускаем несколько новых курсов: Практическое применение Big Data Аналитики для решения бизнес-задач Apache Kafka для инженеров данных (Core Apache Kafka) Также обновлен ряд наших ранее существовавших образовательных программ, чтобы отразить ключевые изменения в ПО и еще больше адаптировать содержание курсов...
Недавно мы писали про Apache NiFi 1.18. А 28 ноября опубликован новый выпуск - 1.19.0 и спустя немного времени первый баг-фикс к нему. Разбираемся с новинками свежего релиза самого популярного потокового ETL-маршрутизатора: новые процессоры, исправления ошибок и улучшения, о которых следует знать дата-инженеру и администратору кластера. Главные новости Apache NiFi...
Сегодня поговорим про основные программные компоненты и принципы работы Apache AirFlow: как DAG состоит из задач, в чем разница между операторами и датчиками, зачем нужны правила триггеров, а также каким образом фреймворк защищает переменные. DAG и задачи: зависимости, состояния, триггеры Основной концепцией Apache AirFlow является DAG – направленный ациклический граф,...
Чтобы добавить в наши курсы по аналитики больших данных еще больше практически примеров, сегодня рассмотрим, как современные технологий Big Data помогают в реальном времени выявлять телекоммуникационные мошенничества. Почему для антифрод-задач особенно подходит Apache Flink с его потоковом движком обработки данных и за счет чего этот фреймворк такой быстрый. Антифрод в...
В этой статье для обучения ИТ-архитекторов и дата-инженеров сравним 2 подхода к аналитике больших данных, чтобы решить, когда потоковые вычисления, например, средствами ksqlDB в рамках Apache Kafka лучше аналитических баз данных реального времени, таких как Rockset, и наоборот. 2 способа выполнения аналитики больших данных в реальном времени Современный бизнес и...
Недавно мы писали про чтение данных из AWS S3 с помощью PySpark-задний. Продолжая разбираться, как перейти от HDFS к облачным объектным хранилищам, сегодня рассмотрим пример чтения и записи файлов из Google Cloud Storage с помощью Apache Spark. От HDFS к GCS Распределенная файловая система Apache Hadoop (HDFS) уже много лет...
Сегодня заглянем под капот Apache Kafka и рассмотрим, как на программном уровне работает упаковка сообщений от приложения-продюсера в пакеты перед их отправкой в топик платформы. Что такое RecordAccumulator, какие конфигурации с ним связаны и почему такое пакетирование обеспечивает эффективность потоковой обработки данных. Как устроено пакетирование потоковой обработки в Apache Kafka...
29 ноября 2022 года состоялся очередной саммит TAdviser, где выступали ИТ-директора и CEO крупных компаний, а также государственных организаций России. Представители нашего учебного центра побывали на этом событии и отметили следующие тенденции: центральное место на саммите занимали вопросы цифровизации, информационной безопасности и импортозамещения западного ПО российскими наработками и технологиями со...