Страницы
- Usefull
- Авторские курсы Arenadata
- Авторские права
- Блог
- Видео
- Главная
- Карта сайта
- Консалтинг в области аналитики больших данных
- Контакты
- Курсы
- Курсы Apache Kafka
- Курсы Apache Spark
- Курсы Data Science
- Курсы Data Science и Machine Learning на Python
- Курсы greenplum
- Курсы Аналитики данных на Python
- Курсы для инженеров Big Data Science
- Курсы для инженеров данных и администраторов кластера
- Курсы по нейронным сетям и Machine Learning
- Об учебном центре
- Анкета слушателя курса «Школы Больших Данных»
- Государственная лицензия на образовательную деятельность
- История, миссия и ценности ШБД
- Клиенты
- Корпоративное обучение: типовые и кастомные курсы для одного Заказчика
- Митапы
- Партнеры
- Преподаватели
- Проекты
- Регистрация на курсы
- Сертификаты и удостоверения
- Стоимость обучения
- Учебные классы
- Часто задаваемые вопросы (FAQ)
- Политика конфиденциальности
- Положение об обработке персональных данных
- Согласие на обработку персональных данных
- Опрос на 2024 год
- Правила сертификации
- Регистрация
- Сведения об образовательной организации
Статьи по разделам
- Рубрика: Блог
- Кэширование в Databricks SQL
- Моментальные снимки распределенной файловой системы Apache Hadoop: тонкости снапшотов HDFS
- От ETL до EtLT: эволюция в архитектуре конвейеров обработки данных
- Apache CarbonData: еще один колоночный формат для больших данных
- Как построить надежную архитектуру конвейера обработки данных: обработка исключений
- Блеск и нищета микросервисной архитектуры для платформы данных
- От ETL к ELT: архитектура конвейеров обработки данных для дата-инженера
- Целостность и качество данных: ACID и транзакции в мире Big Data
- Зачем вам RawGraphs: визуализация данных в Data Science
- CDC для ETL-процессов в озеро данных: принципы работы, паттерны и ограничения
- Профессиональная вендор-независимая сертификация по продуктам Big Data в 2023 году
- OLAP-базы данных vs потоковые stateful-приложения
- Мю-модель: новая ML-подобная архитектура данных
- ТОП-7 проблем с платформами данных и способы их обойти
- DWH по Кимбаллу и Data Mesh
- Ад зависимостей для Python-разработчика: 4 библиотеки для визуализации графа
- Apache Hadoop 3.3.4: краткий обзор главных обновлений
- Оптимизация аналитических рабочих нагрузок в транзакционных системах с Data Mesh
- Под капотом Process Mining: графовая аналитика для анализа бизнес-процессов
- Безопасность архитектуры данных: проблемы Data Mesh и их решения
- Трудности перехода: миграция данных с HDFS на MinIO
- Идеальная облачная среда озера данных и DaaS: возможности и риски
- Как повысить эффективность HDFS: 4 совета администратору кластера Apache Hadoop
- Как устроено Lakehouse: архитектура и принципы работы
- DWH + Data Lake или что такое LakeHouse
- Что такое наблюдаемость данных и как ее обеспечить
- Потоки и пакеты: сходства, отличия и примеры применения
- Анализ связности направленного графа с библиотекой Networkx в Google Colab
- Data Fabric и Data Mesh: versus или вместе?
- Еще безопаснее: поддержка Kerberos Active Directory в продуктах Arenadata
- Графовая аналитика больших данных с Apache Spark GraphX: что такое Pregel
- Что такое Erasure Coding и как это устроено: под капотом Apache Hadoop HDFS 3.3.1
- Новый релиз Apache Hadoop 3.3.1: ТОП-15 обновлений
- Зачем вам Arenadata Platform Security: ТОП-5 преимуществ корпоративного Apache Ranger для безопасности Hadoop-кластера от отечественного разработчика Big Data решений
- Apache Hadoop 3.2.2 — свежий релиз 2021: краткий обзор главной технологии Big Data
- Почему вам нужны данные как сервис или что такое DaaS
- Простые данные о больших числах или как реализуется нацпрограмма «Цифровая экономика РФ»: успехи, провалы и бюджеты
- Цифровая экономика 2030: что нового в июльском Указе Президента РФ
- Не только HDFS: как Apache Kudu ускоряет аналитику Big Data в Hadoop
- Что такое Data Vault: моделирование КХД для архитектора Big Data
- Кто такой Data Steward: как организовать обеспечение Big Data Quality
- Что общего между Lean в ИТ и ITIL: цифровизация для бережного управления Big Data и наоборот
- Agile и бережливое производство: что общего между Lean и DevOps
- Облачный конвейер аналитики Big Data: что такое Data Fabric
- Что такое BABOK и при чем здесь Big Data
- Чем плоха CAP-теорема: критика и альтернативы для NoSQL и других Big Data систем
- Как работает Apache Cassandra: запись, чтение и другие операции с Big Data в распределенной NoSQL-СУБД
- Раз-два-много: уровни согласованности Apache Cassandra при распределенной обработке Big Data
- ТОП-10 достоинств и 5 главных недостатков Apache Cassandra
- Как защитить Big Data в кластере Kubernetes: лучшие практики, инструменты и приемы DevOps-инженера
- Информационная безопасность для DevOps-инженера в Big Data: ТОП-5 проблем cybersecurity Kubernetes и Docker
- Упакуем все: зачем нужны контейнеры и как с ними работать в Big Data
- Блеск и нищета Kubernetes: достоинства и недостатки самой популярной DevOps-технологии для Big Data систем
- Кто такой Big Data Administrator: профессиональные компетенции администратора больших данных
- Кто такой Data Engineer в Big Data: профессиональные компетенции инженера данных
- Кто такой Data Analyst в Big Data: что нужно знать аналитику данных
- Я в Big Data пойду – пусть меня научат: большие данные — с чего начать
- NoOps: DevOps умер, да здравствует девопс! Новый Agile в облаках
- Чем DevOps-инженер отличается от администратора Big Data и сисадмина
- Как измерить эксплуатационную надежность Big Data и зачем это нужно
- Большая надежность для Big Data: эволюция Agile – SRE после DevOps
- Who is who в Agile-команде Big Data: разбор ролей Data Professional’ов
- Битва инженеров Big Data: DataOps vs DevOps – кто за что отвечает
- Что такое DataOps: зачем Big Data свой DevOps с блокчейном и данными
- 4 простых, но эффективных совета администратору Big Data и не только
- Защити своего слона: 3 инструмента безопасности кластера Hadoop
- Какой Hadoop лучше: сравнение 4 самых популярных дистрибутивов
- Облачный слон для больших данных: обзор 6 популярных Hadoop-решений
- Большие слоны в облаках: плюсы и минусы облачных Hadoop-решений
- Как реплицировать, считать и удалить файлы в HDFS: подробности файловых операций
- Как сохранить большие данные: операция записи файлов Big Data в HDFS
- Как общаются друг с другом компоненты HDFS и почему это так важно для Big Data проектов
- Как и зачем HR использует Big Data: технологии больших данных в управлении человеческими ресурсами
- Как происходит цифровизация: 4 шага к эффективному бизнесу
- Data Lake на 5-ку: озеро данных для зрелой компании
- Как государство хочет облегчить жизнь россиянам с помощью технологий Big Data
- Машинное обучение: наглядные примеры применения
- Рубрика: Новости
- Изменение линейки курсов: Hadoop в архиве
- Открытый митап «Модель Dataflow и паттерны управления пайплайнами обработки данных в Apache Beam в Kubernetes»
- Открытый митап «Модели и паттерны управления приложениями Apache Spark и Apache Flink на Kubernetes»
- Успешный старт нового курса для дата-инженеров на Yandex Managed Service for Apache Airflow™
- Бесплатный митап «Apache Spark на Kubernetes своими руками»
- Международный хакатон «Лидеры цифровой трансформации»
- Бесплатный митап «ELT в эпоху Big Data: что такое Data Build Tool и как это работает»
- Бесплатный митап «Scala как язык разработки Spark-приложений»
- Новая услуга от Школы Больших Данных: консультации наших экспертов по вашим проектам
- Завершаем 2023 год, встречаем 2024!
- Бесплатный митап «Работа с источниками данных в Apache Spark»
- Защита авторских прав и Школа Больших Данных
- Вторая клиентская конференция Arenadata — май 2022
- Бесплатный митап: «Spark или pandas? Spark и pandas!»
- Бесплатный митап «Установка Apache Spark — это просто»
- Бесплатный митап «Apache Spark за 2 часа — для нетерпеливых»
- Бесплатный вебинар по графовым алгоритмам в бизнесе
- Школа Больших Данных знает и защищает свои права!
- Школа Больших Данных теперь и в Telegram, присоединяйтесь!
- 5 часов новых знаний и профессионального опыта от 11 экспертов: первая клиентская конференция Arenadata
- Бесплатный день обучения ЗА ОТЗЫВЫ в 2021 году!
- Внимание, РОЗЫГРЫШ призов!!!
- Вебинар «Цифровая трансформация бизнеса» — что с чем едят!»
- Рубрика: Статьи
- UDF во фреймворках Big Data: благо или необходимое зло?
- Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает
- Как извлечь данные из реляционной базы: основные паттерны
- Изменения в Новом году
- Большие данные и большие планы: TAdviser SummIT 2022
- Школа Больших Данных стала официальным брендом!
- Конкурс для айтишников от Rusbase и ВТБ
- Big Data & AI Conference 2020
- 11 марта Выездной курс по обучению руководителей «Аналитика Больших Данных», Алматы, Казахстан
- Почему вам не помешает изучить каждый открытый курс машинного обучения?
- С чего начинать Big Data обучение?
- Почему полезно пройти курсы по машинному обучению
- Представителям каких профессий не помешает пройти курсы по Big Data?
- Большие данные (Big Data): сферы применения технологии
- Data mining – что это такое?
- Большие данные: общее описание и примеры использования
- Новый курс по безопасности озера данных Hadoop
- 9-я Международная промышленная выставка «Иннопром-2018»
- Новые возможности развития в условиях четвертой промышленной революции
- Рубрика: AirFlow
- Декораторы в Apache AirFlow
- Dataset vs XCom: что выбрать для обмена данными между задачами в Apache AirFlow
- Разработка и добавление своего плагина в Apache AirFlow: практический пример
- Расширение возможностей Apache AirFlow с помощью плагинов
- Управление кодом в Apache AirFlow
- Многопользовательское развертывание Apache AirFlow: проблемы и решения
- Настройка планировщика Apache AirFlow
- ETL по расписанию: 4 способа планирования запусков DAG в Apache AirFlow
- Сериализация в Apache AirFlow
- Apache AirFlow 2.10: что нового?
- Отправка уведомлений в Apache AirFlow
- YAML вместо Python: LowCode-разработка DAG в Apache AirFlow с DAG Factory
- Как написать свой отсроченный оператор Apache AirFlow
- Асинхронные Python-вызовы и отсроченные операторы в Apache AirFlow
- OpenID, Flask-AppBuilder и CVE-2024-25128 в Apache AirFlow
- Пулы и приоритеты задач в Apache AirFlow
- Контекст в Apache AirFlow
- 5 типовых ошибок в Apache AirFlow и как их исправить: советы дата-инженеру
- Интеграция ClickHouse с Apache AirFlow
- TaskFlow API и традиционные операторы Apache AirFlow: совместное использование
- Apache AirFlow 2.9: обзор свежего релиза
- Проектирование raw-слоя DWH для последующего преобразования в Data Vault
- Состояние гонки в ETL-конвейерах: как дата-инженеру избежать коллизий данных
- Тестирование доступности веб-сайта с помощью http-хуков Apache AirFlow
- Как создать и запустить docker-контейнер Apache AirFlow на Windows
- Как сменить SQLLite на PostgreSQL для бэкенда Apache AirFlow
- Аутентификация и авторизация пользователей в Apache AirFlow
- 5 советов начинающему дата-инженеру по AirFlow: личный опыт
- Управление зависимостями: 5 подходов к проектированию конвейеров обработки данных
- Apache AirFlow 2.8: обзор предновогоднего релиза
- Лучшие практики работы с XCom и триггерами в Apache AirFlow: ТОП-10 советов
- Параллельное выполнение задач в DAG Apache AirFlow: практический пример
- Параметры настройки для масштабирования Apache AirFlow
- Масштабирование Apache AirFlow: причины, риски и возможности
- MLOps с Tecton и Apache AirFlow
- Наборы данных в Apache AirFlow и как их использовать
- Из PostgreSQL в Elasticsearch: пишем ETL-процесс в DAG AirFlow и запускаем в Colab
- Как использовать в одном DAG Apache AirFlow задачи из разных Python-файлов
- Уязвимости Apache AirFlow в 2023 году: от средних до критических
- Что такое OpenLineage и как это связано с Apache AirFlow
- Apache AirFlow vs Spark в Databricks для оркестрации рабочих процессов
- Apache AirFlow 2.7: обзор августовского релиза
- Разгружаем PostgreSQL: ETL-конвейер с Apache AirFlow в Google Colab
- ETL для PostgreSQL с Apache AirFlow в Google Colab
- 4 главных недостатка запуска Apache AirFlow в Colab
- Как добавить свое соединение в AirFlow на Colab: DAG с отправкой данных в Телеграм-чат
- Как запустить DAG AirFlow в Google Colab: простой пример
- Как запустить Apache AirFlow в Google Colab с ngrok
- 5 полезных инструментов для работы с Apache AirFlow
- Отладка конвейеров Apache AirFlow с on_failure_callback()
- Apache AirFlow 2.6: что нового?
- Трудности дата-инженерии: отличия от разработки ПО и внедрение CI/CD
- 6 лайфхаков работы с DAG в Apache AirFlow для дата-инженера
- 4 ошибки с DAG в интерфейсе Apache AirFlow и способы их исправления
- 5 типов оповещений Apache AirFlow и их мониторинг в Healthchecks.io
- Отладка конвейеров Apache AirFlow: операторы, кластерные политики и обратные вызовы задач
- Устранение зависших в очереди задач: новинки будущего релиза Apache AirFlow 2.6.0
- Создаем свой оператор Apache AirFlow с ChatGPT
- Как создать свой оператор и использовать обратные вызовы в Apache AirFlow
- Бизнес-логика в DAG Apache AirFlow c ShortCircuitOperator
- Удаленные исполнители задач Apache AirFlow: Celery vs Kubernetes
- Зачем и как совмещать dbt с Apache AirFlow?
- Вперед в прошлое: backfill для DAG в Apache AirFlow
- Тонкости управления задачами в Apache AirFlow: лайфхаки для дата-инженера
- ТОП-7 практик работы с DAG в Apache AirFlow для дата-инженера
- Советы дата-инженеру: теги DAG в Apache AirFlow и качество конвейера данных
- Зомби-задачи в Apache AirFlow: как их обнаружить и убить окончательно
- 5 способов организовать динамическое изменение DAG в Apache AirFlow
- CDC с Kestra вместо Debezium с Kafka Connect
- MLOps с Apache AirFlow: оркестрация ML-конвейеров
- Apache AirFlow 2.5: декабрьский выпуск
- От задач до триггеров: краткий ликбез по программным компонентам Apache AirFlow
- Soda для надежности и качества данных с Apache AirFlow и другими ETL-оркестраторами
- Микросервисная архитектура в Big Data и способы ее реализации
- Трудности выбора в MLOps: оркестрация ML-конвейеров с Vertex AI Pipelines и Apache AirFlow
- Apache AirFlow 2.4: новинки осенних релизов
- Динамическое изменение DAG Apache AirFlow через файл с плоской структурой
- Обновление Apache AirFlow : самое важное для дата-инженера и администратора
- Обмен данными между задачами в Apache AirFlow через XCom: достоинства и ограничения
- Профилирование данных и повышение качества DAG-конвейеров Apache AirFlow с Whylogs
- Сине-зеленое развертывание ETL-процессов с группами задач Apache AirFlow
- 3 способа совместного использования DAG-файлов в Apache AirFlow на Kubernetes
- Чем Apache Airflow лучше cron и как на него перейти
- Ускорение загрузки и парсинга DAG-файлов в Apache AirFlow на Kubernetes
- Битва ETL-инструментов: AWS Step Functions vs. Apache Airflow
- Программный запуск DAG Apache AirFlow через REST API
- Интеграционное тестирование DAG в Apache AirFlow
- Модульное тестирование условной логики DAG в Apache AirFlow
- Как построить логически сложный ETL-конвейер: ветвления DAG в Apache AirFlow
- SIGTERM в Apache Airflow: 4 причины сбоя задач и способы их исправления
- Атомарность и идемпотентность в Apache AirFlow
- Динамическое сопоставление задач в Apache AirFlow 2.3
- Apache Airflow 2.3: что нового?
- CI/CD для дата-инженера: разработка DAG и развертывание в среде Airflow с GitLab
- Еще 3 совета Astronomer для лучшей оркестрации данных с Apache AirFlow
- ТОП-3 практики оркестрации данных с Apache AirFlow: советы Astronomer
- Автосоздание CLI в Apache Airflow с Python Fire вместо Python-оператора
- Бессерверный Apache Spark в Google Dataproc
- Istio для Apache Airflow в Kubernetes: проблемы и решения
- Самообслуживаемый ETL-конвейер с Apache Airflow и Amazon Athena: кейс hipages
- Всему свое время: запуск DAG Apache Airflow по расписанию
- Краткий обзор Apache Airflow Helm chart 1.5.0
- Модульные тесты для DAG в Apache Airflow: примеры и лучшие практики
- Внешний датчик в Apache Airflow для поэтапной загрузки данных в таблицы DWH
- MLOps на AirFlow, MLFlow и сервисах AWS с экономией на облачном кластере за счет Spark 3
- Apache Airflow 2.2.0: что нового?
- Как создать собственный сенсор Apache Airflow: пример
- От AWS EMR к Apache Spark 3 на Kubernetes в маркетплейсе Joom
- Современная инженерия данных: от Data Lake к облачной Лямбда
- Автомасштабирование подов Apache Airflow в Kubernetes по StatsD-метрикам из Datadog
- Мониторинг Apache Airflow через Slack
- Синергия Apache Airflow и Great Expectations для высокого качества больших данных
- Apache Airflow vs Beam: сходства и отличия
- Управление зависимостями между конвейерами данных в Apache Airflow и Prefect
- Управление жизненным циклом конвейеров Apache Airflow: советы дата-инженеров Databand
- Польза умных сенсоров Apache Airflow: Smart Sensor для LRLW-задач
- Комбо Apache Airflow и NiFi для запланированного запуска ETL-конвейеров: практическая инженерия Big Data
- Синергия Apache Airflow и Ray для MLOps-конвейеров: инженерия Data Science
- Соединения и хуки в Apache Airflow: разбираем на примере SQLite
- Как задачи в Airflow взаимодействуют друг с другом через XCom и Variables
- 3 Р для контроля доступа к DAG’ам в Apache AirFlow: роли, ресурсы, разрешения
- Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum
- Запуск зависимых графов Apache Airflow
- Что такое Apache Hop: еще одна альтернатива AirFlow
- Строим масштабируемые ETL/ELT-конвейеры обработки данных с Apache Spark и AirFlow: 4 совета дата-инженеру
- Airflow и TaskFlow: композиция операторов и задач с TaskGroup
- Создавайте графы в Apache Airflow с помощью TaskFlow API
- Начало работы с Apache Airflow
- 2 способа установки Apache Airflow
- Как Apache AirFlow под капотом Zapier обеспечивает low-code интеграцию веб-приложений
- Как упростить загрузку данных в Data Lake с Apache AirFlow
- В помощь дата-инженеру: 3 главных плюса реестра провайдеров Apache Airflow от Astronomer
- Динамическая генерация DAG в Apache Airflow: 5 способов автоматизации рутинных задач
- Лучшие практики разработки Big Data pipeline’ов в Apache Airflow: 10 советов дата-инженеру
- Кастомизация Apache Airflow: мониторинг исполнения Big Data pipeline’ов со своими KPI
- В помощь дата-инженеру: 3 DAG для самообслуживания Apache Airflow
- Совершенно секретно: 5 советов по управлению секретами в Apache Airflow
- Как повысить эффективность Apache Airflow в 3 раза с помощью прокси-сервера RDS
- Не только AirFlow: как упростить тестирование и отладку Big Data конвейеров из Spark-приложений с Dagster
- Практическая дата-инженерия: мониторинг data pipeline’ов в Apache Airflow и Dagster
- Планируем и запускаем дата-конвейеры с Apache AirFlow и Dagster
- Apache AirFlow vs Dagster: еще одно сравнение Big Data и ML-оркестраторов
- Аналитика больших данных с Apache Airflow без дата-инженера: Viewflow от DataCamp
- 3 оператора Apache Airflow для контейнерных конвейеров данных
- Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера
- Разделяй и властвуй: управление зависимыми DAG в Apache AirFlow
- 15 советов по работе с DAG в Apache AirFlow: лучшие практики дата-инженера
- 5 преимуществ разделения пакетов в Apache AirFlow 2.0 или как создать свой провайдер с блэкджеком и хуками
- 3 новинки для DAG в Apache AirFlow 2.0
- Насколько ты знаком с Apache AirFlow: открытый тест для инженеров Big Data
- Как протестировать Big Data Pipeline: тесты для Hadoop-конвейеров в Spark и Airflow
- Сложности перехода: 3 проблемы миграции на Apache AirFlow 2.0 и их решения
- Apache AirFlow 2.0: что нового?
- 10 вопросов на знание основ Big Data: открытый интерактивный тест для начинающих
- Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality
- Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline’ов
- Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline’ов
- 5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc
- Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами
- Почему ваш Big Data Pipeline такой медленный: 5 причин роста накладных расходов на примере использования Apache AirFlow в Airbnb
- Как не наступить на 10 главных граблей Apache Airflow в production: разбираемся на практических примерах
- Что под капотом Apache Livy: принципы и особенности работы со Spark
- Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов
- Что такое Airflow Executor: 5 исполнителей задач и 2 их основных ограничения
- AirFlow KubernetesExecutor: 3 способа запуска и 4 главных плюса для DevOps-инженера
- Что такое AirFlow Kubernetes Operator и как это работает: обзор решений от K8s и Google
- AirFlow на Kubernetes: DevOps-подход к автоматизации batch-процессов в Big Data
- 7 достоинств и 5 недостатков Apache AirFlow
- ETL для пакетов Big Data: 3 примера использования Apache AirFlow
- Apache Airflow
- Что такое AirFlow?
- Рубрика: ClickHouse
- Векторизация и диспетчеризация ЦП в Clickhouse
- Телеметрия с Clickhouse
- Новинки Clickhouse 24.9
- Двухзвенная архитектура: одностраничные веб-приложения с Clickhouse
- Зачем вам Chdb или как работать с Clickhouse без развертывания сервера СУБД
- 5 причин использовать Clickhouse для ML-задач
- Clickhouse 24.8: обзор очередного релиза
- Clickhouse 24.7: главные новинки свежего релиза
- Оптимальная сортировка таблиц Clickhouse: улучшения ORDER BY в релизе 24.6
- Тонкости агрегации в ClickHouse: как избежать OOM-ошибки с GROUP BY?
- Транзакции в ClickHouse
- Индексы в ClickHouse
- Модификатор FINAL в ClickHouse: как не выстрелить себе в ногу?
- Оптимизация производительности ClickHouse: ребалансировка шардов и профилирование запросов
- Интеграция ClickHouse с Apache NiFi
- Управление ресурсами и планирование рабочей нагрузки в ClickHouse
- Задержка интеграции ClickHouse с Apache Kafka и как ее снизить
- Управление ресурсами и планирование рабочей нагрузки в ClickHouse
- Кэширование в ClickHouse
- Апрельский релиз ClickHouse 24.4
- Интеграция ClickHouse с Apache Kafka и Yandex.Datalens: интерактивная аналитика
- Интеграция ClickHouse с RockDB: практический пример
- Как масштабировать ClickHouse: тонкости шардирования
- Движки таблиц в ClickHouse: что и когда выбирать
- 3 вида представлений в ClickHouse
- Анализ временных рядов в ClickHouse и Greenplum
- Словари в ClickHouse
- SQL-запросы к Clickhouse в онлайн-песочнице: практический пример
- Greenplum vs Clickhouse: сравнение аналитических СУБД для Big Data
- Что не так с ClickHouse: 10 главных недостатков
- За что все его так любят: ТОП-5 достоинств ClickHouse для Big Data
- 3 проблемы движка интеграции ClickHouse с Kafka и способы их решения
- ClickHouse + Kafka: 5 примеров совместного использования и особенности интеграционного движка
- Очень быстрая аналитика больших данных: Arenadata QuickMarts и яндексовский ClickHouse
- Рубрика: Flink
- Гибридный источник данных Apache Flink
- Предварительный релиз Apache Flink 2.0: что нового?
- Зачем вам Fluss: новое унифицированное потоковое хранилище для работы с Apache Flink
- Как RSS-служба Apache Flink реализует обмен данными в распределенной среде
- Как Apache Flink восстанавливает пакетные задания после сбоя JobMaster?
- Разделение DataStream в Apache Flink на побочные выходные потоки
- Детерминизм непрерывных запросов в Apache Flink и проблема его отсутствия
- От DataSet к DataStream: миграция API в Apache Flink
- Apache Flink 1.20: обзор свежего выпуска
- Расширенные функции Apache Flink
- Асинхронные операции ввода/вывода в Apache Flink
- Внешние ресурсы и пользовательская обработка отказов в Apache Flink
- Чек-лист перед запуском приложения Apache Flink в производство
- OLAP-сервис Apache Flink
- Apache Flink 1.19: что нового?
- Потоковая обработка данных из PostgreSQL с Flink SQL на платформе Ververica Cloud
- 4 модели потоковой парадигмы обработки данных
- Планирование заданий в Apache Flink: 4 реализации планировщика
- Зачем Ververica Cloud заменила RocksDB на GeminiStateBackend для stateful-приложений Apache Flink
- Обратное давление в потоковой передаче событий
- Что нас ждет в Apache Flink 2.0: обзор главных фич мажорного релиза
- Еще одна архитектура данных: Streamhouse с Apache Paimon
- Что обеспечивает высокую доступность приложений Apache Flink
- Возможности Apache Flink для разработчика: 3 API фреймворка
- Под капотом задания Apache Flink: 3 этапа преобразования
- Оптимизация использования RocksDB и параллелизма в Apache Flink
- Apache Flink 1.18: что нового?
- Еще 3 рекомендации для потоковых конвейеров Apache Flink
- От профилирования до загрузки классов: 3 совета по оптимизации Flink-приложений
- Как настроить потоковый конвейер Flink-приложений по рабочей нагрузке
- Сетевые буферы в Apache Flink: что это такое и при чем здесь контрольные точки
- Что такое Apache Flink Stateful Functions и как это использовать?
- Почему производительность Apache Flink выше Spark: 5 главных причин
- 2 режима развертывания приложений Apache Flink: что и когда выбирать
- Как Apache Flink работает с файловыми системами
- Обогащение потока данных в Apache Flink: 3 способа добавить эталонные значения
- Под капотом PyFlink: как работает Python-интерфейс Apache Flink
- Как ускорить выполнение заданий Apache Flink с помощью спекулятивного выполнения
- Как ускорить JOIN-запросы с перекосом данных: мини-пакетная агрегация в Apache Flink SQL
- Машинное обучение с Apache Flink: основные концепции ML-библиотеки
- Гибридный режим пакетных shuffle-операций в Apache Flink
- Создание и тестирование источника данных в Apache Flink
- Из Kafka во Flink: пишем Python-приложение
- Под капотом табличного хранилища Apache Flink
- Тестовые наборы для проверки UDF-функций Flink-приложения
- Как на лету обогатить поток данных Flink с использованием внешнего API
- Мониторинг загрузки ЦП для приложений Apache Flink с Flame Graph
- Журнал изменений для контрольных точек в Apache Flink
- Знакомство с DataStream API в Apache Flink: запуск PyFlink-скрипта в Google Colab
- Потоковые режимы коннектора Flink SQL к Kafka
- Мартовский выпуск Apache Flink: обзор релиза 1.17.0
- Где лучше запустить Flink-приложение: Kubernetes vs AWS EMR
- Flink + dbt: разбор адаптера для SQL-конвейеров от GetInData
- Как настроить Flink-приложение для потокового потребления данных из топиков Kafka
- Тонкости тестирования приложений Apache Flink SQL
- Устраняем дубли в потоковых данных с Apache Flink SQL
- Apache Flink 1.16.0: обзор релиза
- Управление памятью в Apache Flink
- Flink + Kafka: Confluent купил Immerok
- Как Apache Flink использует Calcite для выполнения SQL-запросов
- Тонкости оптимизации SQL-запросов в Apache Flink с Calcite
- Автомасштабирование и развертывание Apache Flink в GCP
- Выявление мошенничества в реальном времени с Apache Flink
- Перекосы данных в Apache Flink и что с ними делать: MapReduce Combiner и Bundle оператор
- Под капотом источников данных Apache Flink
- Как оптимизировать приложения Apache Flink в production: 5 советов инженеру
- Строго однократная доставка сообщений в потоковой обработке данных с Apache Flink и Kafka
- MLOps для Apache Flink с MLeap
- Потоковый CEP и CDC с Apache Flink SQL: JDBC-коннектор от GetIndata
- Окна и водяные знаки: потоковая обработка данных с Apache Flink
- Применение SeaTunnel для управления SQL-заданиями Apache Flink и Spark
- Оконные операции в Apache Flink: краткий ликбез для дата-инженера
- Под капотом HTTP-коннектора к Flink SQL от GetInData: REST и HATEOAS
- Потоковое обогащение данных с Flink SQL данными из внешнего сервиса по REST API
- Поиск событийных цепочек в реальном времени с CEP-библиотекой Apache Flink
- Как развернуть Apache Flink на Kubernetes: 4 способа
- 3 проблемы Flink-приложений на Kubernetes и способы их решения
- Мониторинг Flink-приложений: метрики JVM и RocksDB
- Мониторинг задержки в приложениях Apache Flink
- Мониторинг приложений Apache Flink: метрики и инструменты
- 3 режима восстановления и форматы точек сохранения в Apache Flink 1.15
- Табличное хранилище Apache Flink
- Новинки Apache Flink 1.15: краткий обзор
- Управление перемешиванием данных во время выполнения Flink-приложений
- Обнаружение мошенничества при скимминге банковских карт c Apache Kafka, Flink и HBase
- 2 подхода к динамической фильтрации потоковых данных в Apache Flink
- Потоковая аналитика пользовательских сеансов с Apache Flink на примере Wynk
- Лямбда-архитектура IoT-системы на Apache Kafka, Flink и Cassandra
- Автоматическая диагностика и исправление сбоев в платформе данных Netflix c Apache Spark, Kafka, Flink и другими технологиями Big Data
- Потоковый веб-парсинг на Apache Flink + RabbitMQ: кейс от дата-инженеров FiscalNote
- Savepoint vs Checkpoint в Apache Flink: сходства и отличия
- Управление состояниями в Apache Flink: краткий ликбез
- Дыра в Apache Log4j: опасность для Hadoop, Spark, Kafka, Neo4j и других технологий Big Data
- Потоки и пакеты: унифицированная аналитика больших данных c Apache Flink в Pinterest
- Система обнаружения простоев онлайн-платежей на Apache Flink и Kafka: кейс Razorpay
- Один на всех: реализация единого API для унифицированной аналитики больших данных c Apache Flink и Kafka в Pinterest
- Apache Flink 1.14: что нового?
- Не только Apache Kafka и Spark Streaming: 3 платформы потоковой аналитики больших данных
- Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka
- Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group
- Как рассчитать конверсию контекстной рекламы с помощью Apache Flink SQL: практический пример
- Потоковая аналитика больших данных в Grafana с Apache Kafka, Flink и SQL Stream Builder
- Как Byteman упрощает разработку и отладку приложений Apache Flink
- Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD
- RocksDB как хранилище состояний для stateful-приложений Apache Flink
- Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами
- Apache Kafka Streams, Spark Streaming, Flink, Storm или Samza: что и когда выбирать для обработки потоков Big Data
- Сходства и различия популярных Big Data фреймворков распределенной потоковой обработки: сравниваем Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza
- Apache Flink vs Spark: что и когда выбрать для потоковой обработки Big Data
- Рубрика: Greenplum
- Интерконнекты Greenplum и как их ускорить
- Идемпотентность и волатильность функций в Greenplum и PostgreSQL
- Настройка автоочистки таблиц системного каталога в Greenplum
- Машинное обучение в Greenplum: агенты и расширения
- Внешние веб-таблицы в Greenplum и 2 способа их создания
- Greenplum 7.2: обзор июльского релиза
- Транзакции и блокировки в Greenplum
- Выгрузка данных из Greenplum с GPSS
- Обработка XML-документов в Greenplum
- Параллельная обработка SQL-запросов в Greenplum
- Индексация JSON-документов в Greenplum
- Внешние и сторонние таблицы Greenplum: external vs foreign
- 5 шагов проектирования DWH с подходом Data Vault: практический пример
- Администрирование Greenplum с помощью утилиты gpsupport
- Подходы к реализации CDC на примере Greenplum и PostgreSQL
- Как повысить эффективность утилизации диска в Greenplum с расширением Diskquota
- Миграция данных в Greenplum: риски и возможности
- Как управлять Greenplum с VMware Command Center
- Еще 11 конфигураций для повышения эффективности Greenplum 7
- Тюнинг Greenplum 7: 12 конфигураций для администратора и дата-инженера
- Машинное обучение с Greenplum: обзор ML-расширений
- ТОП-5 советов по эффективному управлению данными в Greenplum
- Сжатие данных в Greenplum
- Параллельное восстановление таблицы из резервной копии базы в Greenplum
- Как организовать мониторинг системных метрик Greenplum: подходы и инструменты
- Изменение таблиц в Greenplum 7 без их перезаписи
- Расширение возможностей Greenplum с фоновыми рабочими процессами и GPPC API
- JIT-компиляция SQL-запросов в Greenplum
- Танцы с зеркалами или как восстановить кластер Greenplum после сбоя
- PL/Container для Greenplum: безопасный запуск UDF в Docker-контейнере
- Как подключиться к Greenplum: обзор клиентов и настройка конфигураций
- Хранение и обработка JSON-документов в Greenplum
- Генерируемые столбцы в Greenplum 7: возможности и ограничения
- Хранимые процедуры и триггеры в Greenplum
- Python для Greenplum: обработка миллионов строк внутри БД с новой библиотекой
- Распределенные снапсшоты в Greenplum для производительности и надежности
- Графовая аналитика в Greenplum и PostgreSQL: обзор расширений и возможностей
- EDA-архитектура данных в DWH: моделирование и реализация
- Обработка геоданных в Greenplum с PostGIS
- Распределенные транзакции в Greenplum
- Колоночные и строковые: виды хранения данных в СУБД
- Еще больше больших данных: масштабирование кластера Greenplum
- Разделы таблиц в Greenplum 7: новинки и возможности
- Кластеризация AO/CO-таблиц в Greenplum 7
- Сборка мусора и очистка таблиц в Greenplum с командой VACUUM
- Greenplum 7: краткий обзор бета-релиза
- Новые методы доступа к таблицам в Greenplum 7
- Каталоги, хранилища и витрины данных: принципы, практики и инструменты проектирования
- Индексация таблиц в Greenplum
- Шардирование в Greenplum
- Greenplum 6.22.2: ноябрьский релиз
- Шифрование данных в Greenplum с расширением pgcrypto
- Greenplum 6.22: краткий обзор осенних обновлений
- Разделение и распределение данных в Greenplum: лучшие практики
- 3 аспекта проектирования схем данных в Greenplum
- 4 серьезных уязвимости Greenplum и PostgreSQL за 2 последние года
- Greenplum 6.21.1: обзор свежего релиза
- Реализация LakeHouse на Greenplum и Cloudian HyperStore Object Storage
- Как ускорить Greenplum с Heimdall Database Proxy: лайфхак для администратора
- Улучшение совместимости Greenplum и HDFS благодаря записи/чтению AVRO-файлов с PXF
- Greenplum 6.21.0: новые фичи и исправления ошибок
- Greenplum + Python: обзор расширения
- 5 способов организации ETL-процессов с Greenplum: команды и утилиты
- Как связать Greenplum и Hadoop: интеграция c PXF
- Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива
- Greenplum 6.20: что нового?
- Не просто Apache Solr: краткий обзор Tanzu Greenplum Text
- Зачем вам GreenplumR: синергия MPP-СУБД и интерпретируемого языка для статистики
- Не только PXF: краткий обзор интеграции Greenplum с другими Big Data системами и инструменты полнотекстового поиска
- Где развернуть Greenplum: программно-аппаратное окружение серверов и достоинства Arenadata DB для администратора кластера
- Greenplum под защитой: настраиваем Kerberos
- Диску больше не наливать: проблема spill-файлов в Greenplum
- Greenplum с PXF и глубокое обучение в Apache MADlib для классификации изображений
- PXF, Greenplum и оптимизация SQL-запросов к разным источникам данных
- Как устроен PXF Greenplum: архитектура и принципы работы
- 5 главных плюсов облачного развертывания VMware Tanzu Greenplum
- Еще пара лучших практик конфигурирования Greenplum: настраиваем параметры операционной системы хоста
- 3 совета администратору Greenplum: лучшие практики настройки кластера
- Как лучше настроить GPORCA для оптимизации SQL-запросов в Greenplum
- Greenplum vs PostgreSQL: 7 сходств и 3 отличия
- Как GPORCA ускоряет аналитику больших данных в Greenplum: оптимизация SQL-запросов с JOIN и немного математики
- ADB-Spark Connector: интеграция Spark и Greenplum от Аренадата
- Читаем планы SQL-запросов Greenplum на практическом примере и разбираемся с операциями
- Как читать планы SQL-запросов в Greenplum: советы аналитику и дата-инженеру
- Анализируй и оптимизируй: статистика таблиц и планы выполнения SQL-запросов в Greenplum
- От простой вставки до внешних таблиц: как загрузить Big Data в Greenplum
- Как ускорить Greenplum: настраиваем память хостов и сегментов
- Большие данные под защитой: лучшие практики cybersecurity в Greenplum
- Помнить все: 10 практик устранения нехватки памяти в Greenplum и 2 схемы управления ресурсами кластера
- 3 технологии высокой доступности Greenplum для администратора Big Data кластера
- Как построить OLAP-конвейер в реальном времени на Greenplum и Apache NiFi: разбор интеграционного коннектора для приема больших данных
- Трудности перекоса: как устранить неравномерность данных и вычислений в Greenplum
- Партиционирование таблиц в Greenplum: 10 лучших практик и особенности распределения по сегментам
- Индексируем и сжимаем: особенности хранения и аналитики Big Data в Greenplum
- Как хранить большие данных в Greenplum: ТОП-15 рекомендаций
- Комбо Apache Spark и Greenplum для быстрой аналитики больших данных: разбор интеграционного коннектора
- Как связать Greenplum и Kafka: 2 способа интеграции и коннектор Arenadata DB
- Зелено – не молодо: как устроена MPP-СУБД Greenplum
- 3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum
- Еще больше данных для торговой аналитики: Arenadata в Х5 Retail Group
- Завод, телеком и госсектор: 3 примера внедрения Arenadata
- От банков до Газпрома: 4 крупных успеха Arenadata – интересные кейсы за последнюю пару лет
- Рубрика: HBase
- Как устроен HFile: тонкости хранения данных в Apache HBase
- Apache HBase vs Google BigTable: сходства и различия, варианты использования
- Apache HBase vs Redis: сходства и различия, варианты использования
- Преимущества Apache HBase для метода ближайших соседей
- Безопасность данных в Apache HBase
- Горячие точки в Apache HBase и 7 способов их устранения
- Инкрементный бэкап и стратегия восстановления таблиц в Apache HBase
- Под капотом NoSQL-СУБД: чем полезно LSM-дерево
- Как соединить таблицы в Apache HBase: JOIN в NoSQL
- Регулярные выражения в Apache HBase
- Сбалансированная изоляция данных в мультиарендном кластере Apache HBase: опыт Flipkart
- Миграция с Apache HBase в TiDB: кейс Pinterest
- Большая проблема маленьких файлов в Apache Hadoop HDFS
- Отказоустойчивое распределение данных в Apache HBase
- Как реализуются ACID-свойства транзакций в Apache HBase
- 10 лучших практик для повышения эффективности Apache HBase
- Детективная история про SCR-конфигурации HDFS в региональных серверах Apache HBase
- Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов
- Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix
- Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и с Phoenix: кейс Salesforce
- Сложности индексации таблиц Apache HBase и способы их обхода с Phoenix
- SQL-запросы к Apache HBase через Phoenix с HUE
- Сложности перехода: миграция из Apache HBase в Google BigTable – кейс компании Box
- Инкрементное резервное копирование таблиц HBase и аварийное восстановление с AWS S3
- Масштабируемая индексация Apache HBase почти в реальном времени: кейс Pinterest
- От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark
- Apache Cassandra vs HBase: что и когда выбирать для NoSQL в Big Data
- Apache Cassandra и HBase: конкуренты или альтернативы – 10 ключевых сходств и отличий
- 7 основных преимуществ и пара недостатков Apache HBase для Big Data систем
- Птичка + рыбка: синергия Apache Phoenix и HBase для быстрой SQL-аналитики Big Data в Hadoop
- Рубрика: Hive
- SQL-on-Hadoop: Apache Hive vs Pig
- Зачем вам WebHCat – REST API к HCatalog в Apache Hive
- Apache Hive 4.0.0-alpha-2: что нового?
- Как запустить службу внешнего хранилища метаданных Apache Hive в AWS EKS
- Как перейти от Apache Hive к Iceberg: стратегии миграции данных
- Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive
- ETL-конвейер передачи данных из MySQL в Hive с Apache NiFi
- От Apache Hive к Iceberg и Spark: модернизация озера данных в Airbnb
- Абсолютно безопасно: 3 security-кита в Apache Hive
- Быстрая индексация данных в HDFS, Hadoop и Spark с библиотекой Dione от PayPal
- Материализованные представления в Apache Hive
- Сериализация данных в Apache Hive
- Как LLAP ускоряет выполнение SQL-запросов в Apache Hive
- 5 лайфхаков по Apache Hive для инженера данных и специалиста по Data Science
- Apache Hive 3.1.3: обзор обновлений от 8 апреля 2022
- 7 приемов оптимизации SQL-запросов в Apache Hive с движком Tez
- Тонкости Map Join в Apache Hive
- Как связать Apache Kafka с Hive: разбор интеграционного коннектора
- Интеграция Apache NiFi и Hive в ETL-конвейере
- Настройка кластера Apache Spark и Hive на Hadoop
- От Derby к Hive: хранилище метаданных для Apache Spark
- Apache Spark и Hive для обработки партиционированных Parquet-файлов
- Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark
- Не только SQL-операторы: Transform для манипулирования данными в Apache Hive
- Дедупликация, нумерация и ранжирование строк в Apache Hive
- Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора
- Преобразования типов в SQL-запросов Apache Hive и не только: сравнение разных версий и СУБД
- Обработка вложенных структур в JSON-файлах для Hive Metastore c Apache Spark
- UDF в Apache Hive: создание, регистрация и эксплуатация
- Базовые DDL-операции в Apache Hive: основы NoSQL Big Data для начинающих
- Базовые DML-операции в Apache Hive: основы NoSQL Big Data для начинающих
- Зачем нужна статистика таблиц Apache Hive и как ее собрать
- Как получить доступ к данным в AWS S3 из кластера Apache Hadoop через Hive и Spark
- ACID-транзакции в Apache Hive: настройка, принципы работы и ограничения
- Потоковая аналитика больших данных в Udemy: система отслеживания событий на Apache Hive и Kafka в AWS
- Бакетирование vs партиционирование в Apache Hive и Spark
- Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает
- Что такое индекс и почему его использование так важно при работе в Hive
- Перспективы Apache Hive: развитие или забвение?
- Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD
- Зачем вам Beekeeper или как очистить метаданные таблицы Apache Hive
- Что такое драйвер JDBC и почему он важен для распределенной работы в Hive
- Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3
- Tez vs Spark: что выбрать для Apache Hive
- Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации
- Основные join-операции в Apache Hive: основы NoSQL Big Data для начинающих
- Зачем вам Hue или как писать SQL-запросы к Apache Spark еще проще
- Еще 4 особенности бакетирования таблиц в Apache Spark и 7 конфигураций их настройки
- Apache Spark для дата-инженеров: трудности бакетирования и способы их решения
- 3 задания по Apache Hadoop для чайников: развлекательная проверка знаний
- Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto
- Как работают пользовательские функции в Apache Hive
- Что под капотом ретаргетинга: прогнозирование намерений пользователя с Apache Hadoop и Spark Structured Streaming на сервисах Amazon
- Какие бывают таблицы для быстрой работы с Big Data в Hive
- Архитектура СУБД Apache Hive: основы Big Data для начинающих
- Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами
- Как работает облачная аналитика больших данных на Apache Hadoop и Spark в Dataproc
- Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения
- Как сократить цикл BI-аналитики Big Data в тысячи раз или ETL-конвейер Apache Kafka-Storm-Kudu-Impala в Xiaomi
- Быстрая аналитика больших данных в Data Lake на Apache Kudu с Kafka и Spark
- Синергия Apache Kudu с HDFS и Impala для быстрой аналитики Big Data в Hadoop
- Самостоятельная и независимая аналитика больших данных: разбираемся с self-service BI для Big Data
- От косметики до машиностроения: 3 кейса внедрения технологий Big Data на примере Data Lake
- Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА
- Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data
- Интеграция Elasticsearch с Apache Hadoop: примеры и особенности
- 5 достоинств и 2 недостатка Data Vault для КХД и архитектора Big Data
- Современное КХД в облаках: гибриды, лямбда, MPP и прочая Big Data
- Не Hadoop’ом единым: что такое КХД и как его связать с Big Data
- Apache Drill vs Cloudera Impala: SQL-аналитика Big Data не только в Hadoop
- Что выбрать для SQL-аналитики Big Data в Hadoop: Apache Hive или Cloudera Impala
- Как защитить Big Data в Hive и Impala: проблема безопасности в SQL-on-Hadoop
- Что такое HiveQL: SQL для Big Data в Apache Hadoop — как работают Hive и Impala
- Hive vs Impala: сходства и различия SQL-инструментов для Apache Hadoop
- Hive и Impala: коллеги или конкуренты – обзор SQL-инструментов для Apache Hadoop
- Apache NiFi vs StreamSets Data Collector: выбираем ETL-средство для Big Data и IoT/IIoT
- Что такое Apache Chukwa, Sqoop и Falcon: сравнение 3-х пакетных ETL-средств для Big Data
- Какие бывают форматы файлов Big Data: row vs column
- Сложно, дорого, универсально: 3 мифа о Hadoop и их опровержения
- Оптимизация запросов JOIN в Apache HIVE
- Рубрика: Internet of Things
- Как работать с протоколом MQTT в Apache NiFi: потоковая обработка данных для IoT
- Выгодно и быстро: потоковая обработка миллионов событий в AWS с Apache Kafka
- MLOps и ТОП-7 фреймворков для федеративного машинного обучения
- Легковесный Apache NiFi для IoT: Docker-образ MiNiFi на Raspberry PI4 ARM64
- Сложная обработка событий от IoT-устройств в Apache Kafka: кейс Tesla
- Безопасность в режиме онлайн: SIEM-система на базе Apache NiFi от Cloudera
- Управление множеством IoT-устройств в Tesla на платформе Apache Kafka: организация топиков и парсинг сообщений
- Миллион проблем IoT и Apache Kafka для их решения: опыт Tesla
- Цифровизация рабочего пространства: ТОП-3 тенденции 2020
- Зачем вам Tarantool: разгоняем большие данные с помощью In-Memory database
- Что такое лямбда-архитектура: основы Big Data для начинающих
- Как сделать город безопасным: Big Data и Machine Learning против преступности
- Красивая Big Data и модный Machine Learning: 15 историй из мира fashion
- Хайп вокруг Big Data с Machine Learning: прогнозы Gartner и российские реалии
- 5 угроз, от которых искусственный интеллект защитит человечество, провоцируя множество новых
- Какая бывает аналитика: предиктивная, описательная и еще 2 вида аналитики больших данных
- Что такое CATWOE и как это использовать для цифровизации и других Big Data проектов
- Биометрия, GDPR, 152-ФЗ и все-все-все: как и зачем Big Data с Machine Learning сканируют наши лица и отпечатки пальцев
- Реальная цифровизация: 7 примеров эффективного внедрения Big Data, PLM и IIoT в промышленности
- Цифровизация производства и цифровые двойники: объединяем PLM, IoT и Big Data
- 10 примеров применения Apache Cassandra в 5 направлениях Big Data
- Apache Flume vs NiFi и еще 2 потоковые ETL-платформы Big Data и IoT/IIoT
- Не только Apache NiFi: еще 6 ETL-фреймворков загрузки и маршрутизации данных в Big Data и IoT
- Что не так с Apache NiFi: 5 главных недостатков, важных в Big Data и IoT-проектах
- Чем хорош Apache NiFi: 10 главных достоинств для применения в Big Data и IoT-проектах
- Блокчейн, озеро данных и еще 3 кейса Apache NiFi в комплексных Big Data системах
- Как построить IIoT-систему на базе Apache Nifi: разбираем прототип
- IIoT-интеграция АСУТП и Big Data: зачем это нужно и почему это сложно
- Кто стоит за Industrial Internet of Things в России: государство, бизнес и еще 5 ключевых факторов развития отечественного IIoT-рынка
- Что сдерживает развитие IIoT в России: 7 ключевых факторов
- Реалии и перспективы современного IIoT-рынка в России
- 5 главных трендов Internet of Things на ближайшие 5 лет
- Как Apache Kafka Streams API помогает DevOps-инженеру Big Data систем
- Как Machine Learning помогает бизнесу зарабатывать на погоде: Big Data и метеомаркетинг
- И чем же она хороша: ТОП-10 достоинств Apache Kafka для Big Data систем
- Как связаны Apache Kafka и Machine Learning: архитектура Big Data и IoT-систем
- Алиса посылает Бобу сообщение: криптография в IoT и Big Data системах
- Сетевая безопасность IoT-систем: IPv6 и криптография микроконтроллеров
- Как сделать интернет вещей безопасным: 3 вида cybersecurity в Big Data
- DDos-атака от видеоняни: информационная безопасность IoT и Big Data
- Big Data-облака интернета вещей: что такое IoT-платформы и зачем они
- Как интернет вещей использует Big Data: архитектура IoT-систем
- Промышленный интернет вещей: 4 кейса применения Big Data в индустрии
- Как Big Data с Machine Learning борются с пробками и улучшают дороги
- Не бойся падать – большие данные подстелят соломку: умное страхование
- Умная недвижимость: Big Data, Machine Learning и IoT в девелопменте
- Эко-Big Data в большом городе: как технологии делают мегаполис чище
- Логистика высокой частоты: 5 примеров успешного использования RFID-технологий – интернет вещей (IoT) в России и за рубежом
- Радиочастотный интернет вещей в промышленности: как, где и зачем используются RFID-метки – 5 практических кейсов российских и зарубежных компаний
- Как интернет вещей и большие данные увеличивают прибыль оффлайн-магазинов: 5 практических кейсов
- И тебя посчитали: как интернет вещей и большие данные повышают офлайн-продажи, считая посетителей торговых центров
- Что мешает развитию рынка дронов в России: 3 основные проблемы и пути их решения
- Русский дрон: как интернет вещей меняет 4 сектора экономики России
- Машинное обучение и дрон: 5 примеров успешного сочетания в России и за рубежом
- Рубрика: Kafka
- Настройка JDBC-коннектора Kafka от Confluent: практический пример
- Битва коннекторов Kafka от Confluent: JDBC-коннектор vs CDC Debezium
- Apache Kafka 3.9: новинки свежего релиза
- Как управлять многопользовательским кластером Apache Kafka
- Миграция Apache Kafka с Zookeeper на KRaft
- Публикация protobuf-сообщений и использование реестра схем Kafka
- От сетевого буфера и обратно: 10 этапов публикации данных в Apache Kafka
- Взаимодействие ksqlDB на Docker: примеры работы с CLI и REST API
- Доступ к Kafka на Docker извне: тунелирование портов
- Настройка портов Docker-контейнеров компонентов Kafka для запуска на офисном ноутбуке и Windows
- Как запустить Apache Kafka с GUI на офисном ноутбуке и Windows: Docker в WSL
- Публикация сообщений в Apache Kafka: пакетирование сообщений и подключение к брокерам
- Бесконечное хранение данных в Apache Kafka с Infinite Storage от Confluent Cloud
- Java-хуки Apache Kafka для UDF-функций ksqlDB
- Apache Kafka 3.8: обзор свежего релиза
- Потоковая агрегация и передача данных из Kafka в Redis через SQL-запросы в RisingWave
- Потоковая агрегация данных из Kafka на SQL в RisingWave: пример
- Потоковые соединения из Kafka на Python: практический пример
- Что выбрать Python-разработчику для работы с Kafka: confluent-kafka vs kafka-python
- Веб-хуки в Apache Kafka из PostgreSQL на платформе Upstash: пример
- Apache Kafka и файловая система
- Потоковая агрегация событий из Apache Kafka в RisingWave
- Неконсистентность данных в распределенной системе: Apache Kafka и проблема двойной записи
- Изоляция транзакций в Apache Kafka при потреблении сообщений
- Транзакции в Apache Kafka: атомарность публикации сообщений
- Пример потокового конвейера из Kafka в Elasticsearch на платформе Decodable
- Как работают клиенты реестра схем Apache Kafka: подробный разбор
- Публикация и потребление AVRO-сообщений с реестром схем Apache Kafka: пример на Python
- Новинки Apache Kafka 3.7: обзор свежего релиза
- Разделять ли топик Apache Kafka: 5 главных соображений
- Плавное завершение работы брокера Apache Kafka и перевыборы лидера
- Из Apache Kafka в Elasticsearch: реализуем sink-коннектор и строим дашборд в Kibana
- Как использовать реестр схем Kafka Confluent: пример Python-продюсера
- 4 стратегии мультирегионального развертывания Apache Kafka
- Реализация CDC из PostgreSQL в Apache Kafka с коннектором Debezium
- 4 способа реализации мультирегиональной репликации Apache Kafka
- 2 решения Confluent для мультирегиональной георепликации Apache Kafka
- Мультирегиональная репликация Apache Kafka: кластерные топологии
- Сколько стоит инфраструктура Apache Kafka: 2 главные статьи затрат
- 3 условия соединения многораздельных потоков в Kafka Streams
- Динамическое и статическое членство потребителей Apache Kafka
- Когда развернуть еще один кластер Apache Kafka и как им управлять?
- Централизация или независимость: стратегия управления корпоративным кластером Apache Kafka
- Магический байт в сообщениях и реестр схем Apache Kafka: проблемы и решения
- Как повысить надежность кластера Apache Kafka: сбои публикации и стратегии их устранения
- Apache Kafka vs Streams и Pub/Sub в Redis
- Как язык разработки влияет на стратегию партиционирования в Apache Kafka: тонкости хэширования
- Сквозное шифрование на уровне полей для Apache Kafka Connect с библиотекой Kryptonite
- Apache Kafka 3.6: что нового?
- Управление смещением в Apache Kafka: автофиксация и стратегия потребления
- Как настроить source-коннектор Kafka Connect, чтобы повысить его пропускную способность
- Зачем вам Conduktor Gateway для Apache Kafka
- Защита чувствительных данных в системе с Apache Kafka через криптографию
- Как измерить задержку потребления из Apache Kafka: простой пример
- Мультиарендность в кластере Apache Kafka
- Как устроено сжатие сообщений в Apache Kafka
- Event Streaming vs Event Sourcing: 2 паттерна проектирования EDA-архитектуры
- Swagger для асинхрона: составляем спецификацию AsyncAPI на примере Apache Kafka
- Apache Kafka, BPMS и оркестрация процессов: versus или вместе
- Квотирование в Apache Kafka
- События в экосистеме Apache Kafka: проектирование EDA-архитектуры
- Многоуровневое хранилище в Apache Kafka: разбираемся с KIP-405
- Управление кластерами и коннекторами Apache Kafka в Arenadata Streaming с ADSCC
- 8 исправленных ошибок в Apache Kafka 3.5.1
- 6 уязвимостей Apache Kafka за последние 2 года
- Apache Kafka 3.5.0: обзор июньского релиза
- Обработка ошибок в потребителе Kafka с try-except: пример
- DLQ в Kafka для AVRO-сообщений в Spark-приложении с библиотекой ABRiS
- Как будет реализован KIP-932 для общих групп потребителей в Apache Kafka
- Очереди и группы общего доступа для потребителей Apache Kafka: разбираемся с KIP-932
- 3 способа прочитать данные из Kafka с помощью Spark
- Как считать данные из Apache Kafka с определенного момента: пишем Python-скрипт
- Разделенный мозг и зомби-продюсеры в Apache Kafka: как с этим бороться
- Kafka Streams vs ksqlDB: что и когда использовать
- Под капотом Kafka Connect: источники, приемники и коннекторы
- Разделы и потребители Apache Kafka: практический пример
- 2 способа удалить сообщения из топика Apache Kafka
- UML-диаграмма последовательности потребления сообщений из Kafka
- Под капотом продюсера Kafka: UML-диаграмма публикации сообщений
- Kafka Streams vs Consumer API: 4 сходства и 5 отличий
- 5 проблем с распределенными очередями сообщений и их решения в Apache Kafka с RabbitMQ
- Лучшие практики работы с DLQ-очередями в Apache Kafka
- Очереди недоставленных сообщений в Apache Kafka и RabbitMQ
- MLOps c Kafka Streams и gRPC: 3 способа развернуть ML-модель в production
- Планирование заданий Spark в EDA-архитектуре
- Метрики приложений Kafka Streams и средства их мониторинга
- Перебалансировка потребителей в Apache Kafka: чем она чревата и как с этим быть
- Доступность vs надежность: выборы лидера в Apache Kafka
- Как KRaft влияет на скорость работы и хранение данных в Apache Kafka
- Apache Kafka 3.3.2: краткий обзор январского релиза 2023
- Управление хранением данных в Apache Kafka: 5 главных конфигураций
- Автомасштабирование приложений-потребителей из Apache Kafka на Kubernetes
- События, сообщения, микросервисы и Apache Kafka: архитектурный холивар
- СУБД вместо очереди сообщений: опыт команды Dagster Cloud
- Группы потребителей в Apache Kafka и микросервисы
- Контракты данных и еще 9 лучших практик применения Apache Kafka для ИТ-архитектора
- Как клиенты Apache Kafka общаются с брокерами: протоколы и интерфейсы
- Что лучше для аналитики в реальном времени: ksqlDB vs OLAP-база данных?
- Под капотом Apache Kafka: пакетирование сообщений с RecordAccumulator
- Мониторинг конвейеров Apache Kafka с инструментом Streams Explorer от Bakdata
- Чем плохи медленные потребители для Apache Kafka, как их обнаружить и ускорить
- Гибкая десериализация сообщений в Apache Kafka: от JSON к AVRO и наоборот
- Под капотом Apache Kafka: разбираемся с файлами хранения и механизмами обработки данных
- Масштабируемая шина событий на Apache Kafka для анализа пользовательского поведения в Whatnot
- Улучшенная обработка пакетов с Apache Kafka и Logstash в Trendyol
- Мониторинг системных метрик Apache Kafka с Iris
- Знакомство с aiokafka: асинхронный Python-клиент для Apache Kafka
- Apache Kafka vs AWS Kinesis: сходства и отличия
- Не просто бургеры: архитектура данных в McDonald’s с Apache Kafka
- Безопасная архитектура LakeHouse с Apache Kafka, управляемая метаданными
- Абсолютно безопасно: PEM-аутентификация Apache Kafka по REST API
- Лебедь, рак и щука: оптимизация Apache Kafka с теоремами CAP и PACELC
- Как определить задержку потребителя Apache Kafka в Spark Structured Streaming
- Apache Kafka vs JMS-брокеры: 3 главных отличия
- Экономия места в Apache Kafka с форматом Parquet
- Apache Kafka как решение проблемы параллелизма в микросервисах, управляемых событиями
- Как обеспечить высокое качество потоковых данных с реестром схем Apache Kafka
- Мониторинг микросервисов с Apache Kafka, Jaeger и OpenTelemetry
- Управление купонами на скидки в маркетплейсе Trendyol с Apache Kafka и Couchbase
- Управляемые повторы отправки сообщений из Apache Kafka c фреймворком Sping
- Стойки кластера и отказоустойчивость приложений Kafka Streams с релизом 3.2
- Apache Kafka 3.2: что нового?
- Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent
- Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming
- Apache Kafka в Walmart для масштабируемого пополнения запасов в реальном времени
- Больше или быстрее: ищем компромисс пропускной способности Apache Kafka
- Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои
- Интеграционное тестирование Kafka-приложений: 4 полезных библиотеки
- Модульное тестирование Kafka-приложений
- Как реестр схем помогает снизить нагрузку на запись сообщений в топики Apache Kafka
- Вместо Tableau и Power BI: DataLens от Яндекса на примере внедрения в KazanExpress
- Apache Kafka в облаках: краткий обзор управляемых сервисов
- Блокчейн и Apache Kafka: versus или вместе
- Упорядочивание событий в Apache Kafka: параметры продюсера и потребителя
- Как распилить PHP-монолит на микросервисы с Apache Kafka: кейс Storyblocks
- Микросервисная архитектура с Neo4j, Kafka и Outbox-паттерном проектирования
- Синхронные и асинхронные продюсеры: Graceful shutdown для Apache Kafka
- Аналитика больших данных в реальном времени с Apache Kafka, Spark, ClickHouse и S3
- Serverless для Apache Kafka c Upstash
- Копирование сложных структур данных из Kafka в СУБД с SMT и JDBC Sink Connector
- 5 шагов по миграции на новый релиз Apache Kafka 3.1.0 и подводные камни
- Apache Kafka 3.1.0: что нового?
- Архитектура больших данных: 5 шаблонов проектирования распределенных систем
- Архитектура больших данных: реализация шаблона CQRS на Apache Kafka
- Безопасность Kafka на Kubernetes с помощью Strimzi: аутентификация и авторизация
- Снова про Apache Kafka на Kubernetes: Strimzi в помощь
- ksqlDB 0.22.0: ноябрьское обновление компонента Apache Kafka от Confluence
- Повышаем устойчивость приложений Apache Kafka через обработку исключений
- 10 важных конфигураций Apache Kafka для практической работы
- Миллиарды сообщений в секунду: микросервисная ML-система на Apache Kafka и DynamoDB
- Apache Kafka на Kubernetes vs KubeMQ
- Apache Kafka и Kubernetes для микросервисов в логистике: кейс Sixfold
- Зачем вам KubeMQ: брокер сообщений для Kubernetes вместо Apache Kafka
- Как связать Neo4j с Apache Kafka: 2 способа интеграции
- AVRO и JSON В Apache Kafka: краткий ликбез по реестру схем
- Как передать данные из GridDB в Apache Kafka через JDBC-коннектор
- Что такое Saamsa и зачем это разработчику Apache Kafka: краткий обзор
- DataCater и Flow: еще пара альтернатив Apache Kafka для построения потоковых конвейеров
- Пакетная обработка событий с Apache Kafka: прикладная дата-инженерия
- 5 проблем Apache Kafka и как Redpanda их решает
- Повышаем параллелизм и пропускную способность потоковых приложений с Apache Kafka и Akka Streams
- Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning
- FlowKat и Monokl: еще пара средств мониторинга за кластером Apache Kafka на базе KafkaJS
- Что такое KafkaJS: как скрестить ежа с ужом, а Apache Kafka с Node.js
- Горизонтальное масштабирование кластера Apache Kafka: тонкости переназначения разделов
- Аналитика слишком больших данных в IoT-инфраструктуре Tesla c Apache Kafka, Alpakka и Akka Streams
- Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей
- Чем хорош Splunk S2S Source Connector от Confluent и как это связано с Apache Kafka
- Как устроен API администратора Apache Kafka: методы AdminClient с примерами
- Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark
- ksqlDB 0.19.0: июньские новинки для разработчиков Kafka от Confluent
- 100% SLA в Apache Kafka: AVRO, заголовки и повторные попытки обработки данных
- Еще больше потоковой аналитики Big Data с Kafka Streams: обработка больших сообщений
- Как устроен JDBC-коннектор источника Kafka Confluent и при чем здесь реестр схем
- Всего 2 cURL-вызова для потокового обновления данных с Apache Kafka Connect
- Согласованность и полнота распределенной обработки потоков в Apache Kafka Streams
- 3 проблемы приложений Apache Kafka Streams из-за RocksDB и способы их решения
- Исправляем OOM-ошибки приложений Apache Kafka Streams через конфигурирование RocksDB
- Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark
- Аналитика больших данных с JSON и AVRO в Apache Kafka: кейс компании Mobimeo
- Под капотом Apache Kafka: zero copy и быстрые IO-операции с диском
- Хранение, чтение и очистка сообщение в топиках Apache Kafka: 3 важных конфигурации
- Масштабируемая видеоаналитика в реальном времени с нейросетями YOLO на Apache Kafka, Spark Structured Streaming и Cassandra
- 7 новых фич Apache Kafka Streams в релизе 2.8.0
- Не только KIP-500: 15 важных улучшений Apache Kafka 2.8.0
- Проблема межкластерных транзакций в Apache Kafka и способы ее решения
- Оптимизация хранения сообщений в топиках Apache Kafka: зачем и как упаковывать, сжимать и менять форматы
- Apache Kafka теперь без Zookeeper — новый релиз
- Зачем вам cURL или как быстро загрузить ответ REST API или HTTP-запроса в Apache Kafka
- От пакетов к потокам с Kafka и Flink: аналитика больших данных по пользовательским сеансам в Spotify
- Можно ли заменить Apache Kafka базой данных и почему не стоит даже пытаться
- Как повысить отказоустойчивость продюсера Kafka: 5 практик по настройке ТОП-10 конфигураций
- ОЗУ, Kafka и Logstash для решения IOPS-проблемы в кластере Apache NiFi
- Cloudera Manager и еще 7 инструментов администратора для мониторинга Kafka-кластера
- Тонкости интеграции Apache Kafka с Pinot для аналитики больших данных в реальном времени
- Микросервисная real-time аналитика больших данных: потоковый OLAP на Apache Kafka, Pinot, Debezium и CDC
- 7 важных функций, которых еще нет в новой Apache Kafka без Zookeeper
- Сколько разделов вам нужно и при чем здесь KIP-500: разбираемся с партиционированием в Apache Kafka
- Как достичь дзена CAP-теоремы в распределенных микросервисах или eventual consistency с Apache Kafka Streams
- Как построить свой OAuth с аутентификацией и авторизацией для Kafka: кейс BlackRock
- Премиум-коннектор в люксовый enterprise: интеграция Apache Kafka с Oracle Database
- От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline
- Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных
- Как перейти на Apache Kafka без Zookeeper: готовимся к KIP-500 в релизе 2.8.0
- Apache Kafka 2.7.0: ТОП-15 обновлений декабря 2020 года
- ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data
- Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример
- Большие данные с малыми затратами: как снизить стоимость OLAP-аналитики Big Data в Delta Lake на AWS с Apache Kafka и Spark
- Как читать медицинские снимки с Apache Spark: Big Data библиотека для быстрой обработки DICOM-файлов
- Конвейер CDC для Databricks Delta Lake: пример быстрого сбора и аналитики Big Data с Apache Kafka и Spark
- CDC для потоковой аналитики Big Data с Apache Kafka и Spark: 3 практических примера
- Что не так с real-time обработкой транзакций в конвейере Apache Kafka-Spark Streaming: 3 проблемы и способы их решения
- Apache Kafka или Pulsar: что и когда выбирать
- 3 примера использования Pulsar в production вместо Apache Kafka
- 5 главных мифов о превосходстве Apache Pulsar над Kafka и их опровержения
- Кто быстрее: критика бенчмаркинга производительности Apache Kafka versus Pulsar
- Почему Apache Pulsar — это не Kafka с RabbitMQ в одном флаконе
- Что такое Apache Pulsar: новая Kafka или улучшенный RabbitMQ для потоков Big Data
- Пробуем приложения Apache Kafka Streams в Kubernetes: probe-механизм и проблемы stateful
- Как ваше состояние: запуск stateful-приложений Apache Kafka Streams в Kubernetes
- CDC-репликация Big Data в реальном времени с Apache Kafka и Debezium в Confluent Cloud
- А вы любите Kafka? Открытый тест из 10 вопросов на знание популярной Big Data платформы
- Непростая аналитика больших данных в реальном времени: 3 способа перезапуска заданий Spark Structured Streaming по метке времени Apache Kafka
- Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR
- Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих
- Зачем вам Feature Store или что не так с микросервисами в ML-системах
- 5 советов по потоковой аналитике больших данных с Apache Kafka и Spark Streaming
- Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных
- Apache Kafka и прочая Big Data для железнодорожников: кейс Deutsche Bahn
- Что такое GraphQL и как это использовать в разработке приложений Apache Kafka
- Чем хорош REST Proxy для Apache Kafka и что с ним не так: ключевые достоинства и недостатки RESTful API от Confluent
- Что такое REST Proxy к Apache Kafka: разбираемся с RESTful API от Confluent
- Как удаленному сервису достучаться к Apache Kafka по HTTP: REST API
- От open-source до Confluent: 3 клиента Python для Apache Kafka
- Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake
- DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB
- Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix
- Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data
- Почему вам нужно обучение разработке в Apache Kafka: 4 причины выбрать курсы от Школы Больших Данных
- Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих
- Веб-реклама, ретаргетинг и проблемы потоковой аналитики больших данных с Apache Kafka, Spark Streaming и Druid: кейс платформы Outbrain
- Apache Kafka, микросервисы и проблема удаления данных: 5 практических примеров
- Конвейер Big Data для Machine Learning на Apache Kafka: разбираем систему речевой аналитики
- Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark
- Kafka Connect для мониторинга событий и метрик: настраиваем JSON для интеграции с New Relic
- Особенности JOIN-операций в Apache Kafka Streams на примере Twitter
- Как Twitter построил на Apache Kafka новый ML-конвейер своей рекомендательной системы
- Как укротить NiFi: решаем проблемы ввода-вывода
- Apache Kafka как ядро event-streaming Big Data архитектуры: кейс The New York Times
- Заменит ли Apache Kafka прочие СУБД в мире Big Data: за и против
- Что такое Arenadata Streaming: сочетаем Apache Kafka с NiFi в корпоративном масштабе
- Какой Machine Learning в вашем production: 5 популярных паттернов на любой вкус и 2 основные стратегии внедрения
- Особенности корпоративной интеграции на ESB и Apache Kafka: vs или вместе?
- Комбо потоковой обработки Big Data с Apache Kafka и NiFi: пара практических примеров
- 3 проблемы администрирования Apache Kafka и пути их решения на практических примерах
- Как сэкономить место на диске, управляя временем: проблемы администрирования Apache Kafka на примере Booking.com
- Борьба со сложностью ACL-настроек в Apache Kafka или self-service авторизации в Booking.com
- Особенности самообслуживаемой аутентификации Apache Kafka на примере Booking.com
- 45+ кластеров и 2 DevOps-лайфхака по администрированию Apache Kafka от Booking.com
- Как найти товарные остатки с помощью Big Data и Machine Learning: пример Леруа Мерлен
- Как организовать конвейер self-service Machine Learning на Apache Kafka, Spark Streaming, Kudu и Impala: пример расширенной BI-аналитики Big Data
- Потоковая платформа для интеграции Big Data и не только: 7 плюсов Apache Kafka
- От беспорядочных связей к микросервисной консистентности: архитектурная история Big Data систем на примере Apache Kafka
- Роль Python в мире Big Data: 5 причин освоить этот язык программирования
- 5 причин разделения кластеров Apache Kafka по DevOps
- Быстро, непрерывно, вместе: 3 принципа Agile в KSQL и Apache Kafka Connect
- ТОП-10 ошибок интеграции Elasticsearch и Кафка при использовании Kafka Connect
- Зачем вам Kafka Connect: разбираем на примере интеграции Elasticsearch с Кафка
- Не только Kafka Engine: 4 альтернативы для интеграции ClickHouse и кейс Ситимобил
- Интеграция Big Data или как связать Tarantool c Apache Kafka на примере Arenadata Grid
- Big Data, Machine Learning и Internet of Things в складской логистике: 7 FMCG-кейсов
- Data lineage и provenance: близнецы или двойняшки – Big Data Management для начинающих
- Что такое Каппа-архитектура: альтернатива Лямбда для потоков Big Data
- 7 принципов Lean в Big Data: бережливое производство больших данных
- Как выбрать курсы по Spark: 4 ключевых аспекта, на что обратить внимание
- Как работает Apache Zookeeper: 5 проблем самой популярной службы синхронизации для распределенных Big Data систем
- Как Apache Kafka используется в реальном производстве: пример Северстали
- Как ускорить работу producer’ов Kafka: параметры конфигурации производителей
- Почему ваша Kafka такая медленная и как ее ускорить: 7 главных факторов производительности этой Big Data системы
- Что такое гарантия доставки сообщений или как избавиться от дублей и потерь в Apache Kafka и других Big Data брокерах
- Повышаем производительность Apache Kafka в высоконагруженных Big Data системах: пример Авито
- Зачем Apache Kafka и другие Big Data системы используют Zookeeper и чем его заменить
- Кому и когда нужны курсы по Kafka и другим технологиям Big Data: 5 реальных кейсов
- Как выбрать хорошие курсы по Kafka и другим технологиям Big Data: 4 простых совета
- Как Apache Cassandra, Kafka, Storm и Hadoop формируют рекомендации пользователям Spotify
- 12 уровней IIoT-архитектуры: от периферийных датчиков до аналитики Big Data
- Где и как используется Apache Samza: реальные примеры Big Data проектов
- Где и как в Big Data используется Apache Storm: примеры применения
- Что выбрать для потоковой обработки Big Data: Apache Kafka Streams или Spark Streaming
- ТОП-7 сходств и различий между Apache Kafka Streams и Spark Streaming
- Путешествуем во времени и пользовательском пространстве с Apache Kafka Streams
- DSL и Processor API в Apache Kafka Streams для распределенной обработки потоковых данных
- Как работает Apache Kafka Streams: архитектура и топология внутренних обработчиков потоков
- Основы Apache Kafka Streams: чем отличаются потоки от таблиц и топиков
- 5 достоинств и пара недостатков Apache Kafka Streams API для DevOps-инженера Big Data систем
- Повышаем скорость обработки потоков Big Data с помощью Apache Kafka Streams
- Как хранить большие данные: Apache Parquet, Avro и другие форматы Big Data
- DevOps для потоков Big Data: Apache Kafka в кластере Kubernetes
- Как связать Apache Kafka и Spark Streaming: 2 способа интеграции Big Data систем
- Синергия Apache Kafka и Spark Streaming: потоковая обработка Big Data в реальном времени
- Apache Kafka vs RabbitMQ в Big Data: сходства и различия самых популярных брокеров сообщений
- Что такое Avro: как Apache Kafka и другие технологии Big Data используют эту схему данных
- Как Apache Kafka работает с разными файлами Big Data: зачем нужен Schema Registry
- Еще раз про Big Data Security: как обеспечить безопасность кластера Apache Kafka
- Роль Apache Kafka в Big Data и DevOps: краткий ликбез и практические кейсы
- KSQL — для тех кто любит Kafka и не знает Java
- Рубрика: Machine Learning
- 4 нейросетевых трансформера для прогнозирования временных рядов
- Databricks Arc vs Splink: автоматическое связывание данных в промышленных масштабах
- Знай своего клиента: качество данных с identity resolution в Zingg и Splink
- Барьерный режим выполнения в Apache Spark и при чем здесь глубокое обучение
- Кластерный анализ графов с медоидами: алгоритм k-medoids
- Кибербезопасность в MLOps: угрозы и лучшие практики
- Что такое LLMOps или MLOps для больших языковых моделей
- Автоматизированное тестирование в MLOps: что и как проверять?
- RAG-приложения и Neo4j: поддержка векторного индекса для LLM
- MLOps для ИИ: AI-шлюз в MLflow
- Программируй на английском: ИИ-SDK для PySpark от Databricks
- Шаблон стека MLOps-инструментов и ТОП-5 практик его внедрения
- Стандартизация MLOps с CRISP-ML
- ИИ и векторные базы данных: как это работает?
- Horovod на Databricks для MLOps в глубоком обучении
- Эффективный MLOps с TAO Toolkit от NVIDIA
- Что такое BioCypher: возможности Neo4j для биомедицины
- Как развернуть ML-модель в production: шаблоны эффективного MLOps от Databricks
- Как построить и запустить свой MLOps-конвейер с MyMLOps
- Графовые алгоритмы без графовых баз данных: поиск сообществ с Networkx
- ClearML для полного MLOps: примеры и возможности
- Пара Python-библиотек для дата-инженера: pandas 2.0 и polars
- Архитектура MLOps и управление инфраструктурой как кодом
- Статистика vs глубокое обучение для анализа данных временных рядов: что выбрать?
- Продуктовое мышление в MLOps и метрики оценки ML-модели
- MLOps c Python-библиотекой Evidently: обнаружение дрейфа данных в ML-моделях
- MLOps для Spark-приложений в AWS с Amazon SageMaker: кейс Udemy
- FastAPI versus BentoML: что лучше для MLOps и почему
- MLOps с Graphene: зачем и как использовать GraphQL для проектов Machine Learning
- MLOps для устранения техдолга в проектах Machine Learning
- TensorFlow на Apache Hadoop с TonY
- MLOps c Kubeflow: компоненты ML-конвейера
- MLOps c LakeFS и MLflow: версионирование данных
- Практический NLP с Python-библиотекой spaCy для SEO-задач в Google Colab
- Глубокое машинное обучение, реляционная парадигма и логическое программирование: versus или вместе?
- Потоковое машинное обучение с Python-библиотекой River
- Разработка мультимодальных ML-моделей с TorchMultimodal
- MLOps c BentoML, MLflow и Kubeflow: автоматическое развертывание ML-модели
- Асинхронное программирование в ML-системах
- Почему глубокому обучению не обойтись без MLOps
- Как использовать цепи Маркова для анализа моделей рекламной атрибуции
- Построение MLOps-платформы с открытыми инструментами
- Марковские цепи для анализа данных и NLP: теория и практика
- Мониторинг Machine Learning в production: полезные советы и MLOps-инструменты
- 7 причин не использовать Pickle-формат в MLOps для сохранения ML-моделей
- Инструментарий MLOps c MLflow и DVC: versus или вместе?
- MLflow vs Kubeflow: битва MLOps-инструментов
- MLOps и ТОП-5 практик работы с MLflow
- Интеграция Nebula Graph с Apache Spark
- От чего зависит выбор MLOps-инструментов: 3 главных фактора
- Чего ждать в MLFlow 2.0: конвейеры от Databricks
- Графовое машинное обучение: кейс Airbnb
- Познакомьтесь с ModelOps: новый расширенный MLOps для бизнеса
- Технологии и инструменты преобразования речи в текст
- Как управлять изменениями в ML-системах с MLOps
- От Лямбда до Data Mesh: 7 архитектур данных для Big Data систем
- Вместо Git и Python: MLOps для разработки и развертывания ML-систем
- ТОП-5 проблем с данными в ML-системах и MLOps для их устранения
- Feature Store на Apache HBase с Phoenix, RonDB и Kafka: кейс Dream11
- DevOps + MLOps: мониторинг ML-моделей с New Relic
- Рекомендательные системы: продвинутые алгоритмы
- Что такое CML: MLOps и непрерывное машинное обучение
- Neo4j на страже закона: кейс поиска рецидивистов
- MLOps на Python и не только: кейс банка «Открытие»
- Рекомендательные системы: что под капотом?
- Практический MLOps: 4 стратегии развертывания систем Machine Learning
- MLOps и тестирование систем Machine Learning
- MLOps-конвейер с MLFlow: CI/CD для модели машинного обучения
- MLOps на коленке: простое развертывание ML-модели с Apache Spark
- MLOps и переносимость ML-моделей с помощью ONNX и Apache Spark
- NLP с Graph Data Science в Neo4j: 3 эмбеддинг-алгоритма
- MLOps на практике: опыт Glassdoor
- Как организовать Feature Engineering на SQL-запросах: инженерия Data Science
- Машинное обучение с Apache Spark: битва пакетов или отличия библиотек MLLib от ML
- Конвейрезируй это: как построить ML-pipeline в Apache Spark MLLib
- Преобразование столбцов в PySpark
- 3 метода векторизации слов в PySpark
- Как нормализовать данные в PySpark перед обучением ML-моделей
- Линейная регрессия, регуляризация, кросс-валидация и Grid Search в PySpark
- Как решить задачу классификации в PySpark
- Как ускорить озеро данных или что такое Delta Lake на Apache Spark
- Как внедрить MLOps: краткое пошаговое руководство
- Насколько созрел ваш MLOps: многокритериальная 5-уровневая модель зрелости Machine Learning Operations
- Готовы ли вы к MLOps: что такое Machine Learning Operations Maturity Model
- Зачем вам MLOps: новый подход к Machine Learning в production
- Чем похожи CRISP-DM и BABOK®Guide: бизнес-анализ в Data Science
- Cloudera Data Science Workbench vs Arenadata Analytic Workspace: сравнительный обзор
- 7 этических проблем отечественной цифровизации и пути их решения
- Успехи Industry 4.0 на российских заводах: 5 примеров СИБУРа
- Расширенная аналитика больших данных с помощью Self-service Machine Learning и AutoML: как Data Science усиливает технологии Big Data
- Аналитика больших данных в Elasticsearch: возможности Machine Learning в ELK Stack
- Что такое programmatic print и при чем тут персональный маркетинг с Big Data: 4 кейса от FMCG-гигантов
- Видеоаналитика с Machine Learning в ритейле: персональный маркетинг vs 152-ФЗ
- Как видеоаналитика Big Data с Machine Learning приносит деньги: 7 примеров FMCG
- Коботы в ритейле: 3 причины взглянуть на робототехнику по-новому
- Всегда Coca-Cola: 5 Big Data кейсов от FMCG-гиганта
- Управление НСИ в эпоху Big Data: какой MDM нужен современному бизнесу
- Когда количество не переходит в качество: почему большие данные требуют обеспечения Data Quality
- 5 причин, почему робот-полицейский – это фантастика. По крайней мере, пока.
- Big Data и Machine Learning спасают жизни: 3 кейса по распознаванию образов
- Big Data и Machine Learning против мошенничеств в сфере страхования: 7 реальных кейсов
- Что такое AML или Big Data и Machine Learning против отмывания денег
- Умный антифрод: как Big Data и Machine Learning защищают ваши деньги
- Найти и обезвредить: как Big Data и Machine Learning сканируют ваши соцсети для предупреждения преступлений
- Искусственный интеллект против наркотиков: как Big Data и Machine Learning борются с отравой
- Почему вам нужна расширенная аналитика Big Data и как ее получить
- Big Data и Machine Learning против COVID-19: 3 кейса про коронавирус и искусственный интеллект
- Machine Learning и не только: как устроены чат-боты
- От телекомов до медицины: 10 примеров использования чат-ботов в бизнесе
- Как Big Data и Machine Learning разговаривают с вами: чат-боты в России и за рубежом
- 3 причины, почему искусственный интеллект не примет за вас решение — по крайней мере, пока
- Аналитика больших данных и Machine Learning в образовании: 5 кейсов из ВУЗов
- Аналитика больших данных и машинное обучение в HR: 5 примеров инсайтов на Big Data
- Как снизить текучку кадров с помощью Big Data и Machine Learning: реальный опыт 5 крупных компаний
- Big Data ищет таланты: 5 примеров использования Machine Learning в HR-поиске
- Полный Deep Fake: как обмануть систему биометрии на базе Big Data и Machine Learning
- Какая биометрия лучше: сравнительный обзор биометрических методов на базе Big Data и Machine Learning
- Насколько уязвимы биометрические Big Data системы: причины ошибок и метрики их измерения
- Как оценить стоимость прогноза Machine Learning и не только: строим confusion matrix
- 5 причин, почему машинное обучение не заменит другие методы Cybersecurity и реальные примеры эффективного использования ML для защиты данных
- Как машинное обучение защищает большие данные: ML в Cybersecurity
- Кредитный скоринг от Яндекса vs GDPR и 152-ФЗ: кто собирает наши персональные данные для банковских моделей Machine Learning – Big Data для Большого Брата
- Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных
- Почему каждый Data Scientist должен быть DevOps-инженером в Big Data
- Выделение признаков: зачем отбирать предикторы и как это правильно сделать – готовим датасет к Data Mining и Machine Learning
- Нормально делай – нормально будет: нормализация на практике — методы и средства Data Preparation
- Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна
- Оцифровываем текст: как превратить слова в числа для Data Mining – 5 NLP-операций Feature Extraction
- Это не баг, а фича: генерация признаков для Data Mining
- Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения
- Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения
- Как подготовить данные к моделированию: 5 операций Data Preparation
- Зачем менеджеру язык программирования R: 7 причин освоить аналитический инструмент Big Data и Machine Learning
- Big Data и Machine Learning в HR: еще 5 примеров успешного использования информационных технологий для управления человеческими ресурсами
- Интеллектуальный автоматизированный рекрутинг: Big Data и Machine Learning в HR
- 20 проблем для Data Scientist, от которых не спасет CRISP-DM
- 7 популярных ошибок при работе с данными по стандарту CRISP-DM
- Большие данные и машинное обучение в аэропортах: 7 практических примеров в России и за рубежом
- Большие данные в авиации: 4 кейса применения Big Data в аэропортах и самолетах
- Почему вы не используете большие данные: разоблачаем 4 главных предубеждения о Big Data
- Большие данные (Big Data) в малом бизнесе: миф или реальность
- Как Big Data и Machine Learning помогут вам управлять корпоративной репутацией в интернете: разбираемся с SERM- технологиями
- Монетизация Big Data: 4 способа заработать на больших данных вашего бизнеса
- Как большие данные (Big Data) убивают типичного клиента или почему вам срочно нужен персональный маркетинг
- Реклама и маркетинг: как сократить расходы и повысить выручку с помощью Big Data — 5 практических кейсов от российских и зарубежных компаний
- Распознавание лиц: что это такое, как оно работает и кому это выгодно
- Цифровизация и автоматизация – не одно и то же: разбираем 5 основных отличий
- Как заработать $2-3 миллиарда за год на искусственном интеллекте
- Как снизить отток клиентов с помощью алгоритмов машинного обучения
- Как Big Data и Machine Learning в нефтегазовой отрасли помогают экономить миллиарды
- Рубрика: Neo4j
- Транзакции и параллельные запросы в графовой базе данных Neo4j
- Обновленный JDBC-драйвер Neo4j: возможности и ограничения
- 3 среды выполнения запросов Cypher в графовой базе данных Neo4j: что выбрать?
- Слотовая или конвейерная: сравнение сред выполнения Cypher-запросов в графовой базе данных Neo4j
- Оптимизация запросов Cypher к графовой базе данных Neo4j
- Как создать дэшборд NeoDash для графовой базы данных Neo4j
- Параллельная среда выполнения и блочный формат хранения данных в Neo4j
- Вместо Neosemantics: обзор Python-библиотеки rdflib-neo4j для графовой СУБД Neo4j
- Инструменты для ETL и миграций графовой базы данных Neo4j
- Зачем вам Neosemantics: RDF-триплеты в Neo4j
- 3 новых графовых алгоритма в Neo4j: новинки 2023
- Под капотом Neo4j: изоляция транзакций и составные базы данных
- Как на самом деле устроены графовые базы данных?
- Кто кому заплатил: пример поиска банковских транзакций в Neo4j
- Пишем Python-скрипт для работы с графом в Neo4j
- 4 способа попробовать Neo4j: сравнение альтернатив
- Что такое Memgraph и чем она отличается от Neo4j: сравнение графовых СУБД
- Neo4j vs TigerGraph: сравнение графовых СУБД
- Ищем кратчайший путь с Cypher-запросами в Neo4j
- 5 популярных языков запросов к графам
- Кто с кем против кого: анализ графа социальных связей в Neo4j
- Что такое Py2neo: Python вместо Cypher в приложениях с Neo4j
- Тонкости MERGE-запроса в Neo4j
- Рефакторинг графа c Liquibase и APOC: блеск и нищета гибкой модели данных Neo4j
- Пакетные транзакции в Neo4j: APOC vs native Cypher
- Зачем вам Data Importer для Neo4j: краткий обзор апрельских обновлений
- Анализ европейской газотранспортной системы с Neo4j
- Закладки и причинно-следственная согласованность чтения данных в кластере Neo4j
- NLP в Neo4j с Cypher: простой пример
- Как улучшить рекомендательную систему с Neo4j: кейс Meredith
- Инженерия Data Science: 3 лучшие практики по драйверам Neo4j
- Для логистики и не только: алгоритм Дейкстры в Neo4j-библиотеке Graph Data Science
- Анализ графа NFT-транзакций с Neo4j и Cypher
- Насколько вы популярны и общительны: анализ социальных связей с Graph Data Science в Neo4j и Cypher
- Еще больше и быстрее: извлечение данных из Neo4j с Apache Arrow
- Как создать Cypher-запрос для Neo4j из простого текста с Aspen
- Что такое библиотека Neo4j GraphQL и как ее использовать
- Визуализация графов в Neo4j и исследование кибербезопасности с GraphKer
- Фильтрация подграфов в Neo4j с библиотекой Graph Data Science
- Интеграция Neo4j с Apache Spark: обзор коннектора 4.1
- Графовая аналитика путешествий цифровых кочевников с Neo4j и Cypher
- Графовые СУБД vs реляционные: основы Neo4j и Cypher
- Рубрика: NiFi
- 3 процессора для маршрутизации FlowFile в Apache NiFi
- Машрутизация FlowFile в Apache NiFi на основе атрибутов
- Уязвимость CVE-2024-37389 в Apache NiFi: чем она опасна и как от нее избавиться
- Как движок выполнения влияет на транзакционность операций с FlowFile в Apache NiFi
- Процессоры-слушатели в Apache NiFi
- Apache NiFi 2.0.0-M4: июльские новинки мажорного релиза
- Мониторинг NiFi-приложения внешними средствами через задачи отчетности
- Парадигма программирования потоков данных и ее отражение в Apache NiFi
- Новые службы контроллера и процессоры в Apache NiFi 2.0.0-M2
- Как написать свой Controller Service в Apache NiFi
- Как настроить свой Python-процессор Apache NiFi
- Как написать свой процессор Apache NiFi на Python: обзор 2-х API
- Особенности разработки процессоров Apache NiFi на Python
- Еще 3 уязвимости Apache NiFi в 2023 году
- Долгожданный релиз Apache NiFi 2.0: что нового?
- Python для Apache NiFi с NiPyAPI
- Классический Apache NiFi vs Stateless-движок: что и когда выбирать
- Apache NiFi Stateless: что это и как он работает
- Что нас ждет в Apache NiFi 2.0: главные новинки
- Происхождение данных в Apache NiFi
- Модульное тестирование в Apache NiFi
- Зачем переходить на Apache NiFi 1.23.2: критичная ошибка и ее устранение
- Apache NiFi 1.23.1: 10 исправленных ошибок и обновление зависимостей
- Как устроен кластер Apache NiFi
- Как работает протокол Site-to-Site в Apache NiFi
- Сложности применения CI/CD-подхода к потоковым конвейерам Apache NiFi
- 3 уязвимости Apache NiFi в 2023 году
- Apache NiFi 1.22.0: что нового?
- Шифрование потока данных в Apache NiFi
- 5 советов по проектированию процессоров в Apache NiFi
- Пагинация SQL-запросов с Apache NiFi
- 7 HTTP-процессоров Apache NiFi: в чем между ними разница
- 3 ошибки дата-инженера при использовании Apache NiFi
- Маршрутные шаблоны проектирования процессоров Apache NiFi
- 3 дата-шаблона проектирования процессоров Apache NiFi
- Настройка службы SSL контекста Apache NiFi в процессоре InvokeHTTP
- Анализ уязвимостей обработки XML в Apache NiFi за последние 3 года
- 4 главных настройки процессора Apache NiFi в GUI: параметры конфигурации
- 3 способа преобразовать XML-документы в Apache NiFi
- Как тестировать конвейеры Apache NiFi: приемы и инструменты
- Обработка JSON-данных в Apache NiFi с JOLT-преобразованиями
- Apache NiFi 1.20 от 9 февраля 2023 года: обзор новинок
- Обработка ошибок в Apache NiFi
- Что такое RecordPath в Apache NiFi и как дата-инженеру работать с ним
- CDC -конвейер на Apache NiFi: ETL для изменений в данных
- 3 репозитория Apache NiFi
- 3 процессора обработки записей в Apache NiFi
- Элементы проектирования ETL-конвейеров в Apache NiFi
- Apache NiFi 1.19: что нового?
- Зачем вам NiFiKop: запуск Apache NiFi в Kubernetes
- Балансировка нагрузки в Apache NiFi
- Обратное давление в Apache NiFi
- Apache NiFi 1.18.0: новинки октябрьского релиза 2022
- Аутентификация в Apache NiFi с IBM Security Verify
- Разделение репозиториев и настройка доступности: советы администратору Apache NiFi
- Apache NiFi 1.17: обзор нового релиза
- Как ускорить потоковую обработку: лучшие практики для администратора кластера Apache NiFi
- Потоковая отправка событий в Splunk с Apache NiFi
- Настройка кластера Apache NiFi со встроенным Zookeeper
- Проблема с ShellUserGroupProvider в Apache NiFi 1.16.3
- Обработка ошибок в Apache NiFi: исключения и что с ними делать
- Как отловить ошибки в конвейере данных на Apache NiFi: лучшие практики
- Apache NiFi 1.16.3: обзор июньского релиза 2022
- Реестр Apache NiFi в Kubernetes: как легко развернуть и безопасно использовать
- 5 достоинств и 3 недостатка скриптовых компонентов Apache NiFi
- Как написать свой ExecuteScript-процессор Apache NiFi на TypeScript
- Прожорливый Apache NiFi: обработка потоков и проблемы потребления ресурсов
- Диски и потоки в Apache NiFi: ищем компромисс
- Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi
- ETL с Apache NiFi: практический пример
- Apache NiFi Flow Design System: назначение и возможности
- Apache NiFi 1.16.0: краткий обзор нового релиза
- Аутентификация пользователей Apache NiFi с OIDC от Okta
- Главные улучшения Cloudera Flow Management 2.1.3 на базе Apache NiFi 1.15
- Apache NiFi 1.15.3: что нового?
- Под капотом Apache NiFi: внутренний язык выражений
- Последний релиз 2021: новинки Apache NiFi 1.15.2
- Бессерверный парсинг веб-сайтов на Apache NiFi и OpenFaaS с Selenium
- Apache NiFi 1.15.0: что нового в ноябрьском релизе 2021?
- Контейнеризация Apache NiFi: безопасность конвейеров и потоков данных с Docker и Kubernetes
- Из CSV-файла в GridDB: ETL-конвейер на Apache NiFi для анализа данных временных рядов
- CDC-конвейер для MySQL на Apache NiFi: практический пример
- Детектирование устройств с WURFL: потоковый конвейер в Apache NiFi
- ТОП-10 практик разработки и развертывания Data Flow в Apache NiFi от Cloudera
- Apache NiFi для всех: Cloudera Flow Management в публичном облаке
- Как перейти к Apache NiFi от Storm: пара практических кейсов
- Как создать свой процессор с отношениями и Java-аннотациями: Apache NiFi для инженера данных
- Я знаю ваш пароль: утечки конфиденциальных данных в Apache NiFi
- Apache NiFi 1.14.0: что нового? Главные обновления июля 2021
- 3 тонкости процессоров в NiFi, о которых вы не знали + 5 лучших практик конфигурирования
- 5 проблем Apache NiFi на Kubernetes и способы их решения
- 3 вопроса про Apache NiFi от дата-инженеров: отвечает Cloudera
- Как работает SQL в Apache NiFi: потоковая обработка Big Data с помощью структурированных запросов
- Как управлять собственным Data Flow на Apache Spark с NiFi через Livy: разбираемся с процессорами и контроллерами
- Рубрика: NoSql
- 3 главных проблемы проектирования современной архитектуры данных
- Проектирование хранилища данных с методологией Data Vault в архитектуре Lakehouse
- Гиперграфы и их реализация в HyperGraphDB
- Архитектура данных в TSDB-решениях для анализа временных рядов
- Мультимодельные базы данных: мифы и реальность на примере 3-х СУБД
- Что такое GQL и при чем здесь Cypher: новый стандарт языка запросов к графам
- Архитектура данных для реализации паттерна Event Sourcing
- В помощь дата-инженеру: как организовать конвейер инкрементной загрузки данных
- Зачем вам Chango: новая платформа данных для архитектуры LakeHouse
- 7 критериев выбора потоковой базы данных
- Работа с диском в резидентных СУБД на примере Memgraph и Redis
- Унификация пакетной и потоковой обработки в Delta-архитектуре с LakeHouse
- Elasticsearch + Delta Lake: архитектура данных биотех-платформы Polly
- Зачем вам TigerGraph: обзор графовой MPP-СУБД
- Зачем вам CDF или как упростить CDC-конвейер для Delta Lake
- Побег от Cassandra в AWS S3 c Apache Spark: кейс сервиса Strava
- 10 вопросов на знание основных функций в Impala: открытый комплексный тест для начинающих изучать распределённую структуру Apache Impala
- Что такое функции командной строки в Impala и для чего они нужны
- Что такое метаданные таблиц в Apache Impala
- Базовые операции в Hbase: основы Big Data для начинающих
- Что такое группировка и сортировка и какую роль они играют для Impala
- Что такое модификация вывода существующих записей в Impala
- Базовые SQL-операции в Apache Hive: основы NoSQL Big Data для начинающих
- Основные операции СУБД MongoDB: основы NoSQL Big Data для начинающих
- Что такое представления и почему они так важны для Impala
- Рубрика: Spark
- Обработка RPC-вызовов в Apache Spark
- Пользовательские функции Apache Spark: Pandas UDF, applyInPandas и mapInPandas
- Насколько applyInPandas в Spark быстрее apply в pandas: простой эксперимент
- Ротация лог-файлов приложений Apache Spark
- Интеграция приложений Apache Spark с облачными хранилищами
- Утечка токена делегирования Hadoop в приложении Spark и как ее избежать
- Photon: новый векторизованный движок запросов Spark SQL от Databricks
- Динамическое сокращение разделов в Spark SQL
- Под капотом Spark Structured Streaming: интерфейсы потоковых запросов и их методы
- Распараллеливание заданий в PySpark
- Как ускорить Apache Spark Structured Streaming: 3 главных параметра потоковой обработки
- Архитектура и принципы работы Spark Connect
- Чего ждать от Apache Spark 4.0: обзор свежего предрелиза
- Планы выполнения запросов при работе с API pandas в Apache Spark
- Изоляция приложений Apache Spark в одной среде Databricks с Lakeguard
- Источники данных Apache Spark
- Сравнение датафреймов в Apache Spark на примере PySpark-кода
- RocksDB как хранилище состояний для Apache Spark Structured Streaming
- Хранение состояний в Apache Spark Structured Streaming и новый State Reader API от Databricks
- Журналирование событий в Apache Spark и сжатие лог-файлов
- Stateful-операторы в Apache Spark Structured Streaming
- Как Apache Spark планирует и запускает задания в кластере
- Как настроить оборудование для ускорения работы Apache Spark
- Профилирование PySpark-кода: пример с приложением Apache Spark для Python-разработчика
- Все успешно: файл _SUCCESS в рабочих процессах Apache Spark
- Отметки времени событий для безопасности архитектуры данных Lakehouse
- Управление зависимостями Python в кластере со Spark Connect
- Потоковая публикация данных в REST API с Apache Spark Streaming
- Эскизы данных в Apache Spark с библиотекой DataSketches
- Контрольные точки в Apache Spark Streaming
- Гибкая кластеризация: новая технология управления данными в Delta Lake от Databricks
- API Pandas в Apache Spark: возможности и опасности
- Чем Scala лучше Java для разработки Spark-приложения: ТОП-5 преимуществ
- Apache Spark 3.5.0: что нового?
- Что такое SPIP: 4 предложения по улучшению Apache Spark
- Отладка PySpark-приложений: журнал регистрации событий
- Как проект Lightspeed от Databricks делает Apache Spark еще быстрее: асинхронное управление смещениями
- Регулярные выражения в Apache Spark
- Алиасы столбцов и параметризованные SQL-запросы в Apache Spark 3.4
- 5 уязвимостей Apache Spark за последние 3 года
- Apache Spark 3.4.1: обзор отладочного релиза, выпущенного в июне 2023
- Spark Connect в релизе 3.4: новые возможности для разработчика
- Аккумуляторы в Apache Spark: что это и как их использовать?
- Как посмотреть GUI приложения Apache Spark в Google Colab с ngrok
- Как механизм AQE выполняет динамическое объединение разделов в Apache Spark
- Средства обеспечения безопасности в приложениях Apache Spark
- Разделение датафрейма с partitionBy() в Apache Spark: практический пример
- Apache Spark 3.4.0: обзор апрельского релиза
- Проблемы shuffle-операций в Spark SQL и способы их решения
- Сервер истории и слушатели событий Apache Spark
- 2 режима развертывания приложений Apache Spark
- Возможности и ограничения Dataset API в Apache Spark
- Оптимизация планирования заданий Spark с backfill-операциями
- Бесплатный помощник по настройке приложений Apache Spark от Joom
- Ускоряем Apache Spark с помощью RAPIDS на GPU
- Безопасный обмен большими данными с открытым протоколом Delta Sharing
- Ускоряем SQL-запросы в Apache Spark с проектом Gluten
- Как распараллелить чтение данных из JDBC-источников в Apache Spark
- Задания, задачи и этапы в Apache Spark
- 3 способа подключить сервер Jupyter к защищенному кластеру Spark на Hadoop YARN с Kerberos
- Самообслуживаемый сервис Apache Spark Structured Streaming для Delta Lake
- Модульное тестирование Spark-приложений с Gradle
- Аккумуляторы и качество данных в Apache Spark
- Оптимизация Apache Spark на платформе Databricks
- Как перевести кластер Apache Spark от YARN в Kubernetes: пошаговый план
- Чтение и запись файлов в Google Cloud Storage с Apache Spark
- Как безопасно читать данные из AWS S3 с Apache Spark и boto3
- Как применить триггеры Apache Spark Structured Streaming для пакетных заданий
- Spark Connect: тонкий клиент от Databricks
- Ошибки обновления таблиц в Delta Lake и их решения с Apache Spark Structured Streaming
- Идемпотентность приложений Apache Spark Structured Streaming в Delta Lake
- Как ускорить потоковые приложения: 5 способов оптимизации Apache Spark Streaming
- Криптография на PySpark: PyCryptodome для Apache Spark
- Как ускорить чтение из JDBC-источников для Apache Spark: 3 метода
- Тонкости потоковой обработки данных в Apache Spark: проблемы Structured Streaming
- 4 способа упаковать PySpark-приложение для отправки в кластер Apache Spark
- ETL с Apache Spark в озере данных на MinIO
- Динамическое партиционирование в Apache Spark
- Data Mesh + Lakehouse на BigQuery: новая архитектура BigLake от Google
- LIMIT vs TABLESAMPLE: битва операторов Spark SQL
- Под капотом Lakesoul: как устроено табличное хранилище на Apache Spark
- Доступ к данным через ODBC и JDBC-драйверы в Spark-приложениях
- Вместо Iceberg, Hudi и Delta Lake: хранение потоковых и пакетных таблиц с LakeSoul
- Take() вместо collect() и еще 2 совета по Apache Spark для дата-инженера
- Как сделать ETL-конвейеры Spark-заданий в AWS EMR на 50% дешевле: кейс Duolingo
- Под капотом Apache Spark: 3 секрета для дата-инженера и разработчика
- Улучшения Apache Spark Structured Streaming в проекте Lightspeed от Databricks
- Spark vs Dask для Data Science-проектов
- 3 способа прервать DAG lineage в Apache Spark
- Apache Spark 3.3.0: ТОП-10 новинок июльского релиза 2022
- Происхождение данных в Apache Spark со Spline и не только
- Мониторинг заданий Apache Spark с помощью слушателей
- Как определить оптимальную конфигурацию Spark-приложения
- Роль Tungsten в Apache Spark
- Оконные функции PySpark в Google Colab: пара примеров
- 3 режима вывода в Apache Spark Structured Streaming
- 3 метода управления разделами в Apache Spark
- Тонкости SparkSession в Apache Spark Structured Streaming
- Широковещательное соединение в Apache Spark SQL: ликбез и примеры
- Ускорение PySpark-приложений с PyArrow: лайфхаки Apache Spark для разработчиков
- Спотовые инстансы в AWS EMR для Spark-конвейеров: достоинства, недостатки и лучшие практики
- Параллелизм второго порядка в конвейерах данных с Apache Spark
- Аналитика больших данных с Apache Spark: UDF на Pyspark для вызова внешних REST API
- Я за тобой слежу: настраиваем мониторинг Spark-приложений в кластере Kubernetes
- Анализ данных временных рядов с Apache Spark: пара примеров c Flint и Pandas
- Подсчет записей в CSV-файлах средствами Apache Spark
- Парсинг JSON-файлов в Apache Spark
- Доступ к пользовательским JAR из Spark-заданий на AWS EMR
- Spark NLP 3.4.0: новый релиз ML-библиотеки для Apache Spark 3.2.x на Scala 2.12
- Apache Spark и AWS S3: лучшие практики и опыт Pinterest
- Как работает AggregateByKey() в Apache Spark: краткий ликбез и пара примеров
- Размер имеет значение: Spark и Phoenix для больших запросов в Apache HBase
- Как сократить стоимость и время обработки данных в Spark-приложений: кейс AppsFlyer
- Знай свое место: локальность данных в Apache Spark
- Насыпать соль на рану: решаем проблему перекоса данных в Apache Spark с помощью криптографии
- Фильтр Блума в Apache Spark для Parquet-файлов
- Найти и обезвредить Spill в Spark-приложениях: причины и решения
- Все сложно: Morpheus, Cypher и Apache Spark GraphX
- На заметку разработчику Spark-приложений: 3 ошибки PySpark и тонкости Outer Join
- Apache Spark 3.2.0 и Scala 3.0: что нового?
- Проблема вызовов REST API в Apache Spark и способы ее решения
- 4 причины сбоя в системах на Apache Hadoop, Spark и Livy + способы их лечения от дата-инженеров Pinterest
- Графовая аналитика больших данных с DataStax Enterprise Graph на Cassandra и Spark SQL
- Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest
- Как повысить прозрачность Apache Spark: 3 способа мониторинга качества данных
- Сеансовые окна в Apache Spark Structured Streaming: кейсы, примеры и ограничения
- От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal
- Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames
- Правила оптимизации в Spark SQL и их улучшения в Radiant
- Как сохранить датафрейм вне кучи: секреты Apache Spark для разработчиков
- Динамическое сжатие файлов в Apache Spark: опыт Databricks и не только
- Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google
- Управление кластерами Apache Hadoop и Spark с YARN: 3 варианта планирования ресурсов
- Еще 4 полезных совета по Apache Spark для разработчиков и дата-аналитиков
- 5 лайфхаков по Apache Spark для разработчиков и дата-аналитиков
- Непредсказуемость Apache Spark SQL и как от нее избавиться: про UDF и Catalyst
- 5 вопросов про масштабирование Spark-приложений
- JVM Garbage Collection и не только: 7 причин OOM-ошибки в Apache Spark
- Что посмотреть в Apache Spark UI: 5 полезных кейсов для разработчика Big Data
- Что не так с UDF-функциями в Apache Spark SQL и как это исправить
- Особенности оконных функций и кэширования датафреймов в Apache Spark SQL
- Еще 3 причуды API DataFrame в Apache Spark, о которых вы не знали
- Преобразования vs действия: под капотом операций Apache Spark
- Как быстрее обработать массив в Apache Spark 3.1: сравнение 9 разных методов
- Как избавиться от перекосов в Apache Spark: coalesce vs repartition
- Что такое Apache Sedona или GeoSpark: Spark-фреймворк для обработки пространственных геоданных
- Аналитика больших данных со Apache Spark SQL из внешних СУБД: про JDBC-драйверы
- На заметку разработчику: 3 причуды Apache Spark и как с ними бороться
- Вспомнить все: 6 сегментов памяти Apache Spark и параметры их конфигурирования
- Как помочь Apache Spark SQL обрабатывать большие датасеты быстрее: 5 простых способов
- Как устранить дубли в датасете: 5 методов для разработчика Apache Spark
- Как упростить работу с DWH и Data Lake: DBT + Apache Spark в AWS
- От контекста до драйвера: что под капотом Spark-приложения
- Зачем нужны коммитеры S3A: решаем проблемы совместимости Amazon S3 с Hadoop HDFS
- Как Spark-приложению выполнять миллионы операций в секунду с данными в AWS S3
- Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы
- Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения
- 7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021
- 3 достоинства и пара недостатков Apache Spark на Kubernetes
- 5 советов по совместному использованию Apache Spark и PostgreSQL
- Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud
- Что такое SnappyData (TIBCO ComputeDB) и при чем здесь Apache Spark
- Apache Spark для инженера данных: 3 полезных инструмента построения ETL-конвейеров
- Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример
- Конфигурирование исполнителей Spark-заданий в AWS: ядра ЦП и проблемы с памятью
- Как сэкономить на AWS-кластере: экономика Big Data и конфигурирование облачных Spark-приложений
- Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных
- Почему ваши Spark-приложения такие медленные: устраняем задержки аналитики Big Data
- Быстрее и безопаснее: потоковая аналитика больших данных для трекинга самолетов
- Взболтать, но не смешивать: оптимизация вычислений в Apache Spark SQL
- 3 легких способа ускорить отдельные задачи Apache Spark
- Что такое Big Data Reconciliation: согласование больших данных c Apache Spark
- А можно дешевле: снижаем стоимость аналитики Big Data в приложениях Apache Spark
- Ускоряем конвейеры Apache Spark: 3 простых способа
- Stateful-проблемы JOIN-операций в Apache Spark Structured Streaming и их решения
- Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks
- Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark
- Большая разница: чем структурированная потоковая передача в Apache Spark отличается от Spark Streaming
- Ускоряем и масштабируем Apache Spark Structured Streaming: 2 проблемы строго однократной доставки и их решения
- Только сегодня и только сейчас: как устроена строго однократная доставка сообщений в Apache Spark Structured Streaming
- Как работает Join в Apache Spark SQL: краткий ликбез для начинающих
- Насколько ты знаешь Apache Spark: открытый тест на знание популярного Big Data фреймворка
- Как оптимизировать запрос в Apache Spark SQL: Predicate Pushdown vs Projection Pushdown
- 5 лучших практик работы с кэшем в Apache Spark SQL
- Как перейти от Python к PySpark: ТОП-10 рекомендаций по настройке Spark-заданий
- Как создать свой коннектор Apache Spark: пример интеграции с Tableau
- Помнить все: как устранить утечки памяти в приложениях Apache Spark – 7 советов от Disney
- Как очистить большие данные для Apache Spark SQL: краткий обзор Cleanframes
- Предобработка текстов на русском в PySpark
- Как построить ETL-pipeline на Apache Spark или что под капотом StreamSets Transformer
- От HDFS в облака: разбираем Google Cloud Storage Connector for Hadoop
- Зачем вам Apache Ozone: новая звезда на небосклоне Hadoop
- Hadoop умер, да здравствует Hadoop!
- Natural Language Processing (NLP) в PySpark: токенизация, стоп-слова, N-граммы
- Stateful vs Stateless в потоковой обработке Big Data на примере Apache Spark Structured Streaming
- Ускорение в 40 раз и другие фишки SparkR в Apache Spark 3.0
- Apache Spark 3.0: что нового?
- Облачное Delta Lake на Apache Spark от Databricks vs классическое озеро данных на Hadoop: 5 главных отличий
- Что такое PySpark SQL и как он работает: несколько примеров
- Как связаны DataOps, цифровизация и аналитика больших данных: разбираем на примере отечественного Big Data продукта — Arenadata Analytic Workspace
- Как подключить PySpark и Kaggle в Google Colab
- Чем Apache Zeppelin лучше Jupyter Notebook для интерактивной аналитики Big Data: 4 ключевых преимущества
- Apache Livy vs Oozie: сравнительный обзор инструментов удаленного запуска Spark-задач
- Введение в PySpark
- Запуск Apache Spark на Kubernetes: скрипты, операторы и особенности клиентского режима
- Что не так с Apache Spark на Kubernetes: 5 ключевых недостатков
- Когда и зачем нужен Apache Spark на Kubernetes: варианты использования и преимущества
- 3 достоинства и 5 особенностей интеграции Apache Kudu и Spark с примерами
- Big Data в профиль: что такое профилирование больших данных
- От администрирования до разработки Big Data систем: 7 главных проблем Apache Spark
- 4 этапа SQL-оптимизации в Big Data: насколько эффективен Catalyst в Apache Spark
- Как работает оптимизация SQL-запросов в Apache Spark: деревья запросов в Catalyst optimizer
- Что такое оптимизация SQL-запросов в Apache Spark: разбираемся с Catalyst optimizer
- Что лучше: RDD, DataFrame или DataSet и почему – выбор структуры данных Apache Spark
- RDD, DataFrame и DataSet с точки зрения программиста Apache Spark: в чем разница
- RDD vs DataFrame vs DataSet: чем отличаются эти структуры данных Apache Spark
- 3 набора данных в Spark SQL для аналитики Big Data: что такое dataframe, dataset и RDD
- Блеск и нищета главной технологии Big Data: достоинства и недостатки MapReduce
- В новой версии Apache Spark
- Рубрика: Use Cases
- Материализованные представления, CQRS и CDC в микросервисной архитектуре
- Проект года-2021: фабрика данных на Arenadata Hadoop в АО «Народный банк Казахстана»
- Импортозамещение в Big Data: Arenadata на Скале
- Блеск и нищета Erasure Coding в Apache Hadoop 3: опыт Одноклассников c HDFS
- Arenadata LogSearch: российская enterprise-адаптация Elasticsearch
- От Cassandra к Google Cloud Spanner: опыт Uber
- Будущее ИИ: взаимодействие человека и машины на примере решения задачи построения справочника организаций
- Машинное обучение для обогащения графа торгового ассортимента: кейс H&M
- Как графовая аналитика спасает ваши деньги: пара реальных кейсов
- Как графовая аналитика спасла мир: Data Science vs COVID-19
- Под капотом кластера Apache Hadoop: как работает YARN, где он может сломаться и что чинить
- Основы Hadoop HDFS для начинающих администраторов: как вывести узел из кластера без потери данных
- Возвращение к истокам: когда версия сообщества предпочтительнее коммерческого продукта – кейс миграции Apache Hadoop
- Как повысить качество управления корпоративными данными: цифровая трансформация «Газпром нефти» с Arenadata
- Новые победы вместе с Arenadata: 3 призера конкурса «Проект Года» от GlobalCIO-2020
- 3 проблемы с топиками Kafka для администратора кластера и способы их решения
- Большие данные для малого бизнеса: 3 примера, которые подойдут каждому
- От ДНК-чипов до цифровых двойников: 5 самых перспективных технологий 2020 от Gartner
- ТОП-15 проблем цифровой трансформации, с которыми сталкивается каждый CDTO
- Блеск и нищета отечественной цифровизации: разбор аналитического отчета KMDA 2020
- Почему бизнес-анализ особенно нужен в проектах Big Data: взгляд BABOK
- Налоги, гранты и еще 7 мер господдержки для отечественного ИТ-сектора в 2020 году
- Я знаю, что вы делали прошлым летом и сегодня утром: как государство и бизнес собирают Big Data о каждом из нас
- Практический пример монетизации Big Data с помощью Elasticsearch и Kibana
- Что сдерживает цифровизацию вашего бизнеса: 5 главных проблем и способы их решения по версии Gartner
- 5 причин, почему аналитика больших данных иногда выгоднее модного Data Science: взгляд со стороны бизнеса
- Что такое биржа данных и зачем нужны DMP-платформы: монетизация Big Data по DaaS-модели
- От онлайн-ставок до выборов президента: 3 практических примера использования DaaS-подхода в реальном бизнесе
- BI-аналитика больших данных и другие Big Data системы: 5 примеров применения Apache Kudu
- Эластичные облака: краткий обзор SaaS/PaaS-решений для Elasticsearch
- Как сделать Elasticsearch безопасным: защищаем Big Data от утечек
- Такой эластичный, что вся Big Data утекает: 9 крупных инцидентов cybersecurity с Elasticsearch за последние 3 года
- 5 ключевых достоинств и 3 главных недостатка ELK-стека: разбираемся с Elasticsearch, Logstash и Kibana на реальных Big Data кейсах
- 3 товарища в поиске и аналитике Big Data: Elasticsearch, Logstash и Kibana
- 4 крупных примера внедрения Tarantool, 3 достоинства и 2 главных недостатка IMDB
- Arenadata Grid vs Tarantool для Big Data: сходства и различия отечественных In-Memory СУБД
- Нейросети для программ лояльности и оптимизации поставок: 3 Big Data кейса в FMCG
- Зачем руководителю обучение Big Data: 4 причины пойти на курсы аналитики больших данных
- Как коронавирус стимулирует экономику Big Data: факты и ожидания
- ETL по Data Vault: решаем проблемы загрузки данных в КХД с помощью Big Data
- Как спроектировать КХД: 4 метода моделирования данных для архитектора Big Data
- BABOK, DMBOK и еще 3 профессиональных стандарта для Big Data специалиста
- Как не превратить Scrum в драку: анализ требований и project management по Agile
- Как расширенная аналитика Big Data поможет ИТ избавиться от 8 потерь Lean
- Как найти узкое место рабочего процесса: строим VSM и разбираемся с ценностями
- Сколько стоит цифровизация: что такое ФСА и зачем это нужно в Big Data
- Как увидеть лес за деревьями: что такое Decision Tree и зачем это нужно в Big Data
- Когда вам НЕ нужен директор по цифровизации: 3 практических примера
- Кто такой директор по цифровизации и чем он отличается от других руководителей
- Корпоративное обучение Big Data vs индивидуальные курсы: 4 ключевых отличия
- Когда цифровизация не в радость: 5 громких скандалов вокруг Big Data и Machine Learning
- Определяем, что важнее: методы расстановки приоритетов в Big Data и цифровизации
- Защитить всех и каждого: 5 методов cybersecyrity для биометрии в Big Data системах
- Как потерять лицо: утечки биометрических данных – новая угроза Big Data систем
- Как снизить риски утечки данных в Big Data: формулируем требования к Cybersecurity
- Почему случаются утечки данных: системный анализ на службе Cybersecurity в Big Data
- Что ждет Big Data в 2020: итоги ушедшего десятилетия и будущие перспективы
- 7 самых критичных уязвимостей Kubernetes за последние 2 года
- Цифровая корпорация 21-го века: что такое Data-Driven Company
- Почему вам не нужен DevOps и как его внедрить, если очень хочется
- Быстрее, гибче, самостоятельней: 3 принципа Agile в Big Data системах
- Насколько безопасен ваш Hadoop: главные уязвимости экосистемы Big Data
- Большие данные – большие потери: крупнейшие утечки Big Data за 3 года
- Умный HR: как быстро внедрить Big Data и Machine Learning в управление человеческими ресурсами
- Big Data и блокчейн: комбо или противостояние?
- Как применяется Machine Learning в банках: 9 успешных кейсов по всему миру
- Рубрика: Распознавание лиц
- Рубрика: Распознавание Речи
- Рубрика: Цифровая трансформация
- Рубрика: Тесты
- 10 вопросов на знание основных функций в Hive: открытый комплексный тест для начинающих изучать распределённую структуру Apache Hive
- 10 вопросов на знание основ работы с функциями командной строки Impala: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Impala
- 10 вопросов на знание основ операций DDL в Hive: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hive
- 10 вопросов на знание основ операций DML в Hive: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hive
- 10 вопросов на знание основ работы с Hbase: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hbase
- 10 вопросов на знание основ работы с драйвером JDBC в Hive: открытый интерактивный тест для начинающих изучать распределённую структуру Apache Hive
- 10 вопросов на знание основ работы с представлениями в Impala: открытый интерактивный тест для начинающих
- 10 вопросов на знание основ архитектуры СУБД Apache Hive: открытый интерактивный тест для начинающих
Преподаватели
- Самсонов Сергей
- Комиссаренко Николай
- Королев Михаил
- Вичугова Анна
- Ящук Илья
- Климов Артем
- Горбатова Виктория
- Темирханов Зелимхан
- Конорев Олег
- Ермилов Дмитрий
- Верещага Елена
- Карташов Андрей
Энциклопедия
- Топик
- Golden Copy
- Workflow
- Dataflow
- WORM
- Потребитель
- Продюсер
- Mirror Maker
- Yandex Managed Data Proc
- Yandex Managed Clickhouse
- Yandex Managed Airflow
- Yandex Managed Kafka
- Yandex Managed GreenPlum
- YARN
- Apache Hbase
- Structured Streaming
- Spark Streaming
- Kafka Streams
- ksqlDB
- MongoDB
- Impala
- Apache Hive
- PySpark
- Requests
- Environment variable
- Elasticsearch
- Kudu
- OSMNX
- Glove
- NLTK
- Профессии в Data Science
- ClickHouse
- Greenplum
- Tarantool
- Dataframe
- Ввод и вывод в Apache Spark
- TensorFlow serving
- Scikit-learn
- Spark SQL
- Segmentation image
- Object Detection
- Data Science
- CAP
- NoSQL
- Impala
- Cassandra
- HBase
- MapReduce
- Spark
- Samza
- Storm
- Flink
- Sequence
- AVRO
- RCFile
- ORC
- Parquet
- Kubernetes
- DevOps
- Agile
- HDInsight
- HDFS
- MapR
- Hortonworks
- Cloudera
- Hadoop
- SEMMA
- RFID
- CRISP-DM
- Мультиколлинеарность
- Блокчейн
- Большие данные (Big Data)
- Цифровизация
- Machine Learning
- NiFi
- Big Data
- Internet of Things
- Большие данные
- Интернет вещей
- Arenadata
- Hive
- AirFlow
- KSQL
- RBAC
- ABAC
- data provenance
- Kafka
- Data Mining
- LTV
- Churn Rate
- provenance
- Case Based Reasoning (CBR)
- Zookeeper
- Прогнозирование
- Искусственная классификация
- lineage
- Цифровая трансформация
- KNOX
- Точность распознавания
- Data Lake
- Классификация
- Машинное обучение
- Естественная классификация
- Ошибка распознавания
Курсы
- YACH: ClickHouse с использованием Yandex Managed Service for ClickHouse
- MK-K8S: Модели и паттерны управления приложениями распределенной обработки данных на Kubernetes
- K8KA: Администрирование Apache Kafka в Kubernetes
- YARF: AIRFLOW с использованием Yandex Managed Service for Apache Airflow™
- BOKA: Основы Apache Kafka
- DBT: Data Build Tool для инженеров данных
- BDAM: Аналитика больших данных для руководителей
- ARMG: Архитектура Данных
- PRAR: Практическая архитектура данных
- PRUS: Практическое применение Big Data аналитики для решения бизнес-задач
- GPDE: GreenPlum для инженеров данных и аналитиков данных
- GRAD: Администрирование Greenplum / Arenadata DB
- HBASE: Администрирование кластера HBase
- KAFKA: Администрирование кластера Kafka
- ADS-KAFKA: Администрирование кластера Arenadata Streaming Kafka
- DEVKI: Apache Kafka для инженеров данных
- FLINK: Потоковая обработка данных с помощью Apache Flink
- NIFI3: Эксплуатация Apache NIFI
- CLICH: Построение хранилища данных на базе Clickhouse
- AIRF: Data Pipeline на Apache Airflow
- CORS: Основы Apache Spark для разработчиков
- SPOT: Потоковая обработка в Apache Spark
- MLSP: Машинное обучение в Apache Spark
- GRAS: Графовые алгоритмы в Apache Spark
- SPARK: Анализ данных с помощью современного Apache Spark
- SPAD: Архитектура данных с Apache Spark
- INTR: Основы Hadoop
- HADM: Администрирование кластера Hadoop
- DSEC: Безопасность озера данных Hadoop
- HDDE: Hadoop для инженеров данных
- MLOPS: Разработка и внедрение ML-решений
- GRAF: Графовые алгоритмы. Бизнес-приложения
- DPREP: Подготовка данных для Data Mining на Python
- PYML: Машинное обучение на Python
- PNLP: NLP с Python
- PYNN: Введение в нейронные сети
- VISI: Computer vision на языке Python
- VIP: Визуализация данных на языке Python
- KFDE: Apache Kafka для инженеров данных (Core Apache Kafka)
- ADH-AIR: Курс Data pipeline на Apache AirFlow и Arenadata Hadoop
- IMPA: Arenadata/Cloudera Impala Data Analytics
- HIVE: Hadoop SQL Hive администратор
- NOSQL: Интеграция Hadoop и NoSQL
- ZEPP: Использование Apache Zeppelin
Categories
- Apache AirFlow
- Apache Hadoop
- Apache Hive
- Apache Kafka
- Apache KNOX
- Apache NiFi
- Apache Spark
- Apache Zookeeper
- Arenadata
- Data Mining
- Machine Learning
- Security Hadoop
- Terminology
- Интернет вешей