Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

Case Based Reasoning (CBR)

Case Based Reasoning (CBR) - метод решения проблем рассуждением по аналогии, путем предположения на основе подобных случаев (прецедентов). Это способ решения проблем на основе уже известных решений, который широко применяется во всех областях деятельности. Например, в бизнес-анализе такое сопоставление с эталоном, целенаправленный поиск и внедрение лучших практик со стороны называется...

Cassandra

Apache Cassandra – это нереляционная отказоустойчивая распределенная СУБД, рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша. Проект был разработан на языке Java в корпорации Facebook в 2008 году, и передан фонду Apache Software Foundation в 2009 [1]. Эта СУБД относится к гибридным NoSQL-решениям, поскольку она...

Chain-of-Thought

Chain-of-Thought (CoT), или "Цепочка Мыслей", — это не сложная архитектура или новая модель, а техника промптинга. Ее суть — заставить Большую Языковую Модель (LLM) генерировать пошаговую цепочку рассуждений до того, как она даст финальный ответ. Это похоже на то, как в школе учитель просит показать ход решения задачи,...

Churn Rate

Churn Rate (уровень оттока клиентов) - индикатор, показывающий процент пользователей, которые перестали пользоваться приложением (сервисом) или перестали быть вашим клиентом в течение рассматриваемого периода. Для уменьшения оттока клиентов используют таргетированные маркетинговые кампании для удержания клиентов с помощью персональных бонусов, скидок и предложения. Для успешной компании уровень оттока клиентов (Churn Rate) должен...

Claude AI

Clause AI от Антропик и https://bigdataschool.ru

Claude AI - передовая система искусственного интеллекта, разработанная компанией Anthropic. Claude AI-ассистент выделяется среди конкурентов благодаря своим уникальным возможностям в области обработки естественного языка, безопасности и этичности взаимодействий. Claude был создан с использованием инновационной методологии Constitutional AI, что делает его одним из самых надежных и безопасных ИИ-помощников на современном...

ClickHouse

ClickHouse – колоночная реляционная СУБД с открытым исходным кодом от компании Яндекс для быстрой обработки аналитических SQL-запросов на структурированных больших данных (Big Data) в режиме реального времени.

ClickHouse Certified Developer

ClickHouse Certified Developer — это официальная сертификация от разработчиков СУБД ClickHouse, подтверждающая практические навыки и знания специалистов в области работы с ClickHouse. Сертификат выдаётся после прохождения онлайн-экзамена, который включает реальные задания в среде clickhouse-client. Это единственная вендорская сертификация по ClickHouse, признанная в международном сообществе. Что такое ClickHouse Certified Developer...

ClickHouse Keeper

ClickHouse Keeper — это распределенная система координации. Она обеспечивает согласованность данных в кластере ClickHouse. Этот компонент был разработан как встроенная альтернатива Apache ZooKeeper. Таким образом, он устраняет внешние зависимости. ClickHouse Keeper играет ключевую роль в репликации и отказоустойчивости. Он управляет метаданными для реплицируемых таблиц. Кроме того, он координирует выполнение...

Cloudera

Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1]. Состав и архитектура Клаудера...

CRISP-DM

CRISP-DM (от английского Cross-Industry Standard Process for Data Mining) — межотраслевой стандартный процесс исследования данных. Это проверенная в промышленности и наиболее распространённая методология, первая версия которой была представлена в Брюсселе в марте 1999 года, а пошаговая инструкция опубликована в 2000 году [1]. CRISP-DM описывает жизненный цикл исследования данных, состоящий из...

Cursor

Cursor — это интеллектуальная интегрированная среда разработки (IDE), созданная на основе VS Code, которая использует передовые большие языковые модели (LLM) для глубокого анализа, написания и отладки программного кода. Cursor позиционируется не как дополнение, а как самостоятельный инструмент с нативной поддержкой ИИ1. Главная особенность редактора заключается в его способности...

Dask

Dask — это гибкая библиотека для параллельных вычислений на Python, которая позволяет масштабировать привычные инструменты, такие как NumPy, Pandas и Scikit-learn, для работы с большими данными. Dask: Что это такое Привет! Сегодня поговорим о Dask. Если ты хоть раз сталкивался с ситуацией, когда твой любимый Pandas падал с...

Data flow

Dataflow, или поток данных, представляет собой концепцию, важную для понимания того, как данные перемещаются и обрабатываются в программном коде. Эта концепция играет ключевую роль в различных областях программирования, включая параллельное программирование, асинхронное выполнение и обработку событий. В программировании поток данных представляет собой направление перемещения данных от одного участка кода к...

Data Governance

Data Governance (DG) — это организация стратегического управления данными в компании. На практике она реализуется через фреймворк, который включает в себя систему правил, процессов, политик и зон ответственности. Этот фреймворк определяет, как организация управляет своими данными на протяжении всего их жизненного цикла — от создания до архивации или удаления...

Data Lake

Организация озера данных - курсы https://bigdataschool.ru

Data Lake (озеро данных) — это логическая совокупность репозиториев данных, предназначенных для хранения и анализа больших данных в их исходном формате. В отличие от традиционного понимания централизованного хранилища, Data Lake может быть распределенным по множеству физических местоположений, включая облачные платформы, on-premises инфраструктуру или гибридные среды. Концепция озера данных...

Data lineage

Data Lineage (линейность данных) — это процесс отслеживания, визуализации и понимания пути данных от их источника до конечного потребителя. Он включает в себя все точки остановки и трансформации на этом пути, отвечая на ключевые вопросы: откуда пришли данные, что с ними произошло и куда они направляются. Если представить все данные...

Data Mining

Data Mining - процесс поиска в сырых необработанных данных интересных, неизвестных, нетривиальных взаимосвязей и полезных знаний, позволяющих интерпретировать и применять результаты для принятия решений в любых сферах человеческой деятельности. Представляет собой совокупность методов визуализации, классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. Дополнительно о...

Data provenance

Data Provenance (происхождение данных) — это документированная история данных с момента их создания до текущего состояния. Она включает в себя все метаданные, описывающие источники, процессы, преобразования и перемещения, которые данные претерпели. Представьте себе родословную ценного произведения искусства: она подтверждает его подлинность, описывает всех владельцев и реставрации. Точно так же Data...

Data Science

Big Data, Большие данные, обработка данных, машинное обучение, Machine Learning

Data Science – это наука о данных, объединяющая разные области знаний: информатику, математику и системный анализ. Сюда входят методы обработки больших данных (Big Data), интеллектуального анализа данных (Data Mining), статистические методы, методы искусственного интеллекта, в т.ч машинное обучение (Machine Learning). DS включает методы проектирования и разработки баз данных и прикладного...

Data vault

Data Vault (DV) — это современная методология моделирования, архитектура и набор практик для создания корпоративных хранилищ данных (DWH). Важно понимать: DV — это не программный продукт, который можно "купить" или "установить". Это подход, стандарт проектирования. Его главная цель — решить две основные проблемы традиционных DWH: нехватку гибкости при изменениях...