Dataframe

  DataFrame — это табличная структура данных с именованными столбцами и индексами строк, предназначенная для удобного хранения, преобразования и анализа структурированных данных в аналитических и научных вычислениях. Представьте себе лист Excel, но с возможностью программного управления и обработки миллионов строк за секунды. Это основной объект для манипуляции данными в языке...

Ввод и вывод в Apache Spark

Ввод и вывод в Apache Spark Apache Spark имеет простые, удобные и универсальные механизмы ввода вывода. С их помощью просто "читать" и "писать" файлы различных форматов (поддерживаются текстовые файлы, CSV, JSON, Parquet, ORC), а также работа с базами данных (через JDBC). Spark может использовать общие с Hive метаданные, тем самым...

Spark SQL

Spark SQL - это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса - dataframe, в обратном направлении - регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL...

Изменение базового тарифа с 1 января 2026 года Подробнее