Dataframe

Dataframe — основная абстрация Apache Spark

Dataframe — это аналог реляционной таблицы, которая хранится в распределенной памяти кластера обработки данных. Более точно — это не таблица, а алгоритм ее построения: все операции в Spark делятся на трансформации и действия, поэтому «построение» таблицы, как таковой, происходит только в момент выполнения действия (например, при записи dataframe в базу данных).

Spark использует оптимизатор запросов, благодаря чему выполнение трансформаций происходит максимально эффективно. Особенно хорошо оптимизируются именно трансформации dataframe-ов, поэтому при использовании этого API (dataframe — часть так называемого Structured API) все языковые API одинаково эффективны (python, java, scala). Абстракции нижнего уровня — RDD — не позволяют достичь той же эффективности при использовании, например, языкового API для python. Рекомендация разработчиков Spark — в первую очередь попробуйте решить Вашу задачу с помощью dataframe-ов, основной абстракции данных Apache Spark.

Related Entries

Контакты авторизированного учебного центра
«Школа Больших Данных»
Адрес:
127576, г. Москва, м. Алтуфьево, Илимская ул. 5 корпус 2, офис 319, БЦ «Бизнес-Депо»
Часы работы:
Понедельник - Пятница: 09.00 – 18.00
Остались вопросы?
Звоните нам +7 (495) 414-11-21 или отправьте сообщение через контактную форму. Также вы можете найти ответы на ваши вопросы в нашем сборнике часто задаваемых вопросов.
Оставьте сообщение, и мы перезвоним вам в течение рабочего дня
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Или напишите нам в соц.сетях
Поиск по сайту