Apache Airflow

В этой статье я бы хотел рассказать об основных концепциях Airflow и как с ним работать. Что такое Airflow? Airflow – это open-source оркестратор для управления процессами загрузки и обработки данных. Если у вас есть большое количество задач, запускаемых на cron, особенно, если между ними есть зависимости, то Airflow может...

Почему вам не помешает изучить каждый открытый курс машинного обучения?

Что такое открытый курс машинного обучения, и зачем он может понадобиться вам? Под данным термином обычно подразумевается предоставление свободного доступа к набору структурированных материалов. Человек, изучивший их, получает новые или углубляет существующие знания. Он получает возможность приобрести дополнительные навыки. Это поспособствует личностному, профессиональному, а также карьерному росту. Машинное обучение –...

Оптимизация запросов JOIN в Apache HIVE

В последних версиях Apache HIVE пытается внедрить CBO (cost based optimizer) и оптимизация операций JOIN одна из главных его составляющих. Поэтому понимание сценариев  оптимизации применения операций JOINs (объединений) является одним из ключевых факторов настройки производительности HiveQL. Рассмотрим каждый вид объединений на практических примерах и определим их различия: Shuffle Join (Common...

С чего начинать Big Data обучение?

В современных реалиях Big Data обучение и получение соответствующей специализации может стать трамплином для головокружительного карьерного роста. Абсолютно все цифровые процессы генерируют массу данных. Эта информация используется в самых разнообразных целях. Она нужна для анализа, сведения статистики, прогнозирования и решения множества других задач. Поэтому важно делать информационные массивы максимально управляемыми....

Почему полезно пройти курсы по машинному обучению

Если вы работаете с компьютерами и большими массивами информации, курсы по машинному обучению или повышению квалификации вам точно не помешают. Почему? Потому, что это направление стремительно становится популярным и востребованным. Искусственный интеллект из экспериментальной технологии как-то незаметно превратился в повседневный инструмент. Точнее, вот-вот таковым станет. Машинное обучение представляет собой комплекс...

Представителям каких профессий не помешает пройти курсы по Big Data?

Big Data – современное развитие науки о данных, появившейся примерно в середине шестидесятых годов прошлого века. Сейчас существует масса профессий, специалисты которых должны разбираться в Больших Данных. Кто-то должен быть экспертом в этой отрасли. Кому-то достаточно просто знать, что это такое. В любом случае, если вы работаете в информационной сфере...

Что такое «цифровая трансформация»?

Digital transformation или Цифровая трансформация – совокупность процессов по тотальному переходу от традиционных методов осуществления деятельности к максимально возможному внедрению современных Digital-технологий. Это новейший бизнес-тренд, направленный на компьютеризацию, использование общего и специального ПО, эксплуатация возможностей Интернета для повышения конкурентоспособности и роста прибыльности. Может показаться, что компьютеризация и использование различных программных...

Большие данные (Big Data): сферы применения технологии

Big Data или Большие Данные – совокупность технологий и инструментов, призванных решить проблему операций с большими информационными массивами. Причем значительно сокращаются проблемы не только с неструктурированными, но и структурированными данными. Проблема обработки крупных и часто хаотичных информационных пакетов зародилась в IT-сфере. С ростом компьютеризации общества и всех сфер его деятельности,...

Data mining – что это такое?

Одним из относительно новых терминов стало словосочетание Data mining, подразумевающее извлечение определенных данных из общего массива, упорядоченного или не упорядоченного. Работа с большими массивами данных – достаточно новая задача, инструментарий для решения которой в данный момент фактически только прорабатывается и совершенствуется. Подобных вызовов в практике человечества ранее не существовало, поэтому...

Что такое AirFlow?

Планируем рабочие процессы вместе с Apache Airflow Почему Apache Airflow? Большинство процессов обработки данных строятся на определении набора «задач» для извлечения, анализа, преобразования, загрузки и хранения данных. Например, последовательность обработки данных может состоять из таких задач, как чтение логов из S3, создание задания Spark для извлечения соответствующих объектов, индексирование объектов...

Поиск по сайту