Если говорить об уровне совершенства современных программ и программируемых систем, то наиболее наглядно его показывает машинное обучение. Это активно разрабатываемый сейчас класс алгоритмов и методов работы искусственного интеллекта, подразумевающий не просто решение системой задач, а ее самостоятельный поиск верного направления на основе анализа и консолидации подобных задач, решение для которых...
Одним из относительно новых терминов стало словосочетание Data mining, подразумевающее извлечение определенных данных из общего массива, упорядоченного или не упорядоченного. Работа с большими массивами данных – достаточно новая задача, инструментарий для решения которой в данный момент фактически только прорабатывается и совершенствуется. Подобных вызовов в практике человечества ранее не существовало, поэтому...
Планируем рабочие процессы вместе с Apache Airflow Почему Apache Airflow? Большинство процессов обработки данных строятся на определении набора «задач» для извлечения, анализа, преобразования, загрузки и хранения данных. Например, последовательность обработки данных может состоять из таких задач, как чтение логов из S3, создание задания Spark для извлечения соответствующих объектов, индексирование объектов...
Большие Данные (Big Data) – определение, широко используемое айтишниками, статистиками и другими специалистами, работающими с данными. В последнее время оно стало настолько распространенным, что просочилось из узкоспециализированной сферы в общий лексикон. Многие уже слышали разговоры о Big Data, но сходу не так просто разобраться, что это такое и где оно...
Hadoop – специализированный пакет алгоритмов и инструментов, предназначенных для массированной обработки информации. Его задача – работа с крупнейшими массивами данных, упорядоченных и неупорядоченных. Инструмент настолько эффективен, что достаточно широко используется в ряде алгоритмов поисковых систем и при построении ресурсоемких сайтов. Однако, Hadoop можно использовать и в гораздо более практичных и...
KSQL - это движок SQL с открытым исходным кодом для Apache Kafka. Он обеспечивает простой, но мощный интерактивный SQL интерфейс для потоковой обработки на Kafka, без необходимости писать код на языке программирования, таком как Java или Python. SELECT * FROM payments-kafka-stream WHERE fraud_probability > 0.8 ...