В рамках продвижения наших курсов по машинному обучению и Data Science, сегодня познакомимся с полезным инструментом визуализации данных. Что такое RawGraphs, как он работает и чем полезен для аналитики больших данных: смотрим на практическом примере.
Что такое RawGraphs и как это работает
Специалисты по Data Science и аналитики данных часто сталкиваются с необходимостью визуализировать исследуемые датасеты и выводы по ним, полученные в результате SQL-запросов или Python-скриптов. Хотя есть много различных библиотек для наглядного отображения данных, обычно эти библиотеки нужно установить, чтобы использовать их методы. Альтернативой является RAWGraphs — веб-инструмент визуализации данных с открытым исходным кодом, который можно использовать без установки и загрузки какого-либо ПО. Достаточно просто импортировать данные на веб-сайт и настроить их визуализацию без единой строчки кода. RAWGraphs обрабатывает табличные данные, которые могут быть загружены в виде файла электронной таблицы или CSV, а также через ссылку по URL-адресу. Изображения, полученные после парсинга данных в RAWGraphs, можно экспортировать в виде SVG или PNG-файлов, а также встроить в веб-страницы.
Примечательно, что RAWGraphs не хранит на своей стороне загруженные пользователем данные, подчеркивая безопасность использования сервиса. Хотя доверять стороннему веб-сайту секретные данные я бы не рекомендовала. Чтобы получить наглядную визуализацию в RAWGraphs, необходимо выполнить следующие шаги:
- Загрузить данные, копировав их из MS Excel, GoogleSheets, CSV-файла или вставив JSON-структуру. Если данные успешно распознаны, они отобразятся в GUI как таблица.
- Далее следует выбрать 1 из 31 возможных видов графиков, который надо построить по загруженным данным.
- Затем выполняется сопоставление загруженных данных с выбранным видом диаграммы. Необходимо выбрать столбцы для переменных и отображаемых измерений.
- При желании можно настроить параметры графика: шаги, цвета и пр. Этот этап опционален и может быть пропущен, сервис уже построил визуализацию.
Таким образом, в отличие от многих других инструментов визуализации данных, RAWGraphs прост, открыт и бесплатен. Сервис не хранит данные на своей стороне: загруженные пользователем датасеты обрабатываются только веб-браузером. Наконец, инструмент позволяет экспортировать полученные визуализации в популярных форматах, чтобы пользователь мог их редактировать по своему усмотрению. Чтобы оценить все достоинства и недостатки этого инструмента визуализации данных, далее рассмотрим работу RAWGraphs на практическом примере.
Пример использования
В качестве практического примера возьмем месячную выгрузку данных из GoogleAnalytics о событиях пользовательского поведения на сайте нашей Школы прикладного бизнес-анализа.
Далее выберем 1 из 31 возможных видов графиков. Для нашего примера я выбрала stacked bar chart – столбчатую диаграмму, которая отображает сравнение нескольких дискретных категорий.
Чтобы посмотреть разбивку событий пользовательского поведения по дням за весь загруженный период, я выбрала измерение День N в качестве оси абсцисс, и данные по всем остальным событиям для измерений по оси ординат. Дополнительная настройка визуальных параметров полученного графика не потребовалась, RawGraphs построил достаточно понятную и наглядную диаграмму.
Таким образом, RAWGraphs отлично подходит для таких сценариев исследовательского анализа данных, когда нужно быстро получить их наглядное статическое представление, например, для презентации. Он может работать с довольно большими датасетами и выдает результат в более современном виде, чем графики в Excel. Но доверять конфиденциальные данные стороннему сервису, несмотря на его заверения в безопасности, достаточно беспечно. Кроме того, RawGraphs не для динамического изучения данных и подключения к постоянным хранилищам типа СУБД, он работает только с локальными файлами формата .tsv, .csv, .dsv или .json, а также данным, доступным по URL-адресу. Тем не менее, в легковесных случаях этот инструмент вполне можно использовать на практике, включая построение графов без строчки кода, в отличие от Python-библиотек, таких как Networksx, применение которой я рассматривала здесь.
Познакомиться с более продвинутыми средствами визуализации и анализа данных для их практического использования в реальных проектах аналитики больших данных вам помогут специализированные курсы нашего лицензированного учебного центра обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
Источники