Данные и еще раз данные
Кейс дня
Сегодня узнаем больше про данные и научимся задавать ключевые вопросы к нашим источникам. Разберем кейс дня на примере фотокарточек для Впрок.
Тема дня
Фотокарточки Впрок
Аналитик данных
Направление бизнес-архитектуры
Дмитрий Бибин
Юлия Тихонова
Начальник управления по автоматизации HR процессов и HR данных
Нужно понимать, что делать большие промышленные дашборды с учетом изменения требований это долго, дорого и не всегда эффективно. Кроме того, очень часто исходные данные нужно как-то обработать перед тем, как загрузить их в BI и сделать дашборд.

Но данные уже могут быть загружены и подключены к системам BI: с описаниями и всеми настройками. Пользователь с навыками работы в BI-инструменте может все смастерить сам — и сэкономить себе часы и дни ручной работы.
Фото для сезонных товаров
Когда покупатели выбирают товары на сайте Впрока, фотографии продуктов играют огромную роль. Фото создает визуальный образ товара и часто выступает в качестве решающего фактора, влияющего на решение о покупке.

Иногда, фотографии товаров на сайте могут требовать доработки: плохое качество, малое количество или не актуальный внешний вид. Кроме того, коллеги из отдела подготовки контента (содержимого сайта) не всегда знают, фотографии каких товаров нужно отснять на приближающийся сезон.

Если молоко и яйца пользуются спросом каждый год, то для более редких и сезонных товаров такого очевидного списка нет.

Описание отчета
Мы начали создание целого инструмента для помощи коллегам с вопроса «что такое и как считать сезонный товар» и придумали несколько методик.
Первая методика: исключаем топ-1000 товаров каждый месяц, выводим оставшиеся.
Вторая методика: выводим товары с РТО больше, чем +15% от среднегодового показателя.
Сейчас в отчете используются обе методики, каждая из которых выводит список товаров, отсортированный по сумме продаж за выбранный месяц за текущий и прошлый год.
В списке товаров есть характеристики: ID товара, наименование, количество фотографий в базе и объем продаж. При клике на товар на дашборде формируется справочная карточка. Она помогает принять решение, нужны ли новые фото или нет. Там же, пользователь может сразу перейти на внутренний портал Впрока и отредактировать карточку товара.

Благодаря возможности выгрузки данных в Excel, коллеги получают готовый список в удобном и знакомом формате таблицы. С этим списком можно составлять план фотографий или же запрашивать фото у поставщиков.

Отчетом пользуются коллеги из контент-отдела, чтобы проверить, где чего не хватает. К отчету обращаются несколько раз в год, когда идет планирование фотографий и определение будущих работ.

Несмотря на то, что дашборд сделан специально под контент-команду, им также пользуются коллеги из коммерческого департамента (чтобы узнать, что будет пользоваться популярностью на будущее) и коллеги из рекламы (чтобы узнать, что можно посоветовать посетителям сайта).
Этот отчет помогает внутренней команде улучшать пользовательский опыт клиентов ВПРОКа — ведь покупатели теперь всегда видят хорошие, качественные и актуальные фотографии товаров, а значит — вероятнее примут решение о покупке.
Юрий Давыдов
Руководитель направления работы с данными в области управления персоналом
BI — это логичный и очень важный шаг в развитии компании. С нашей численностью другие инструменты просто не справятся с таким объемом данных. Считайте сами — 250 тысяч человек умноженных на 30 дней в месяце — такой объем строк невозможно показать в Excel и посмотреть подневную динамику.

У нас внутри есть свои компетенции по созданию отчетности в Tableau. Мы быстро снимаем потребности с бизнеса и делаем это успешно — в топе самых востребованных отчетов, было 3 наших SSA-отчета (т.е. разработанных самостоятельно). Мы начали наращивать навыки по разработке, когда поняли, что за этим — будущее. 3 года назад все основные отчеты делали в Excele. Сегодня численность отдела по факту не изменилась, но количество отчетности, созданной в Tableau+Qlik, увеличилась в 3 раза.
Что такое данные
Данные — это набор фактов и наблюдений, которые можно использовать для анализа, расчетов, планирования и прогнозирования. Все данные можно разделить на две категории: структурированные данные и неструктурированные.
Большинство данных в мире неструктурированно. Такие данные, как правило, представлены в виде текста, который может содержать любую информацию: цифры, даты, прочие факты. Примером неструктурированных данных являются любые тексты, книги, видео, аудио, изображения — вообще практически все, что вы видите вокруг себя.

Структурированные данные — все, которые имеют формализованную структуру. Они уже обработаны и пригодны для работы. То есть, их можно разложить на столбцы и строки и загрузить в инструмент для анализа данных.

Структурированные данные упорядочены и типизированы: хранятся в форме таблиц, имеют столбцы (поля) и строки (записи). Еще говорят, что каждый столбец представляет собой атрибутданных, а каждая строка — единицу наблюдения.
Структурированные данные хранятся в специальных системах, к которым могут подключаться как специалисты, так и конечные пользователи — это могут быть отдельные файлы, базы данных или облачные системы хранения данных.
5 вопросов к данным
Начиная любую работу с данными, вне зависимости от того, что именно вы хотите с ними сделать, будет полезно сформулировать для себя ответы на ключевые вопросы о их природе.

Вопросы не зависят от формы имеющихся данных — таблица, база данных, корпоративный дашборд или презентация. Иногда ответы на эти вопросы бывают очень простыми, а иногда требуют длительных размышлений.
1
Что является источником ваших данных
Этот вопрос напрямую влияет на доверие к полученным результатам анализа. Если кто-либо делится с вами фактами, показывает какие-либо промежуточные данные, но при этом не раскрывает источник информации, отнеситесь к этому с максимальной осторожностью.
2
Кто владеет данными и поддерживает их актуальность
Как только вы разберетесь с источником данных, следует понять кто поддерживает данные в актуальном виде, кто является их ответственным владельцем.
3
Когда данные обновлялись в последний раз
Это может казаться вам незначительной деталью, но ответ на этот вопрос приводит к потрясающей разнице в результате.

Время — это фундаментальная характеристика любых данных, которые мы с вами собираем. Если кто-то будет показывать вам любой график или диаграмму, вы всегда будете интересоваться к какому времени относятся эти данные.
4
Какие переменные наиболее значимы и как они определяются
Наборы данных часто могут быть очень большими. Каждая запись может характеризоваться десятками, сотнями или даже тысячами атрибутов или переменных. Часто совсем нецелесообразно рассматривать каждую из них по отдельности.

Для поиска закономерностей вам придется сузить поле зрения до наиболее важных переменных, те, которые именно вы считаете важными. Вам также надо подумать о форме этих переменных — будут ли они рассматриваться вами в виде индивидуальных значений или агрегированного числа или в виде стат.показателей.
5
Как эти данные были изменены, собраны и сохранены
Каждое значение данных создается процессом или системой, которая может включать в себя как человеческий, так и машинный ввод.

Между данными в системах и реальностью всегда есть разрыв, который часто зависит от системы сбора и измерения данных.

Ваша задача — понять, насколько этот разрыв может быть критическим.
Чат — полноценная площадка марафона
Присоединяйтесь к внутреннему чату для обсуждения материалов марафона и прочих веселых активностей
Полезные ссылки
Если вам интересно узнать больше по дополнительным темам Марафона, переходите по ссылкам для дальнейшего изучения тем и расширения кругозора

2022