Читайте новини і аналітику про ритейл та e-commerce в Україні на нашій сторінці в Facebook, на нашому каналі в Telegram, а також підписуйтеся на щотижневу e-mail розсилку.
Как устроена система рекомендаций в шопинг-клубе LeBoutique
Александр Руппельт
11 сентября в бизнес-центре "Парус" прошла конференция "Big data conference". В рамках этого события аналитик шопинг-клуба leBoutique Александр Руппельт рассказал, как система рекомендаций позволила нарастить продажи в два раза
Что такое большие данные? Википедия дает определение, что это данные, структура, объем и обработка которых должна происходить нетрадиционными методами, поскольку традиционные методы не работают. Мы в leВoutique осторожно к этому относимся и не говорим что у нас «большие данные». Мы говорим, что у нас данных много. У нас 200000-300000 клиентов и мы записываем на какие ссылки они переходят, на каких участках страницы находятся, что они смотрят. И все это в реальном времени, то есть это очень много данных. Мы не всегда успеваем обрабатывать все данные и многие из них пишутся на перспективу с учетом того, что мы начнем с ними работать.
Сейчас вам мало просто знать математику, чтобы быть хорошим аналитиком. Хороший аналитик должен понимать бизнес-цель компании. В нашем случае цель — построить хорошие отношения с клиентом.
Ассоциативные правила — очень нужный инструмент аналитика. Это некие правила, где есть условие "если - то". Такие правила формируются тем, что ищутся частые паттерны —повторяющиеся элементы— среди ваших дата-сетов, которые отсекаются по порогу таких понятий как "support" и "confidence". Что такое support? Это то, как часто ваши товары Х и У содержатся в дата-сете вместе. Например: вы видите, что в чеке есть 20 единиц разных наименований товаров. Потом вы анализируете несколько чеков и видите, что пиво и молоко встречаются вместе. Из скольких чеков вместе встречаются пиво и молоко — это и есть support. Confidence означает насколько ваше правило правильное. То есть если встречается пиво, то встречается ли молоко? И в скольких случаях? Если у вас магазин одежды, но один раз там продавалась отвертка с молотком. Какой-то клиент купил отвертку и молоток - у вас confidence - 100% правило, что если купят отвертку, то купят и молоток. Но support маленький из-за того, что вы никогда больше такую комбинацию не продавали. У Вас 100 000 чеков и 1/100000 — это вероятность того, что это вообще встречается, то есть это не сильное правило. Сами по себе правила могут служить некой базой для рекомендаций. Вы видите, что человек положил в корзину юбку, вы знаете, что с большой вероятностью туда пойдут туфли, вы можете сразу же их предложить ему.
Ассоциативные правила - это фундамент нашего бизнеса, но это только начало, а дальше нужно идти в персонализацию, как мы и сделали. Вы видите, что каким-то товарам люди ставят "лайк" или "дислайк" и собираете это все в матрицу. Так вы получаете некое предсказание, что та или иная картинка этому человеку может понравиться. Система рекомендаций, основанная на том, что человеку понравилось до этого, называется коллаборативная. Систему рекомендаций первым начал внедрять Amazon. В leBoutique до моего прихода было простое правило: мы брали тот же бренд и ту же ценовую категорию и показывали их клиенту. Но мы хотели туда добавить математики и персонализации, чтобы для каждого человека это было что-то свое и уникальное.
Какая может быть цель рекомендационной системы? Цель — на основе доступных данных, и желательно быстро, чтобы клиент не ждал и чтобы мы не загружали ему страницу лишний раз — порекомендовать товары и услуги, оставляя у него, "ощущение магии". Необходимо быстро найти нужный товар плюс это некоторая манипуляция: вы не обязаны об этом говорить клиенту, но вы можете продавать ему товар подороже, подешевле, часто продаваемый или редко продаваемый, то есть вы можете управлять этим процессом. Например, вы знаете, что у вас качественный товар, но его никто не покупает и его никогда больше не будет. Вы можете не всем его рекомендовать, а только тем, кому, по вашему мнению, он может быть интересным.
Мы изначально думали, что сейчас есть проблема выбора. Если мы заставляем клиента очень долго ходить по сайту, то он может устать и сказать: "Ну все, до свиданья! Не буду ничего у вас покупать". У нас была такая гипотеза, но оказалось наборот. У нас получилось, что чем больше страниц клиент посещает, тем больше вероятность, что он купит. И этот тренд растущий, вплоть до 100-150 страниц. То есть люди, которые просмотрели 150 страниц, у нас покупали с очень большой вероятностью. Поэтому мы не побоялись внедрять нашу систему рекомендаций. Клиенту что-то надо, он это ищет и находит, а мы стараемся ему дать возможность это найти. И когда мы поняли, что это все-таки так должно работать, мы решили внедрить систему рекомендаций. Коллаборативная фильтрация несет определенные сложности. Во-первых, вопрос: что рекомендовать человеку, который ничего у вас еще не купил? Выходы есть, но у каждого они свои.
Вторая проблема была более ЛеБутиковая: система нашего бизнеса такова, что есть акции и товары, которые участвуют в этих акциях. Если акция заканчивается, то товаров на сайте нет. Акция длится 5 дней. Это значит, что товар 5 дней есть на сайте, а после этого его никогда не будет. Эти 5 дней нам не оставляют никаких манипуляций потому что за это время клиент может сделать 1 покупку, ну максимум 2, а нам нужно чтобы было видно, что он покупает, какие покупки делает. То есть для этого нужен статический ассортимент. У нас его не было и мы думали как это решить. Мы нашли выход в текстовом описании товара. Есть специально обученные люди, которые пишут для товаров описания. Эти описания мы брали и сравнивали по формуле для одного термина ("термин" - это слово) в документе, документ - это описание одного товара. Вы берете термин, ищите его важность в этом документе, смотрите, как часто ваш термин встречается в определенном документе. Если в документе идет речь о юбке, она, например, может встречаться 3 раза. Есть показатель, который говорит о том насколько уникально это слово в документе. То есть если у вас в корпусе нигде ничего не рассказывается про юбку, а только в этом одном документе, то вы будете знать, что именно в этом документе "юбка" - это очень важное слово. В нашем же случае это слово действительно неважное, потому что товаров со словом "юбка" было много. Но в нашем случае оказались важными слова цветов, например, "бирюзовый". "Бирюзовый" не так часто встречается где-то и поэтому его важность была довольно высокая. Это нам помогло по цвету рекомендовать бирюзовое платье, например.
Мы это сделали нашу систему рекомендаций не сами — одному человеку и даже команде это сделать сложно. Мы должны понимать, что если у вас на сайте 20000 наименований, то нужно 20 000 текстовых описаний. Вам нужно сгенерировать некую матрицу, которая будет определять схожесть одного текста с другим и определять алгоритм - понимание какой из них важный. Это, на самом деле, сложный процесс. Если у кого-то "big data" ассоциируется со словами "очень долго", то вот здесь была "bigdata"! Система иногда рассчитывалась по 3-4 часа. Потом мы сделали так, что рассчитывалось по 5 минут, но мы делали это не один или два раза в день, а каждые 15 минут и оно стало работать лучше. В общем, мы все "вылизали", на это ушло около 8 месяцев. Продажи выросли в два раза по отношению к старым
Записала Анна Хитрич