Задача 1

Прогнозирование вероятности того, что пользователь сделает заказ через колл-центр

Условие:

Практически в любом российском интернет-магазине есть возможность оформить заказ по телефону. Для интернет-магазина это может означать дополнительные расходы на контактный центр, которых можно было бы избежать, мотивировав клиента самостоятельно оформить заказ на сайте. Задача заключается в том, чтобы на основании данных о поведении пользователя на сайте определить, каким способом клиент, скорее всего, оформит заказ: самостоятельно на сайте или через звонок в колл-центр.

Исходные данные состоят из четырех таблиц:

t1_orders_train и t1_orders_test - обезличенные данные о заказах пользователей

  • order_id - id заказа
  • create_time - дата создания заказа (закодирована)
  • good_id - id товара в заказе
  • price - цена товара
  • utm_medium - идентификатор типа трафика (например, "контекстная реклама" или "органический трафик")
  • utm_source - идентификатор источника трафика (например, "Яндекс", "Google")
  • sessionkey_id - id сессии
  • category_id - id конечной категории (например, "Холодильники")
  • parent_id - id родительской категории (например, "Техника для кухни")
  • root_id - id главной категории (например, "Бытовая техника")
  • model_id - id модели
  • is_moderated - отмодерирована ли модель (означает наличие картинки, характеристик, описания)
  • rating_value - рейтинг модели по отзывам
  • rating_count - количество отзывов на модель
  • description_length - длина описания модели в символах
  • goods_qty - количество товаров в модели
  • pics_qty - количество картинок в модели
  • model_create_time - дата создания модели (закодирована)
  • is_callcenter - сделан ли заказ через колл-центр (1 - да, 0 - нет)

Для данных в таблице t1_orders_test параметр is_callcenter отсутствует

t1_sessionstat - интегральные обезличенные данные о пользовательских сессиях

  • sessionkey_id - id сессии
  • visitor_id - id пользователя
  • date_time - дата начала пользовательской сессии
  • user_agent - юзер-агент пользователя
  • duration_sec - продолжительность сессии в секундах
  • pageviews - количество просмотренных страниц в сессии
  • cartadds - количество товаров, помещенных в корзину
  • internal_searches - количество запросов во внутреннем поиске на сайте
  • page_type - идентификатор типа страницы (например, "страница модели" или "страница со списком моделей")
  • utm_medium - идентификатор типа трафика (например, "контекстная реклама" или "органический трафик")
  • utm_source - идентификатор источника трафика (например, "Яндекс", "Google")

t1_webstat - обезличенные данные о свойствах пользовательских сессий

  • sessionkey_id - id сессии
  • date_time - время начала сессии
  • page_type - идентификатор типа страницы (например, "страница модели" или "страница со списком моделей")
  • pageview_number - номер действия в сессии
  • pageview_duration_sec - продолжительность действия в сессии
  • category_id - id конечной категории (например, "Холодильники")
  • model_id - id модели
  • good_id - id товара
  • price - цена товара
  • product_in_sale - товар находился в продаже (на момент захода пользователя на данный товар)

Значение "NULL" во всех таблицах означает отсутствие данных.

Задание:

Для всех заказов из файла t1_orders_test необходимо определить значение параметра is_callcenter, то есть по сути определить вероятность того, что этот заказ будет сделан через коллцентр.

Решение необходимо прислать в виде txt или csv файла, состоящего из двух колонок, разделенных знаком табуляции. Первая колонка содержит order_id, вторая - число от 0 до 1, обозначающее вероятность того, что этот заказ был сделан через коллцентр. Файл с решением обязательно должен содержать все id заказов из тестовой выборки и не содержать никаких других идентификаторов. Изменять порядок order_id в загружаемом файле нельзя. Разделителем целой и дробной части во второй колонке должен быть символ точки ".". Например, "0.576".


Скачать данные Скачать шаблон ответа Загрузить решение Посмотреть рейтинг

Задача 2

Прогнозирование вероятности отказа пользователя от созданного заказа

Условие:

Совершая покупки через интернет, покупатели иногда отказываются от оформленных заказов. Понимание причин пользовательских отмен заказов может повысить качество сервиса интернет-магазина. Задача – на основании данных поведения пользователя на сайте, данных заказа и скорости его обработки построить классификатор, наилучшим образом предсказывающий вероятность клиентской отмены.

Исходные данные состоят из четырех таблиц:

t2_orders_train и t2_orders_test

  • order_id - id заказа
  • create_time - дата создания заказа (закодирована)
  • goods_qty - количество товаров в заказе
  • revenue - суммарная стоимость всех товаров в заказе
  • discount - скидка
  • margin - суммарная маржинальность заказа
  • items_qty - количество позиций в заказе (может быть, например, 4 позиции и 2 товара)
  • delivery_date - дата доставки товара (закодирована)
  • iscallcenter - заказ сделан через колл-центр (центр обработки телефонных вызовов покупателей)
  • is_client_cancel - покупатель отказался от заказа (1 - да, 0 - нет)
  • delivery_type - тип доставки (курьер или самовывоз)
  • model_id - id модели
  • provider - код поставщик товара
  • is_stock - товар есть в наличии (1 - да, 0 - нет)
  • price - цена самого дорогого товара
  • delivery_price - цена доставки
  • confirm_time - время подтверждения заказа магазином (звонок пользователю о том, что заказ подтвержден)
  • utm_medium - идентификатор типа трафика (например, "контекстная реклама" или "органический трафик")
  • utm_source - идентификатор источника трафика (например, "Яндекс", "Google")
  • sessionkey_id - id сессии
  • category_id - id конечной категории (например, "Холодильники")
  • parent_id - id родительской категории (например, "Техника для кухни")
  • root_id - id главной категории (например, "Бытовая техника")
  • is_moderated - отмодерирована ли модель (означает наличие картинки, характеристик, описания)
  • rating_value - рейтинг модели по отзывам
  • rating_count - количество отзывов
  • description_length - длина описания модели в символах
  • model_goods_qty - количество товаров в карточке самой дорогой модели из заказа
  • pics_qty - количество картинок в карточке самой дорогой модели из заказа
  • model_create_time - дата создания модели (закодирована)

Для сессий в тестовой выборке параметр is_client_cancel отсутствует

t2_sessionstat

  • sessionkey_id - id сессии
  • visitor_id - id пользователя
  • date_time - дата начала пользовательской сессии
  • user_agent - юзер-агент пользователя
  • duration_sec - продолжительность сессии в секундах
  • pageviews - количество просмотренных страниц в сессии
  • cartadds - количество товаров, помещенных в корзину
  • internal_searches - количество использований внутреннего поиска
  • page_type - идентификатор типа страницы (например, "страница модели" или "страница со списком моделей")
  • utm_medium - идентификатор типа трафика (например, "контекстная реклама" или "органический трафик")
  • utm_source - идентификатор источника трафика (например, "Яндекс", "Google")

t2_webstat

  • sessionkey_id - id сессии
  • date_time - дата сессии
  • page_type - идентификатор типа страницы (например, "страница модели" или "страница со списком моделей")
  • pageview_number - номер действия в пользовательской сессии
  • pageview_duration_sec - продолжительность действия в пользовательской сессии
  • category_id - id конечной категории
  • model_id - id модели
  • price - цена модели
  • product_in_sale - модель находилась в продаже (на момент захода пользователя на данную модель)

Задание:

Для всех заказов из файла t2_orders_test необходимо заполнить поле is_client_cancel, то есть по сути определить вероятность клиентской отмены от заказа.

Решение необходимо прислать в виде txt или csv файла, состоящего из двух колонок, разделенных знаком табуляции. Первая колонка - order_id, вторая - is_client_cancel - число от 0 до 1, обозначающее вероятность того, что в этот заказ был отменен пользователем. Файл с решением обязательно должен содержать все order_id сессий из тестовой выборки и не содержать никаких других идентификаторов. Разделителем целой и дробной части во второй колонке должен быть символ точки ".". Например, "0.576". Изменять порядок order_id в загружаемом файле нельзя.


Скачать данные Скачать шаблон ответа Загрузить решение Посмотреть рейтинг

Задача 3

Прогнозирование вероятности ухода посетителя с сайта

Условие:

Каждый посетитель интернет-магазина по-своему уникален. Кто-то склонен долго изучать ассортимент, сравнивая разные предложения, изучая характеристики и читая отзывы. Кто-то хочет потратить минимум времени для оформления заказа. А кто-то и вовсе пока не склонен к покупке и просто "прощупывает почву", изучает предложения в интернет-магазинах. Поведение покупателя на сайте зависит от многих факторов, но для повышения качества сервиса интернет-магазину нужно уметь найти свой подход к каждому посетителю. Для этого в том числе важно понимать причины ухода посетителя с сайта.

Задача - на основании данных о пользовательских сессиях, данных о моделях, которые пользователь просматривал, понять, является ли следующее действие пользователя выходом с сайта Викимарт.

Вопросы по условию задачи можно задать тут.

Исходные данные состоят из четырех таблиц:

t3_models

  • model_id - id модели
  • is_moderated - отмодерирована ли модель (означает наличие картинки, характеристик, описания)
  • rating_value - рейтинг модели по отзывам
  • rating_count - количество отзывов
  • description_length - длина описания модели в символах
  • model_goods_qty - количество товаров в модели
  • pics_qty - количество картинок в модели
  • model_create_time - дата создания модели (закодирована)
  • category_id - id конечной категории (например, "Холодильники")
  • parent_id - id родительской категории (например, "Техника для кухни")
  • root_id - id главной категории (например, "Бытовая техника")

t3_sessionstat_train и t3_sessionstat_test

  • sessionkey_id - id сессии
  • visitor_id - id пользователя
  • date_time - дата начала пользовательской сессии
  • user_agent - юзер-агент пользователя
  • pageviews - количество просмотренных страниц
  • page_type - идентификатор типа страницы (например, "страница модели" или "страница со списком моделей")
  • utm_medium - идентификатор типа трафика (например, "контекстная реклама" или "органический трафик")
  • utm_source - идентификатор источник трафика (например, "Яндекс", "Google")
  • is_cut - обрезана ли сессия
    • если 0, то не обрезана, а это значит, что следующее действие в сессии - выход с сайта
    • если 1, то обрезана, это значит, что на следующем шаге пользователь не уйдет с сайта

Для сессий в тестовой выборке параметр is_cut отсутствует. Все сессии из таблиц sessionstat_train и sessionstat_test разделены поровну (случайным образом) на те, в которых пользователь вышел с сайта на следующем шаге и те, в которых пользователь не вышел с сайта на следующем шаге. При этом минимальное количество шагов в сессии - 5 шагов.

t3_webstat

  • sessionkey_id - id сессии
  • date_time - дата сессии
  • page_type - тип страницы (закодирован)
  • pageview_number - количество просмотренных страниц в сессии
  • pageview_duration_sec - продолжительность пользовательской сессии
  • category_id - id конечной категории
  • model_id - id модели
  • price - цена модели
  • product_in_sale - модель находилась в продаже (на момент захода пользователя на данную модель)

Задание:

Для всех сессий из файла t3_sessionstat_test необходимо заполнить поле is_cut, то есть по сути определить вероятность того, что следующим действием пользователя не будет уход с сайта.

Решение необходимо прислать в виде txt или csv файла, состоящего из двух колонок, разделенных знаком табуляции. Первая колонка - sessionkey_id, вторая - is_cut - число от 0 до 1, обозначающее вероятность того, что следующим действием пользователя не будет уход с сайта. Файл с решением обязательно должен содержать все id сессий из тестовой выборки и не содержать никаких других идентификаторов. Разделителем целой и дробной части во второй колонке должен быть символ точки ".". Например, "0.576".


Скачать данные Скачать шаблон ответа Загрузить решение Посмотреть рейтинг

Описание конкурса

Цель этого конкурса — предоставить всем желающим возможность исследования пользовательского поведения с коммерческим интентом и научиться предсказывать наличие определенного действия пользователя в сессии.

В частности, поставленные в конкурсе задачи предлагают предсказать, что пользователь откажется от созданного им заказа или, например, не станет сам оформлять заказ через сайт, а позвонит в колл-центр.

За каждую задачу участник может получить от 0 до 25 баллов в зависимости от места в рейтинге. Рейтинг по каждой задаче формируется по убыванию качества результата, мерой которого служит мера AUC (Area Under Curve). Суммарный рейтинг - это сумма баллов по всем задачам. Побеждает тот, кто наберет наибольшую сумму баллов. Предоставленные на конкурс результаты организатором не возвращаются.

Призы

Поздравляем победителей!

1 место - Александр (приз - 73 450 руб)

2 место - Станислав (приз - 28 250 руб)

3 место - alsafr (приз - планшет iPad mini 16Gb Wi-Fi+Cellular стоимостью 17 300 руб)