Статья опубликована в рамках: LI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 30 марта 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
КЛАССИФИКАЦИЯ ПОТРЕБИТЕЛЬСКОГО ПОТЕНЦИАЛА КЛИЕНТА НА ОСНОВЕ ЕГО ПОВЕДЕНЧЕСКИХ ДАННЫХ МЕТОДОМ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА
В наши дни сведения о клиентах становятся все более важным производственным ресурсом. Развитие любого бизнеса взаимосвязано с ростом клиентской базы, которая требует к себе пристального внимания. Знания, накопленные в результате сотрудничества с клиентами не должны просто храниться в памяти компьютера и при правильном подходе позволяют узнавать потребителя «в лицо». Это необходимо для того, чтобы компания могла относить клиента к определенному классу, сегменту или группе. Данное разбиение на классы облегчает работу с потенциальными клиентами компании и позволяет заранее проследить тенденцию того или иного клиента на основе его поведенческих характеристик (по стоимости и количеству приобретенных товаров или услуг, по периодичности покупок). Для решения таких задач современными компаниями используются технологии Data Mining или интеллектуальный анализ данных [1].
Цель работы – разработать модель классификации, которая наиболее точно определяет к какому классу относится клиент, а именно у каких клиентов есть потенциальная деловая значимость, исходя из их поведенческих особенностей и действий. На основе данных в таблице клиента, необходимо определить было ли совершено действие, приводящее к покупке, или нет.
Для решения поставленной абстрактной задачи, а также для построения модели классификации необходимо использовать метод самоорганизующихся Карт Кохонена [4].
Перед построением самоорганизующихся Карт Кохонена, необходимо проанализировать полученную ранее выборку.
Сеть Кохонена имеет всего два слоя: входной и выходной, составленный из радиальных нейронов упорядоченной структуры (выходной слой называют также слоем топологической карты). Нейроны выходного слоя располагаются в узлах двумерной сетки с прямоугольными или шестиугольными ячейками [2, 3]. Количество нейронов в сетке определяет степень детализации результата работы алгоритма, и, в конечном счете, от этого зависит точность обобщающей способности карты. Для построения карт Кохонена необходимо разбиение множества данных на обучающее – 100 % и тестовое – 0 %
Способ начальной инициализации карты определяет, как будут установлены начальные веса нейронов карты. Удачно выбранный способ инициализации может существенно ускорить обучение и привести к получению более качественных результатов. Способ начальной инициализации карты: Случайными значениями так как объем обучающей выборки значительно (в 100 и более) превышает число ячеек карты, т.к. это даст меньшую вероятность попадания в локальный минимум ошибки кластеризации.
Количество эпох, через которые необходимо перемешивать строки: 20;
Скорость обучения в начале выбирается больше, чем в конце, поэтому скорость обучения: в начале – 0,3, в конце – 0, 005;
Радиус в начале должен быть достаточно большой – примерно половина или меньше размера карты (максимальное линейное расстояние от любого нейрона до другого любого нейрона). а в конце – достаточно малым, примерно 1 или меньше. Радиус обучения: в начале – 4, в конце – 0,1;
Если функция соседства Ступенчатая, то «соседями» для нейрона-победителя будут считаться все нейроны, линейное расстояние до которых не больше текущего радиуса обучения. Функция соседства: ступенчатая;
Кластеризация: автоматическая, так как необходимо, чтобы система сама определила количество кластеров.
Уровень значимости: 0,1 % (Рисунок 1)
Рисунок 1. Настройка параметров обучения карты Кохонена
В итоге получилось 147 эпох, а время обучения: 01.09.00
В процессе обучения модели, система выделила 3 наиболее значимых кластера: 0, 1 и 2. Благодаря такому разделению, уже можно оценить потенциальную значимость клиента в компании.
Если смотреть на карты char_1_REPLACE – char_9_REPLACE, то можно заметить закономерность, в которой значение равное 0 (Обозначенное как пустое или непригодное значение) занимает 3/4 карт, значит, кластеры №0 и №1 из данных карт можно не учитывать. Здесь следует анализировать верхний левый кластер или кластер № 2, в который входят все значения для анализа.
Карта char_10_REPLACE показала другой результат, в котором наблюдается разброс значений 0 и 1 в равном соотношении. При этом значение 1 значимое и входит сразу в 2 кластера: № 0 и № 1, которые следует учитывать при анализе модели.
В карте actitvity_category_REPLACE система выделила 1-й тип покупок, как наиболее значимый из всех (темно-синий), который входит в кластер № 2.
Таким образом, объединяя анализируемые карты, в одно целое получим, что значимыми кластерами будут кластер № 2 (Полностью) и Кластер № 0 (наполовину)
В результате построения получились следующие Карты Кохонена (Рисунок 2):
а) date;
б) char_1_REPLACE – char_10_REPLACE
в) activity_category_replace
г) Матрица расстояний;
д) Кластеры;
Очевидно, что на карте Кластеры, данные относящиеся к красному кластеру говорят о том, что была произведена покупка (activity_category_replace=1), то есть данное действие выполнилось, значит клиенты, относящиеся к кластеру № 2 точно является потенциально значимыми. Клиенты, относящиеся к кластеру № 0 тоже потенциально значимые, но они занимают лишь половину соответствующего кластера.
А клиенты, относящийся к кластеру № 1– потенциально не значимые.
Рисунок 2. Карты Кохонена
Таким образом, в результате обработки данных методом самоорганизующихся карт Кохонена была произведена следующая классификация потребительского потенциала клиента:
1. Из обучающей выборки было выявлено 22 % (470 003 записи) процента клиентов максимально влияющих на прибыль компании, то есть тех клиентов, чья потенциальная значимость высока и заслуживает внимания, что вполне соответствует маркетинговым и научным исследованиям о процентном соотношении потенциально значимых клиентов к общему числу клиентов (15-25 %).
2. Остальные 78 % процентов клиентов оказались потенциально не значимыми.
Данный результат можно считать удачным и вполне достоверным, так как при кросс-проверке данного обучающего множества с тестовым отклонение составило:
498 687 (Тестовая выборка) - 470 003 (Обучающая выборка) = 28 684 записи.
Список литературы:
- Большие данные в маркетинге [Электронный ресурс] – Режим доступа: URL: http://lpgenerator.ru/blog/2015/11/17/chto-takoe-big-data-bolshie-dannye-v-marketinge-problemy-algoritmy-metody-analiza (дата обращения: 22.03.17)
- Кластеризатор на основе нейронной сети Кохонена [Электронный ресурс] – Режим доступа: URL: http://mechanoid.kiev.ua/neural-net-kohonen-clusterization.html (дата обращения: 23.03.17)
- Нейронные сети [Электронный ресурс] – Режим доступа: URL: http://statsoft.ru/home/textbook/modules/stneunet.html (дата обращения: 22.03.17)
- Сети и карты Кохонена [Электронный ресурс] – Режим доступа: URL: http://gorbachenko.self-organization.ru/articles/Self-organizing_map.pdf (дата обращения: 25.03.16)
дипломов
Оставить комментарий