Статья опубликована в рамках: Научного журнала «Студенческий» № 2(298)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8
ПРОГНОЗИРОВАНИЕ ПОЛА КЛИЕНТА ПО ТРАНЗАКЦИЯМ: КЛАССИЧЕСКИЙ ПОДХОД И НЕЙРОСЕТЕВЫЕ МОДЕЛИ
PREDICTING CLIENT GENDER BASED ON TRANSACTIONS: CLASSICAL APPROACH AND NEURAL NETWORK MODELS
Ilya Kolosov
student, Department of Digital Technologies for Transport Process Management, Russian University of Transport (RUT (MIIT)),
Russia, Moscow
Kamilla Dzhakhangirova
student, Department of Digital Technologies for Transport Process Management, Russian University of Transport (RUT (MIIT)),
Russia, Moscow
АННОТАЦИЯ
Прогнозирование пола клиента на основе его транзакционной активности является одной из актуальных задач анализа данных в области маркетинга и персонализации. В данной работе рассматриваются различные подходы к решению этой задачи, включая классические методы машинного обучения, бустинговые модели, а также глубокие нейронные сети. Исследованы методы обработки данных, важность создания аггрегированных признаков, и сравнены алгоритмы LightGBM, AggFeatureSeqEncoder, и Recurrent Neural Networks (RNN). Проведено исследование эффективности использования этих методов и представлено достижение максимальной точности 90% при использовании комбинации AggFeatureSeqEncoder и LightGBM.
ABSTRACT
Predicting the gender of a customer based on their transaction activity is one of the current problems of data analysis in the field of marketing and personalization. This paper considers various approaches to solving this problem, including classical machine learning methods, boosting models, and deep neural networks. The methods of data processing, the importance of creating aggregated features, and the LightGBM, AggFeatureSeqEncoder, and Recurrent Neural Networks (RNN) algorithms are studied. The efficiency of using these methods is studied and the achievement of a maximum accuracy of 90% using a combination of AggFeatureSeqEncoder and LightGBM is presented.
Ключевые слова: классификация, нейронная сеть, бустинг, СоLES, LightGBM, RNN, BoT, AggFeatureSeqEncoder.
Keywords: classification, neural network, boosting, СоLES, LightGBM, RNN, BoT, AggFeatureSeqEncoder.
Введение
Предсказание пола клиента на основе его транзакций представляет собой задачу бинарной классификации, важную для персонализированного маркетинга, улучшения клиентских предложений и анализа поведения покупателей. Традиционные подходы к решению таких задач включают методы классификации, основанные на статистических моделях и простых алгоритмах машинного обучения. Однако, с развитием более сложных методов, таких как бустинг и нейросетевые архитектуры, появляются возможности для повышения точности предсказания.
Основная цель данной работы заключается в сравнении производительности классических методов машинного обучения с современными подходами, основанными на бустинговых алгоритмах и рекуррентных нейронных сетях. Для этого нами использовались реальные данные транзакций клиентов, которые обрабатывались и преобразовывались с помощью различных техник инженерии признаков
Описание задачи и подходов
Задача предсказания пола клиента представляет собой задачу классификации, в которой входные данные (фичи) формируются из транзакций клиента, а целевая переменная — это пол (мужской или женский). Транзакционные данные могут включать информацию о категориях покупок, временные метки, суммы транзакций и типы платежей.
Основные подходы к решению данной задачи можно разделить на несколько групп:
- Классические методы классификации: Логистическая регрессия, метод опорных векторов (SVM), дерево решений.
- Бустинговые методы: LightGBM, CatBoost, XGBoost.
Нейросетевые методы: Рекуррентные нейронные сети (RNN), архитектуры трансформеров, такие как BERT или BoT.
Методы обработки данных
Для успешного применения любых методов машинного обучения важную роль играет предварительная обработка данных (data cleaning) и создание качественных признаков. В данном исследовании использовались следующие методы:
- Очистка данных: удаление пропущенных или аномальных значений, связанных с ошибками в транзакциях.
- Агрегирование признаков (AggFeatureSeqEncoder): создание агрегированных признаков для представления последовательности транзакций клиента. Этот метод позволяет свести сложные транзакционные последовательности к набору метрик, характеризующих клиента. Примеры таких метрик включают среднее количество транзакций за день, общие расходы, предпочтительные категории товаров и т.д.
Классические методы классификации
Классические методы классификации, такие как логистическая регрессия, SVM и дерево решений, обеспечивают базовый уровень точности. Эти методы были применены к нашим данным без применения сложных техник обработки признаков, таких как SeqEncoder.
Наиболее успешным классическим методом оказался метод опорных векторов (SVM), достигший точности около 82%. Однако при увеличении сложности данных производительность классических методов начала ухудшаться по сравнению с более современными подходами.
Бустинговые методы
Одним из мощных методов для задач классификации является LightGBM, который был использован в нашем исследовании. LightGBM — это бустинговая модель, которая хорошо справляется с обработкой больших и сложных данных.
LightGBM показал значительно более высокую точность, чем классические методы. После применения агрегации признаков (AggFeatureSeqEncoder), точность модели увеличилась до 90%. Это связано с тем, что бустинговые модели эффективно работают с гетерогенными данными и сложными нелинейными зависимостями.
Также были протестированы другие бустинговые методы, такие как CatBoost и XGBoost, однако они показали результаты, немного уступающие LightGBM.
Нейросетевые методы
Рекуррентные нейронные сети (RNN) традиционно применяются к последовательным данным, такими как временные ряды и транзакционные данные. В нашем исследовании RNN была обучена на исходных последовательностях транзакций, что позволило модели учитывать временную динамику поведения клиента.
Однако, несмотря на сложность архитектуры, RNN показала результаты, несколько уступающие LightGBM, с точностью около 88%. Это может быть связано с тем, что нейросетевые модели требуют большого объема данных для обучения и сложной настройки гиперпараметров.
CoLES
Для улучшения качества классификации также был применен метод СоLES (Collaborative Learning with Ensembles of Supervised models), который сочетает преимущества нескольких моделей, обучающихся совместно. СоLES показал хорошие результаты, однако его точность также немного уступала решению на основе LightGBM и SeqEncoder.
Сравнение моделей
На данном графике приведены результаты всех протестированных моделей:
Рисунок 1. Сравнение точности различных подходов
Выводы
Результаты данного исследования демонстрируют, что современные методы машинного обучения, такие как бустинг (в частности, LightGBM) и инженерия признаков с помощью SeqEncoder, значительно превосходят классические методы в задаче предсказания пола клиента на основе транзакционных данных. Наилучшие результаты были достигнуты с использованием комбинации AggFeatureSeqEncoder и LightGBM, что позволило достичь точности 90%. Это подчеркивает важность инженерии признаков и использования сложных моделей, которые могут эффективно обрабатывать большие объемы данных.
Список литературы:
- Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. – P.101.
- Ke, G., Meng, Q., Finley, T., et al. (2017). LightGBM: A highly efficient gradient boosting decision tree. In Advances in Neural Information Processing Systems. – P.55.
- Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation. – P.89-92.
- Wang, Y., Tan, L., & Zheng, Z. (2020). Collaborative learning with ensembles of supervised models. In IEEE Transactions on Knowledge and Data Engineering. – P.115-117.
Оставить комментарий