Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CVIII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 25 декабря 2024 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Потенко М.А. ПРИМЕНЕНИЕ СИНТЕТИЧЕСКИХ ДАННЫХ В ОБУЧЕНИИ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОЦЕНКИ ПОЗ ЧЕЛОВЕКА // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CVIII междунар. науч.-практ. конф. № 12(100). – Новосибирск: СибАК, 2024. – С. 11-17.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

ПРИМЕНЕНИЕ СИНТЕТИЧЕСКИХ ДАННЫХ В ОБУЧЕНИИ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОЦЕНКИ ПОЗ ЧЕЛОВЕКА

Потенко Максим Алексеевич

аспирант, Московский авиационный институт (национальный исследовательский университет),

РФ, г. Москва

APPLICATION OF SYNTHETIC DATA IN TRAINING NEURAL NETWORKS FOR HUMAN POSE ESTIMATION

 

Maxim Potenko

Graduate student Moscow Aviation Institute (national research university),

Russia, Moscow

 

АННОТАЦИЯ

Подготовка данных напрямую влияет на эффективность обучения нейронной сети. При недостаточном количестве данных сеть может плохо обучиться и часто выдавать ложные результаты, либо не обучиться вовсе. Также нередки ситуации, связанные с переобучением – когда нейронная сеть излишне привязывается специфическим данным, представленным в обучающей выборке. Обучающий набор в идеале должен включать всё возможное разнообразие вариантов, но это, как правило, невозможно. В задачах по анализу человеческого тела проблемы связанные с нехваткой обучающих данных стоят наиболее актуально так как помимо проблем с разнообразным фоном, условиями освещения, присутствуют сложности и с представлением самого человека: разный цвет кожи, разные прически, одежда, а также высокая гибкость для представлении на изображении – например нейронная сеть наученная выявлять людей в стоячем положении, может не справляться с сидящими или танцующими людьми. Для восполнения нехватки данных в данной работе предлагается использовать синтезированные данные, а также применять набор преобразований над изображением, чтобы повысить качество обучающей выборки. Применение такого подхода показало повышение точности на собранном в данном исследовании наборе в задачах поиска ключевых точек с 78% до 86% и в задачах сегментации с 71% до 77%.

ABSTRACT

Data preparation directly affects the effectiveness of training a neural network. With insufficient data, the network may learn poorly and often produce false results, or it may not learn at all. Situations related to overfitting are also common, where the neural network becomes overly attached to the specific data presented in the training set. Ideally, the training set should include all possible variations, but this is generally impossible. In tasks related to human body analysis, issues related to the lack of training data are particularly relevant because, in addition to problems with diverse backgrounds and lighting conditions, there are also challenges with representing the person themselves: different skin tones, various hairstyles, clothing, and a high degree of flexibility in representation in images— for example, a neural network trained to identify people in a standing position may struggle with seated or dancing individuals. To address the lack of data in this work, it is proposed to use synthesized data and apply a set of transformations to the images to improve the quality of the training set. The application of this approach has shown an increase in accuracy on the dataset collected in this study for keypoint detection tasks from 78% to 86% and for segmentation tasks from 71% to 77%.

 

Ключевые слова: наборы данных; нейронные сети; свёрточные нейронные сети; распознавание объектов; компьютерное зрение; Human Pose Estimation.

Keywords: datasets; neural networks; convolutional neural networks; object recognition; computer vision; Human Pose Estimation.

 

СБОР ДАННЫХ

Цель данного исследования состоит в подготовке качественного набора данных для обучения нейронной сети по построению скелетной модели человека, из чего следует, что обучение будет проходить на наборе изображений и последовательности кадров из видео.

Перед сбором данных необходимо определить спектр потенциальных сложностей при обучении нейронной сети, что напрямую влияет на требования к сбору данных. Изображения и видео с людьми обладают как общими, так и специфическими особенностями и проблемами:

  • Внешняя среда. Многие наборы данных собираются в помещениях и пустых студиях, это нередко приводит к тому, что сеть хуже справляется в другом окружении. Также стоит пытаться достигнуть максимального разнообразия и по условиям освещения, чтобы избежать лишней привязки к его особенностям.
  • Высокая вариативность внешности. К ним можно отнести пол, расовые особенности, прическу, одежду, различные пропорции частей тела и некоторые другие.  Частой проблемой обучающих выборок становится то, что они строятся на основе небольшого круга лиц - соответственно нейронные сети, обученные на таких данных, плохо справляются с распознаванием людей, отличающихся от тех, что участвовали в съемке.
  • Перекрытие частей тела. Из-за высокой подвижности человека многие части тела могут быть перекрыты друг другом, либо другими объектами. В таких ситуациях нужно особенно осторожно размечать данные, обычно для перекрытых участков указывают предполагаемое расположение, если не известно достоверное.
  • Различные позы. Наборы данных должны включать максимальное разнообразие поз человека: стоя, сидя, лежа, во время занятия спортом и т.д. Наличие сложных поз в обучающем наборе помогает справляться с большим разнообразием данных при непосредственной работе.

Предварительно проанализируем и обработаем существующие наборы данных:

  • COCO [1]. Данный набор данных включает множество различных объектов в том числе и размеченные изображения людей. Человек в данном наборе представлен в виде скелетной модели человека из 17 точек. В наборе примерно 60 000 изображений с 150 000 людьми на них. Точки на них размечаются в двумерном пространстве, поэтому для добавления псевдоглубины в данной работе используется упрощенная нейронная сеть, обученная на других наборах данных с последующей ручной правкой.
  • Leeds Sports Pose Dataset [2]. Набор данных, состоящий из 2000 изображений в оригинальном виде и 10 000 в расширенном. Использует скелетную модель человека из 14 точек. Особенность набора в том, что он содержит изображения людей при занятии различными видами спорта.
  • MPII Human Pose [3]. Один из эталонных наборов данных. Как и в предыдущем варианте использует представление человека из 14 суставов. В 25 000 изображениях содержится более 40 000 человек.
  • Human3.6M Dataset [6]. Как следует из названия содержит свыше 3 600 000 кадров, которые представлены в виде видео с частотой 50Гц. Данный набор в отличии от предыдущих использует трёхмерную модель человеческого тела, поэтому его использование в данном исследовании осложняется тем, что необходимо предварительно преобразовать трёхмерную модель в скелетную. Из-за большого количества данных и их сходства, использование набора может приводить к переобучению, поэтому в нашем наборе данных его количество будет сокращено минимум в 100 раз, для совместного использования с другими наборами. Благодаря съемке с 4 камер и построению трёхмерной модели, из данного набора легко выделить глубину расположения суставов.

Демонстрация некоторых примеров из наборов MPII и Human3.6M представлена на Рисунке 1.

 

Рисунок 1. Наборы данных MPII и Human3.6M

 

Чтобы можно было обучаться сразу на всех набор данных, они приводятся к единому виду, иногда совместно с использованием упрощённой нейронной сети для прогнозирования неразмеченных точек и получения псевдоглубины. В работе используется упрощенная схема из 17 точек и расширенная из 33.

СИНТЕТИЧЕСКИЕ ДАННЫЕ

Даже несмотря на совместное использование многих наборов данных, они не могут предоставить желаемое разнообразие: например, большинство из них содержит весьма ограниченный круг людей в одном или нескольких помещениях. Помимо этого, часть из данных размечена не точно ввиду ошибок, совершённых человеком при разметке, а также неточностях предсказания глубины из-за отсутствия сведений от датчиков в части наборов. Справиться с такими проблемами помогает использование синтетических данных – фотореалистичные виртуальные модели размещённые в 3D редакторе (в нашем случае это Blender). В качестве виртуальной моделей используются люди с крайне разнообразными внешними признаками: разной одеждой, полом, цветом волос, цветом кожи и т.д. Пример одного из наборов с трёхмерными моделями людей представлен на Рисунке 2.

 

Рисунок 2. Виртуальные модели

 

Существенная часть синтетически данных была получена благодаря SMPL [8] моделям человеческих тел, они были разработаны путем сканирования реальных людней, и каждая из моделей представляет из себя как скелетное, так и объемное представление. Поскольку данный набор включает только объем, но не предлагает визуальных текстур для отображения, то они берутся из набора CAESAR [9], часть из которых в данном исследования проходит цветокоррекцию для расширения количества вариантов внешнего вида. SMPL модель демонстрируется на Рисунке 3.

 

Рисунок 3. SMPL модель

 

Для каждого образа человека мы меняем внешнее окружение от квартиры до горных массивов, что позволяет предоставить огромное многообразие внешних факторов и избавиться от нехватки природных фонов в обучающем наборе.

На каждого человека накладывается различная анимация: простая прогулка, бег, прием пищи, сон, занятие спортом и танцами. Применение анимаций позволяет получить обучающие данные даже для самых сложных поз, а учитывая возможность смены точки привязки камеры, данные можно увеличить многократно.

Самым важным преимуществом применения синтетического набора является возможность получению абсолютно достоверных данных по расположению любого сустава в том числе и с точки зрения его глубины в пространстве. Также в данном исследовании используется сегментированная область для дополнительной оценки качества и в задаче сегментирования человеческого тела, а не только получения скелетной модели.

По результатам тестирования было выявлено, что использование синтетических данных в количестве, превышающем треть от общего объема обучающей выборки, нецелесообразно для данного исследования, ввиду дальнейшего переобучения на особенностях синтетических данных. Для тестирования бралось фиксированное число данных и менялось соотношение в нём между искусственными и реальными. Общее количество тестовых данных составляет 20% от всех данных, тестовый набор не входит в обучающую выборку, чтобы минимально влиять на результат.

В Таблице 1 показаны результаты mAP(средняя точность) для соотношения 1 к 2.

Таблица 1.

Результаты тестирования

Данные

Суставы

mAP

Сегментация

mAP

Реальные

78

71

Синтетические

64

62

Реальные + Синтетические

86

77

 

График поведения при различном соотношении представлен на Рисунке 4. По оси x у него процент синтетических данных, а по оси y точность работы нейронной сети.

 

Рисунок 4. График точности при разных соотношениях данных

 

 

Список литературы:

  1. Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, C Lawrence ´ Zitnick, — Microsoft coco: Common objects in context. — European conference on computer vision — Springer, 2014 — P. 740–755.
  2. Sam Johnson et al. — Clustered Pose and Nonlinear Appearance Models for Human Pose Estimation, URL:https://www.academia.edu/99389208/Clustered_Pose_and_Nonlinear_Appearance_Models_for_Human_Pose_Estimation  (дата обращения: 24.12.24)
  3. Andriluka, M., Pishchulin, L., Gehler, P., Schiele, B — 2D Human Pose Estimation: New Benchmark and State of the Art Analysis. — IEEE Conference on Computer Vision and Pattern Recognition (CVPR) — 2014 — pp. 3686-3693.
  4. Xiang Yu, Feng Zhou, Manmohan Chandraker — Deep Deformation Network for Object Landmark Localization — 2016 — URL:https://arxiv.org/pdf/1605.01014 (дата обращения: 24.12.24)
  5. Chai, Y., Lempitsky, V., Zisserman, A. — Symbiotic segmentation and part localization for fine-grained categorization. — ICCV. — 2013
  6. Catalin Ionescu, Dragos Papava, Vlad Olaru and Cristian Sminchisescu — Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments — IEEE Transactions on Pattern Analysis and Machine Intelligenc — vol. 36, no. 7 — July 2014
  7. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. — Deep Residual Learning for Image Recognition — IEEE Conference on Computer Vision and Pattern Recognition (CVPR) — 2016.
  8. M. Loper, N. Mahmood, J. Romero, G. Pons-Moll, and M. J. Black. — SMPL: A skinned multi-person linear model. SIGGRAPH Asia — 2015
  9. K. Robinette, S. Blackwell, H. Daanen, M. Boehmer, S. Fleming, T. Brill, D. Hoeferlin, D. Burnsides — Civilian 9 American and European Surface Anthropometry Resource (CAESAR), Final Report — 2002
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий