Статья опубликована в рамках: Научного журнала «Студенческий» № 32(286)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4
ИСПОЛЬЗОВАНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ ОБНАРУЖЕНИЯ ПРОИЗВОДСТВЕННЫХ ДЕФЕКТОВ В РЕАЛЬНОМ ВРЕМЕНИ
АННОТАЦИЯ
В данной статье рассматривается метод обнаружения объектов с использованием искусственного интеллекта, а также ее преимущества и риски. Технология YOLO, которая в наше время продолжает активно развиваться, в будущем может способствовать улучшению качества продукта, а также использоваться для обнаружения дефектов на производстве, используя нейросеть, что значительно повысит эффективность производственных процессов.
Ключевые слова: искусственный интеллект, обнаружение дефектов, YOLO, R-CNN.
Введение
Человеческому мозгу требуется всего один взгляд, чтобы понять какие объекты присутствуют на этом изображении, где они находятся и как они взаимодействуют. Человеческие глаза настолько быстры и точны, что позволяют выполнять сложные задачи, такие как вождение, с минимальной осознанностью и относительной лёгкостью. Обнаружение объектов с использованием быстрых и точных алгоритмов позволило бы компьютерам управлять автомобилями без использования специальных датчиков. Это также облегчило бы работу вспомогательных устройств, которые могли бы передавать пользователю информацию о реальной обстановке в режиме реального времени.
Современные системы обнаружения используют классификатор объекта и оценивают его в различных масштабах и местах на изображении. Рассмотрим системы, такие как модели деформируемых частей (Deformable Parts Models, DPM). Во всех этих системах используется метод скользящего окна. В этом методе классификатор начинает равномерно сканировать каждое место по всему изображению.
Новая технология, такая как R-CNN (Region-Convolutional Neural Network), использует методы предложений регионов для выполнения двух основных задач: во-первых, для создания множества потенциальных ограничивающих рамок (bounding boxes) на изображении, а затем для запуска классификатора на этих областях.
Вся задача обнаружения объектов рассматривается как единая задача регрессии, принимающая во внимание компоненты, начиная от каждого пикселя изображения до координат и ограничивающих рамок. Используя YOLO, пользователь может просто один раз взглянуть на изображение, чтобы предсказать, какие объекты присутствуют и где они находятся, что и объясняет название YOLO (You Only Look Once).
Обнаружение объектов
Поскольку задача обнаружения объектов рассматривается как задача регрессии, технология YOLO работает достаточно быстро. Благодаря этому множество этапов обработки не требуются. Все, что необходимо сделать — это запустить нейронную сеть на новом изображении во время тестирования, чтобы предсказать объекты. Базовая версия работает со скоростью 45 кадров в секунду с использованием графического ускорителя Titan X, а более быстрая версия достигает более 150 кадров в секунду. Это означает, что YOLO может обрабатывать потоковое видео в реальном времени с задержкой менее 25 миллисекунд. Более того, YOLO достигает более чем в два раза большего среднего значения точности по сравнению с другими системами реального времени.
В процессе обработки YOLO охватывает каждую часть изображения. В отличие от таких методов, как скользящее окно и методов, основанных на R-CNN, YOLO видит всё изображение как во время обучения, так и во время тестирования.
Fast R-CNN, один из лучших методов обнаружения, допускает ошибки, принимая фоновые области изображения за объекты, так как не может охватить всю картину целиком. YOLO делает на 50% меньше ошибок, связанных с фоновыми объектами, по сравнению с Fast R-CNN.
Структура, на которой построен YOLO, позволяет проводить полное обучение и достигать скоростей в реальном времени, при этом сохраняя высокую среднюю точность. Система разделяет входное изображение на сетку размером SxS. Если в центре ячейки сетки находится объект, то ответственность за его обнаружение ложится на эту конкретную ячейку. Каждая ячейка сетки отвечает за предсказание B ограничивающих рамок и оценок уверенности для каждой из этих рамок. Сгенерированные оценки уверенности четко показывают, насколько модель уверена в том, что в рамке находится объект, а также насколько точно предсказаны параметры самой рамки.
Для оценки точности предсказаний в задачах, связанных с детекцией объектов, используется метрика Intersection over Union (IoU). Она измеряет степень перекрытия между предсказанной ограничивающей рамкой и истинной рамкой, которая точно описывает положение объекта. IoU рассчитывается как отношение площади пересечения двух рамок к площади их объединения:
(1)
где:
площадь пересечения — это область, где предсказанная рамка и истинная рамка пересекаются,
площадь объединения — это совокупная площадь обеих рамок (предсказанной и истинной), за вычетом пересекающейся области.
Значения IoU могут быть следующими:
- IoU = 0: предсказанная рамка и истинная рамка не пересекаются.
- IoU = 1: предсказанная рамка полностью совпадает с истинной.
- 0 < IoU < 1: частичное пересечение, где чем больше значение, тем точнее предсказание.
Если в данной ячейке отсутствует объект, оценка уверенности устанавливается равной нулю. В противном случае, значение IoU между предсказанной рамкой и реальной должно быть равно оценке уверенности.
В каждой ограничивающей рамке содержится в общей сложности 5 предсказаний: x, y, w, h и уверенность. Координаты (x, y) представляют собой центр рамки и относятся к границам ячейки сетки. Ширина (w) и высота (h) предсказываются относительно всего изображения. Наконец, предсказание уверенности будет представлять собой значение IoU между предсказанной рамкой и любой истинной рамкой.
Распознавание ограничивающих рамок
Учитывая технологию YOLOv3, распознавание ограничивающих рамок выполняется системой с использованием кластеров размерностей, которые выступают в качестве якорных рамок. Всего сеть предсказывает 4 координаты для каждой ограничивающей рамки, а именно: , , , . Таким образом, если (, ) — это смещения, относящиеся к верхнему левому углу, а , — это ширина и высота ограничивающей рамки, то предсказания, которые будут сгенерированы, соответствуют следующим уравнениям:
(2)
Рисунок 1. Определение ограничивающих рамок
Предсказание классов
Каждая рамка (bounding box) генерирует предсказания для классов, которые она может содержать, с помощью мульти-классовой классификации. Использование softmax (функция активации, используемая в задачах классификации, применяемая в нейронных сетях) считается ненужным, так как оно не обеспечивает требуемую производительность. Вместо этого используются независимые логистические классификаторы. Для предсказаний классов при их обучении используется бинарная кросс-энтропийная потеря (binary cross-entropy loss). Данный набор данных содержит множество перекрывающихся меток. Использование softmax предполагает, что каждая рамка содержит не более одного класса, но это вовсе не так. Моделирование данных выполняется лучше с использованием мульти-классового подхода.
Для задания функции потерь при предсказании классов к нашей первоначальной функции добавляется следующее выражение:
Во время обучения модели главной задачей является оптимизация следующей функции потерь:
где запись означает, что значение равно одному, если рамка j и клетка i совпали, в противном случае равно 0.
Заключение
В заключение можно сказать, что с учетом преимуществ перед старыми методами классификации, YOLO предлагает более четкое и точное обнаружение объектов на изображении и их классификацию. Мы столкнулись с проблемой, связанной с YOLO, касающейся обнаружения мелких объектов. YOLOv3 оказался более усовершенствованной и быстрой версией по сравнению со своим предшественником. Хотя остаются нерешенные проблемы с YOLOv3 относительно больших объектов и сложностями с их оптимизацией, эти проблемы, безусловно, могут быть исправлены и доработаны в будущем. YOLO привнес динамику в область обработки изображений. Благодаря этой быстро развивающейся технологии мы сможем наблюдать кардинальные изменения в области нейронных сетей в предстоящие годы. Данные технологии найдут свое применение на производстве для отслеживания и прогнозирования дефектов.
Список литературы:
- P. F. Felzenszwalb, R. B. Girshick, D. McAllester and D. Ramanan. Object detection with discriminatively trained part based models // IEEE Transactions on Pattern Analysis and Machine Intelligence – 2010. P.1627–1645.
- Joseph Redmon, Ali Farhadi. YOLOv3: An Incremental Improvement // University of Washington – 2018.
- O. Russakovsky, L.-J. Li, and L. Fei-Fei. Best of both worlds: human-machine collaboration for object annotation // In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition – 2015, P.2121–2131.
Оставить комментарий