Статья опубликована в рамках: CXC Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 13 июня 2024 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
РАСШИРЕНИЕ ВОЗМОЖНОСТЕЙ ЛЮДЕЙ С НАРУШЕНИЯМИ ЗРЕНИЯ: РАСПОЗНАВАНИЕ ДЕНЕЖНЫХ КУПЮР С ПОМОЩЬЮ ТЕХНОЛОГИИ КОМПЬЮТЕРНОГО ЗРЕНИЯ
MACHINE LEARNING WITH A TEACHER
Alexander Gudimov
master's student, Department of Theoretical Physics and Computer Technologies, Kuban State University,
Russia, Krasnodar
Alexander Karagishiev
master's student, Department of Theoretical Physics and Computer Technologies, Kuban State University,
Russia, Krasnodar
Sergey Plotnikov
master's student, Department of Theoretical Physics and Computer Technologies, Kuban State University,
Russia, Krasnodar
Nikolay Slesarev
master's student, Department of Theoretical Physics and Computer Technologies, Kuban State University,
Russia, Krasnodar
АННОТАЦИЯ
Данная статья представляет собой научное исследование, посвященное расширению функциональных возможностей индивидуумов с нарушениями зрения при применении технологии компьютерного зрения. Исследование сосредоточено на разработке системы распознавания денежных купюр с целью улучшения финансовой независимости слабовидящих пользователей. Применение современных методов компьютерного зрения в этой области открывает новые перспективы для улучшения качества жизни людей с ограниченными возможностями и способствует их интеграции в общество.
ABSTRACT
This article is a scientific study devoted to expanding the functional capabilities of individuals with visual impairments using computer vision technology. The research focuses on developing a banknote recognition system to improve the financial independence of visually impaired users. The use of modern computer vision methods in this area opens up new prospects for improving the quality of life of people with disabilities and contributes to their integration into society.
Ключевые слова: слабовидящие, компьютерное зрение, распознавание денежных купюр, cамостоятельность.
Keywords: visually impaired, computer vision, banknote recognition, independence.
Введение
В современном мире технологии играют ключевую роль в улучшении качества жизни людей с ограниченными возможностями, включая людей с нарушениями зрения. Одним из наиболее важных аспектов повседневной жизни является распознавание денежных купюр. Для лиц с нарушениями зрения, это может представлять серьезную проблему, затрудняющую самостоятельные покупки и финансовые операции. В свете этого возникает необходимость разработки технологических решений, способных помочь этой категории людей в распознавании денежных купюр. В данной статье мы рассмотрим возможности применения технологии компьютерного зрения для расширения функциональных возможностей людей с нарушениями зрения в сфере финансовых операций.
Цели и Задачи
Целью данного исследования является изучение и анализ существующих методов и технологий распознавания денежных купюр с использованием компьютерного зрения с целью разработки эффективного решения, способного улучшить доступность финансовых операций для людей с нарушениями зрения.
Для достижения поставленной цели необходимо выполнение следующих задач:
Провести анализ современных методов и технологий, используемых для распознавания денежных купюр с помощью компьютерного зрения.
Провести оценку достоинств и недостатков существующих систем распознавания денежных купюр с целью выявления потенциальных областей улучшения.
Разработка и тестирование своей предобученной модели распознавания. На основе проведенного анализа разработать собственную версию программного продукта для распознавания денежных купюр с использованием технологии компьютерного зрения. Так же провести тестирование в реальных повседневных ситуациях. Например, распознавание купюр в автобусе, магазине или дома.
Инструменты
Модель YOLO является одной из наиболее эффективных и быстрых моделей для распознавания объектов на изображениях. Для распознавания денежных купюр с её помощью можно обучить модель на наборе данных, содержащем фотографии различных купюр с разным номиналом.
CVAT – это мощный инструмент для разметки данных, который упрощает и автоматизирует процесс разметки изображений для обучения моделей компьютерного зрения.
PyTorch с поддержкой CUDA, чтобы использовать возможности GPU для обучения. CUDA – это платформа параллельных вычислений, разработанная NVIDIA, которая позволяет использовать GPU для ускорения вычислений. Использование графического процессора ускоряет обучение в несколько раз.
Основная часть
Сначала необходимо собрать фотографии денежных купюр различных типов и номиналов. Эти изображения затем размечаются с указанием положения и класса каждой купюры.
Рисунок 1. Пример разметки купюр с указанием класса для обучения
Для более точной разметки, можно использовать различные инструменты CVAT, в зависимости от предпочтений и потребностей.
После завершения разметки пользователь экспортирует размеченные данные в формате, который может быть использован для обучения модели YOLO.
Нейросеть обучается на этом наборе данных. Обучение модели включает в себя настройку параметров модели и её архитектуры так, чтобы она была способна точно и быстро распознавать денежные купюры.
Рисунок 2. Пример распознавания купюр
Модель YOLO способна обнаруживать и классифицировать несколько объектов на одном изображении одновременно. Это означает, что даже если на изображении присутствуют несколько денежных купюр, YOLO сможет распознать их все без необходимости многократного анализа изображения.
Несмотря на высокую скорость работы, YOLO демонстрирует высокую точность распознавания объектов, включая денежные купюры. Это обеспечивает надежное и точное распознавание купюр даже в условиях неблагоприятного освещения или различных углов обзора. А также, при плохом качестве картинки.
Рисунок 3. Пример распознавания при расфокусировке камеры
После распознавания денежной купюры необходимо озвучить информацию о ее номинале пользователю. Это достигнуто с помощью синтеза речи, который преобразует текстовую информацию о номинале в аудиоформат, который затем воспроизводится с помощью динамиков устройства.
Для удовлетворения индивидуальных потребностей пользователей важно предоставить возможность настройки параметров озвучивания, таких как скорость и громкость речи, а также язык, на котором будет озвучиваться информация. Этим мы сейчас как раз и занимаемся.
Заключение
В развитии технологий компьютерного зрения открываются новые горизонты для расширения возможностей людей с нарушениями зрения. Распознавание денежных купюр с использованием модели YOLO представляет собой значимый шаг в этом направлении.
Для многих людей с нарушениями зрения определение номинала денежных купюр может быть сложной задачей, что создает препятствия для самостоятельности и независимости в повседневной жизни. Однако благодаря нашему программному продукту, можно распознавать денежные купюры без необходимости полагаться на зрение.
Однако для полной реализации потенциала этой модели необходимо уделить внимание не только техническим аспектам, но и аспектам доступности, обучения пользователей и учету их потребностей. Продолжение исследований в этой области, совершенствование технологий и их интеграция в повседневную жизнь помогут создать общество, где каждый человек, вне зависимости от его возможностей, сможет полноценно участвовать в общественной жизни.
Список литературы:
- Анирад, К. Искусственный интеллект и компьютерное зрение. Реальные проекты на Python, Keras и TensorFlow / К. Анирад, Г. Сиддха. – Санкт-Петербург : Питер, 2020. – 608 с.
- Дэвис, Р. Компьютерное зрение. Современные методы и перспективы развития. / Р. Дэвис, М. Терк. – Москва : ДМК Пресс, 2022. – 690 с.
- Николенко С. И. Глубокое обучение. Погружение в мир нейронных сетей / С. И. Николенко, А. Кадурин, Е. В. Архангельская. – Санкт-Петербург : Питер, 2018. – 481 с.
- Форсайт, Д. Компьютерное зрение. Современный подход / Д. Форсайт, Д. Понс. – Москва : Вильямс, 2018. – 960 с. – ISBN 978-5-8459-0542-0.
дипломов
Оставить комментарий