Статья опубликована в рамках: XXXVI Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 22 февраля 2021 г.)
Наука: Информационные технологии
Секция: Системный анализ, управление и обработка информации
Скачать книгу(-и): Сборник статей конференции
дипломов
СУРЕТТЕРДЕГІ НЫСАНДАРДЫ СЕГМЕНТАЦИЯЛАУҒА АРНАЛҒАН ЗАМАНАУИ НЕЙРОНДЫҚ ЖЕЛІ АРХИТЕКТУРАСЫ
Түйін
Визуалды бейнелерді жіктеу немесе нысанды сегментациялау – бұл компьютерлік көру және машиналық оқытуды қамтитын зерттеу саласы. Объектіні визуалды жіктеудің міндеті – объектіні санатқа жатқызу немесе объект тиесілі санаттар жиынтығы. Дәстүрлі түрде визуалды жіктеу міндеттері бірінші деңгейден тұратын стандартты экстракция құралдары мен белгілерді детектордан және классификатордың екінші деңгейінен тұратын екі деңгейлі жүйені қолдану арқылы жүзеге асырылады. Соңғы жылдары CNN нейрондық желілер бұрын қолданылған жүйелерден асып түсетіні көрсетті.
Суреттерді сегментациялау көмегімен күн сайын көптеген жұмыстарды жеңілдетуге және жеделдетуге болады. Нысанды сегментациялау технологиясы қажет салалардың бірі ол – автокөлікті сақтандыру саласы. Нейрондық желі архитектураларын сақтандыру компаниялары апатқа ұшыраған көлік суреттерін бағалау және растау үшін қолдана алады. Осылайша клиенттерден келетін өтініштерді нейрондық желі архитектурасының көмегімен қанағаттандыра алады.
Менің білуімше, автомобильдердің зақымдануын автоматты түрде визуалды жіктеу саласында көп жұмыс жасалмады және олардың ешқайсысы CNN қолдану арқылы мүмкін болған суреттерді жіктеуде осы соңғы жақсартуларды пайдаланбайды. CNN нәтижелі архитектуралары жіктеудің дәлдігін де, оқыту мен жіктеу уақытын да ескере отырып қолданылады. Мен бұл мақалада нысанды сегментациялауға арналған CNN нейрондық желі архитектурасына зерттеу жұмыстарын жүргізетін боламын.
Кілттік сөздер: CNN, Mask R-CNN, сегментация, нейрондық желі, Fast R-CNN, пиксель, COCO, R-CNN, Faster R-CNN.
I. КІРІСПЕ
Нысандарды көру және тану мүмкіндігі – бұл адамдар үшін табиғи және таныс мүмкіндік. Алайда, компьютер үшін бұл өте қиын міндет. Қазіргі уақытта нейрондық желілер кескіндерді өңдеу үшін әлдеқайда күрделі және қызықты тапсырмаларды орындай алады. Атап айтқанда, Mask R-CNN архитектурасы бар желі фотосуреттерде әртүрлі нысандардың контурларын ("маскалар") бөліп көрсетуге мүмкіндік береді, тіпті бірнеше данасы болсын және олар әртүрлі мөлшерде және ішінара қабаттаса орналасқан болсын. Желі сонымен қатар адамдардың позаларын тануға қабілетті.
Нысанды анықтаудың дәстүрлі әдісімен салыстырғанда, Mask R-CNN нысанды анықтау моделі анықтау дәлдігін едәуір жақсартып қана қоймайды, сонымен қатар кішігірім нысандарды анықтауда үлкен артықшылықтарға ие. Ол ауыл шаруашылығында, құрылыста, медициналық бейнелерді сегментациялауда және басқа салаларда кеңінен қолданылады. Wang және т.б. [18] Mask R-CNN – ді нысан ретінде кемені анықтау үшін қолданды, бұл Mask R-CNN – нің жақын орналасқан нысандар мен әртүрлі масштабтағы нысандар мәселесін шешуде жақсы нәтиже беретіндігін көрсетеді. Li және т.б [20] Mask R-CNN негізінде құрылыс нысанын анықтау алгоритмін ұсынды. Әр түрлі көріністердің суреттерін қашықтықтан көру кезінде құрылыс нысандарын анықтау 94,6% дәлдікке жетуі мүмкін. Mask R-CNN алгоритмінің қолдану аясы өте кең.
Компьютерлік көру қауымдастығы қысқа уақыт ішінде объектілерді анықтау және семантикалық сегментация нәтижелерін тез жақсартты. Бұл жетістіктер көбінесе Fast/ Faster R-CNN құрылымдары және нысандарды анықтау және семантикалық сегментация үшін Fully Convolutional Network (FCN) сияқты қуатты базалық жүйелерден туындады. Бұл әдістер тұжырымдамалық интуитивті және икемділік пен сенімділікті, сондай-ақ тез үйрену мен уақытты ұсынады. Бұл жұмыстағы біздің мақсатымыз - сегментация сияқты салыстырмалы түрде тиімді құрылымды құру.
Бөліктерді сегментациялау қиын міндет, өйткені суреттегі барлық нысандарды дұрыс анықтау, сонымен қатар әр бөлікті дәл сегментациялау қажет. Осылайша, ол объектілерді анықтау үшін компьютерлік көрудің классикалық міндеттерінің элементтерін біріктіреді, мұнда мақсат жеке нысандарды жіктеу және шектеу жақтауын қолдана отырып, әрқайсысын локализациялау және семантикалық сегментация болып табылады,
мұнда мақсат әр пиксельді категориялардың белгіленген жиынтығында обьектінің бөліктерін ажыратпай жіктеу болып табылады.
II. КОМПЬЮТЕРЛІК КӨРУ ЕСЕПТЕУЛЕРІНІҢ ТҮРЛЕРІ
Әдетте компьютерлік көрудің заманауи міндеттері төрт түрге бөлінеді :
- Classification – суретті оның құрамындағы нысан түрі бойынша жіктеу.
- Semantic segmentation – суреттегі белгілі бір сыныптың немесе фонның барлық пикселдерін анықтау. Егер бір кластағы бірнеше объектілер қабаттасса, олардың пикселдері бір – бірінен бөлінбейді.
- Object detection – көрсетілген кластардың барлық объектілерін анықтау және олардың әрқайсысы үшін қоршау көлемін анықтау.
- Instance segmentation – әр кластың әр объектісіне тиесілі пикселдерді анықтау.
Әуе шарлары бар сурет мысалында (сурет 3) мұны келесідей суреттеуге болады:
Сурет 3. Компьютерлік көру есептеулерінің түрлері
III. MASK R-CNN НЕГІЗІНДЕГІ ҰҒЫМДАР ЖӘНЕ ЭВОЛЮЦИЯЛЫҚ ДАМУЫ
Mask R-CNN негізіндегі тұжырымдамалар жоғарыда келтірілген тізімнен әртүрлі мәселелерді шешетін бірнеше аралық нейрондық желілердің архитектурасы арқылы кезең-кезеңмен дамыды.
Convolution Neural Networks іргелес пикселдердің мәндерін біріктіруге және кескіннің жалпы сипаттамаларын бөлуге мүмкіндік беретін өте дәл қабаттардан тұрады. Ол үшін ядро деп аталатын кішкене төртбұрышты терезе (3x3, 5x5 пиксель және т.б.) суреттің үстіне ретімен жылжытылады. Содан кейін бүкіл терезе үшін алынған сандар қосылады және бұл өлшенген сома келесі мүмкіндіктің мәнін береді. Бүкіл кескіннің ерекшеліктерінің матрицасын («карта») алу үшін ядро көлденең және тігінен дәйекті түрде ығысады. Келесі қабаттарда конволюция операциясы алдыңғы қабаттардан алынған ерекшелік карталарына қолданылады (сурет 4).
Сурет 4. Кескін ерекшеліктерінің «картасын» алудың графикалық процесі
R-CNN
R-CNN (Regions With CNNs) желілік архитектураны UC Berkley командасы Convolution Neural Networks-та нысанды анықтау мәселелеріне қолдану үшін жасады.
Сурет 5. R-CNN архитектурасы
R-CNN желісі бойынша объектілерді анықтау процедурасын келесі кезеңдерге бөлуге болады:
- Selective Search арқылы үміткер аймақтарын бөлектеу.
- Аймақты CNN CaffeNet қабылдайтын мөлшерге ауыстыру.
- CNN көмегімен 4096 өлшемді Вектор белгілерін алу.
- N сызықтық SVM көмегімен әр вектордың N екілік классификациясын жүргізу.
- Нысанды дәлірек қамту үшін аймақ шеңберінің параметрлерінің сызықтық регрессиясы.
Fast R-CNN
Күшті нәтижелерге қарамастан, R-CNN өнімділігі әлі де төмен болды, әсіресе CaffeNet-тен тереңірек желілер үшін (мысалы, VGG16). Сонымен қатар, bounding box regressor және SVM-ді оқыту дискке сақталуы үшін көптеген мүмкіндіктерді қажет етті, сондықтан сақтау мөлшері жағынан қымбат болды.
Fast R-CNN авторлары бірнеше модификациямен процесті жылдамдатуды ұсынды:
- CNN арқылы 2000 үміткер – аймақтың әрқайсысын бөлек емес, бүкіл сурет арқылы өткізу. Содан кейін ұсынылған аймақтар жалпы сипаттамалық картаға орналастырылады;
- Үш модельді (CNN, SVM, bbox regressor) тәуелсіз оқытудың орнына барлық жаттығу процедураларын біреуіне біріктіру.
Әр түрлі аймақтарда кездесетін функцияларды белгіленген өлшемге айналдыру RoIPooling процедурасының көмегімен жүзеге асырылды. Ені w және h биіктігі бар аймақ терезесі h / H × w / W өлшемді H × W ұяшықтары бар торға бөлінді. (Құжат авторлары W = H = 7 қолданған). Әрбір осындай ұяшық үшін Max Pooling тек бір мәнді таңдау үшін жүзеге асырылды, осылайша H × W сипаттамасының матрицасын берді.
Сурет 6. Fast R-CNN архитектурасы
Softmax классификаторы мен bbox regressor - ды бірлесе оқыту үшін loss-функциясы қолданылады:
мұндағы:
- үміткер аймағында нақты бейнеленген объект сыныбы;
= - u класы үшін log loss;
- аймақ ауқымындағы болжамды өзгерістер;
- болжамды және нақты аймақтық өзгерістер арасындағы loss-функциясы;
- индикатор функциясы 1 – ге тең болғанда , ал 0 болғанда керісінше. класы болғанда фонды білдіреді(яғни аймақта нысанның болмауы).
- екі loss - функциясының да жалпы нәтижеге үлесін теңестіруге арналған коэффициент. Алайда барлық тәжірибелерінде ол 1-ге тең болды.
Faster R-CNN
Fast R-CNN-де жасалған жетілдірулерден кейін нейрондық желінің ең тар нүктесі кандидат аймақтарды құру механизмі болды. 2015-да Microsoft Research командасы бұл кезеңді әлдеқайда жылдам ете алды. Ол үшін Region Proposal Network (RPN) модулі қосылды. RPN аясында алынған CNN белгілері бойынша 3х3 терезесі бар «шағын нейрондық желі» өтеді. Оның көмегімен алынған мәндер екі параллель байланысқан қабаттарға беріледі: box-regression layer (reg) және box-classification layer (cls).
Сурет 7. Faster R-CNN архитектурасы
RPN шеңберінде, CNN шығарған ерекшеліктерге сәйкес, кішкентай (3x3) терезесі бар «мини-нейрондық желі» жүріп өтеді. Оның көмегімен алынған мәндер екі параллель толық қосылған қабаттарға беріледі: box-regression layer (reg) и box classification layer (cls). Бұл қабаттардың шығысы anchor-ах деп аталатынға негізделген: жылжымалы терезенің әр позициясы үшін әр түрлі өлшемдер мен арақатынастағы k рамалары. Әрбір осындай anchor - ға арналған Reg-қабаты қоршау рамасының орнын реттейтін 4 координатаны шығарады; Cls қабаты әрқайсысында екі сан шығарады - бұл рамкада кем дегенде қандай да бір объектінің болуы немесе ол болмауы ықтималдықтары. Құжатта мұны келесі сұлбамен бейнелейді:
Сурет 8. Reg және cls қабаттарының архитектурасы
Reg және cls қабаттарының оқу процесі біріктірілген; Олардың теңгерім коэффициенті бар, олардың әрқайсысының loss-функцияларының қосындысы болатын жалпы шығын функциясы бар.
IV. MASK R-CNN
Mask R-CNN Faster R-CNN архитектурасын табылған объектіні жабатын масканың орналасуын болжайтын және instance segmentation мәселесін шешетін тағы бір тармақ қосу арқылы дамытады (сурет 9).
Сурет 9. Mask R-CNN архитектурасы
Маска тек төртбұрышты матрица болып табылады, онда 1 қандай-да бір позицияда сәйкес пиксель көрсетілген кластың объектісіне жататындығын білдіреді, 0 пиксель объектке жатпайтынын білдіреді. Масканы таңдау class-agnostic стилінде жүреді: маскалар әр сынып үшін бөлек болжанады, аймақта не бейнеленгенін алдын-ала білместен, содан кейін тәуелсіз классификаторда жеңіске жеткен класс маскасы таңдалады. Бұл тәсіл тиімдірек деп айтылады. Масканы болжау қажеттілігінен туындаған негізгі модификациялардың бірі – RoIAlign деп аталатын RoIPool процедурасының өзгеруі (кандидат аймақ үшін сипаттамалық матрицаны есептеу). Шындығында, CNN-ден алынған мүмкіндіктер картасы бастапқы кескінге қарағанда кішірек өлшемге ие, ал кескіндегі бүтін пиксель санын қамтитын аймақ пропорционалды карта аймағына функциялардың бүтін санымен салыстырыла алмайды (сурет 10).
Сурет 10. RoIAlign процедурасының жұмысы
RoIPool мәселесі бөлшек мәндерді бүтін санға дөңгелектеу арқылы шешілді. RoIAlign дөңгелектеуді пайдаланбайды, барлық сандар жарамды болып қалады және белгілердің мәндерін есептеу үшін жақын төрт бүтін нүктеде бейсызықтық интерполяция қолданылады.
Mask R-CNN деп аталатын біздің әдісіміз Faster R-CNN – ді жетілдіреді, шектеуші жақтауды жіктеу және регрессиялау үшін қолданыстағы тармаққа параллель әр қызығушылық аймағын (RoI) сегменттеу маскаларын болжау үшін тармақ қосады. Маска тармағы – бұл әр RoI-ге қолданылатын кішкентай FCN, пикселді – пикселдеу әдісімен сегменттеу маскасын болжайды. Mask R-CNN – ді икемді архитектуралық жобалардың кең спектрін ұсынатын Faster R-CNN құрылымын ескере отырып, іске асыру және оқыту оңай. Негізінде, Mask R-CNN-бұл Faster R-CNN архитектурасының кеңейтілген нұсқасы, бірақ жақсы нәтижеге қол жеткізу үшін маска тармағындұрыс салу өте маңызды.
Сурет 11. COCO мәліметтер базасындағы Mask R-CNN нәтижесі. Бұл нәтижелер ResNet-101-ге негізделген
Mask R-CNN тұжырымдамалық тұрғыдан қарапайым: жылдам R-CNN-де әр үміткер үшін екі шығыс, сынып белгісі және шектеулі тіктөртбұрыштың жылжуы бар; бұған біз объект маскасын шығаратын үшінші тармақты қосамыз. Осылайша, Mask R-CNN – нысанды анықтаудың озық технологиясы ретінде жұмыс атқарады.
V. ҚОРЫТЫНДЫ
Нысандарды сегментациялау – бұл жасанды нейрон желілерін дамытудың перспективалық бағыттарының бірі. Жоғары да айтылғандай сегментациялау технологиясын Mask R-CNN арқылы жүзеге асыру жоғары нәтижелерге қол жеткізуге мүмкіндік береді. Бұл мақала да біз алдағы уақытта жобамызға қажетті CNN архитектурасын таңдау үшін зерттеулер жүргіздік. Mask R-CNN архитектурасы зерттеулерімізде оң нәтиже көрсеткендіктен, алдағы уақытта автокөлік саласында үлкен пайдасы бар жобаны Mask R-CNN моделі бойынша жасайтын боламыз.
Пайдаланылған әдебиеттер:
- R. Girshick, J. Donahue, T. Darrell, and J. Malik Rich feature hierarchies for accurate object detection and semantic segmentation // in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. – 2014. vol. 13. № 1. pp. 580–587.
- R. Girshick Fast R-CNN // in Proc. IEEE Int. Conf. Dec. – 2015. pp. 1440–1448.
- S. Ren, K. He, R. Girshick, and J. Sun Faster R-CNN: Towards realtime object detection with region proposal networks // IEEE Trans. Pattern Anal. Mach. Intell. – 2017. vol. 39. № 6. pp. 1137–1149. doi: 10.1109/tpami.2016.2577031.
- W. Liu, D. Anguelov, and D. Erhan SSD: Single shot multibox detector // in Proc. IEEE Eur. Conf. Comput. Vision. – 2016. pp. 21–37.
- K. He, X. Zhang, S. Ren, and J. Sun Deep residual learning for image recognition // in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR). – 2016. pp. 770–778.
- K. He, G. Gkioxari, P. Dollar, and R. Girshick Mask RCNN // in Proc. IEEE Int. Conf. Comput. Vis. (ICCV). – 2017. pp. 2980–2988.
- N. Kumar and R. Verma A multi-organ nucleus segmentation challenge IEEE Trans. Med. Imag. – 2019. vol. 11. №. 1. pp. 34–39. doi: 10.1109/TMI.2019.2947628.
- K. Jaiswal, P. Tiwari, S. Kumar, D. Gupta, A. Khanna, and J. J. Rodrigues Identifying pneumonia in chest X-rays: A deep learning approach // Measurement. – 2019. vol. 145. pp. 511–518. doi: 10.1016/j.measurement.2019.05.076.
- P. Pinheiro and R. Collobert Learning to segment object candidates // in Proc. Adv. Neural Inf. Process. Syst. – 2015. pp. 1990–1998.
- W. Tang, H.-L. Liu, L. Chen, K. C. Tan, and Y.-M. Cheung Fast hypervolume approximation scheme based on a segmentation strategy // Inf. Sci. – 2020. vol. 509. pp. 320–342. doi: 10.1016/j.ins.2019.02.054.
- Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei Fully convolutional instanceaware semantic segmentation // in Proc. IEEE Conf. Comput. Vis. – 2017. pp. 4438–4446.
- X. Rong, C. Yi, and Y. Tian Unambiguous scene text segmentation with referring expression comprehension // IEEE Trans. Image Process. – 2019. vol. 29, pp. 591–601. doi: 10.1109/tip.2019.2930176.
- Y. L. Qiao, M. Truman, and S. Sukkarieh Cattle segmentation and contour extraction based on mask R-CNN for precision livestock farming // Comput. Electron. Agricult. – 2019. vol. 165. № 104958. doi: 10. 1016/j.compag.2019.104958.
- C. Shuhong, Z. Shijun, and Z. Dianfan Water quality monitoring method based on feedback self correcting dense connected convolution network // Neurocomputing. – 2019. vol. 349. pp. 301–313. doi: 10.1016/j.neucom.2019.03.023.
- J. Yang, L. Ji, X. Geng, X. Yang, and Y. Zhao Building detection in high spatial resolution remote sensing imagery with the U-rotation detection network // Int. J. Remote Sens. – 2019. vol. 40. № 15. pp. 6036–6058.
- E. K. Wang, X. Zhang, L. Pan, C. Cheng, A. Dimitrakopoulou-Strauss, Y. Li, and N. Zhe Multi-path dilated residual network for nuclei segmentation and detection // Cells. – 2019. vol. 8. № 5. p. 499. doi: 10.3390/cells8050499.
- X. Lin, S. Zhu, and J. Zhang Rice planthopper image classification method based on transfer learning and mask R-CNN // Trans. Chin. Soc. Agricult. Mach. – 2019. vol. 13. № 4. pp. 181–184.
- G. Wang and S. Liang mask RCNN // in Proc. Radio Eng. – 2018. pp. 947–952.
- J. Shi, Y. Zhou, and Q. Zhang Service robot item recognition system based on improved mask RCNN and Kinect // in Proc. Appl. Res. Comput. – 2019. pp. 1–9.
- J. Li and W. He Building target detection algorithm based on mask RCNN // in Proc. Sci. Surv. Mapping. – 2019. pp. 1–13.
дипломов
Оставить комментарий