Сучасні підходи до розв'язання задач комп'ютерного зору

Наведено структурований огляд сучасних методів розв’язання задач комп’ютерного зору, їх переваг та недоліків, і визначення невирішених проблем. Цей напрямок швидко прогресує, що пов’язано зі збільшенням обчислювальної потужності комп’ютерів, а також підключенням до дослідження таких гігантів IT інду...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Datum:	2018
Hauptverfasser:	Тимчишин, Р.М., Волков, О.Є., Господарчук, О.Ю., Богачук, Ю.П.
Format:	Artikel
Sprache:	Ukrainian
Veröffentlicht:	Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2018
Schriftenreihe:	Управляющие системы и машины
Schlagworte:	Интеллектуальные информационные технологии и системы
Online Zugang:	https://nasplib.isofts.kiev.ua/handle/123456789/161565
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:	Сучасні підходи до розв'язання задач комп'ютерного зору / Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук // Управляющие системы и машины. — 2018. — № 6. — С. 46-73. — Бібліогр.: 48 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	nasplib_isofts_kiev_ua-123456789-161565
record_format	dspace
spelling	nasplib_isofts_kiev_ua-123456789-1615652025-02-09T14:24:12Z Сучасні підходи до розв'язання задач комп'ютерного зору Современные подходы к решению задач компьютерного зрения Modern Approaches to Computer Vision Тимчишин, Р.М. Волков, О.Є. Господарчук, О.Ю. Богачук, Ю.П. Интеллектуальные информационные технологии и системы Наведено структурований огляд сучасних методів розв’язання задач комп’ютерного зору, їх переваг та недоліків, і визначення невирішених проблем. Цей напрямок швидко прогресує, що пов’язано зі збільшенням обчислювальної потужності комп’ютерів, а також підключенням до дослідження таких гігантів IT індустрії, як Google і Microsoft. Розглянуто абсолютно різні за своєю природою підходи: підхід на основі нечіткої логіки; підхід на базі згорткових нейронних мереж та глибокого навчання; підхід з використанням детекторів і дескрипторів. Розглядається не тільки точність алгоритмів, але і їх швидкодія та затрати пам’яті, що відіграють важливу роль для вбудованих систем (безпілотних літальних апаратів, мобільних пристроїв, роботизованих та супутникових систем). Цель. Количество наработок в области компьютерного зрения увеличивается экспоненциально и выбор подходящего инструмента — непростая задача. Цель данной статьи — представить структурированный обзор современных технологий компьютерного зрения с их преимуществами и недостатками, а также идентифицировать нерешенные проблемы. Методы. Нечеткая логика, сверточные нейронные сети, детекторы и дескрипторы ключевых точек. Результаты. Теория нечеткой логики вывела распознавание на качественно новый уровень представив новый фреймворк для работы со сложными и неопределенными системами. Введение нечетких множеств второго типа значительно улучшило точность и устойчивость алгоритмов. Основными преимуществами систем на базе нечеткой логики являются использование знаний эксперта и интерпретируемость финальной модели. Сейчас этот метод часто используется для решения задач сегментации и фильтрации изображений. Purpose. The number of developments in the field of computer vision increases exponentially and staying up to date is not an easy task. There is a wide variety of existing approaches and choosing the right one can be difficult. The goal of this paper is to present a structured overview of modern techniques in the field of computer vision with their advantages and disadvantages, and identification of unresolved problems. Accuracy is not the only quality measure considered, we also take speed and memory into account, which is critical for embedded systems (unmanned aerial vehicles, mobile devices, robotic and satellite systems). Methods. Fuzzy logic, convolutional neural networks, feature detectors and descriptors. Results. Fuzzy logic theory has led recognition to a completely new level by presenting a new methodological and algorithmic framework for working with complex and uncertain systems. Introduction of type-2 fuzzy sets has significantly improved accuracy and robustness. Their main advantages are the use of expert’s knowledge and interpretability of fuzzy logic models. Now fuzzy logic is mainly used as a complement for other systems with the aim to improve decision making process by handling the uncertainty. Researchers often employ this technique for solving image segmentation and filtering problems. 2018 Article Сучасні підходи до розв'язання задач комп'ютерного зору / Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук // Управляющие системы и машины. — 2018. — № 6. — С. 46-73. — Бібліогр.: 48 назв. — укр. 0130-5395 DOI: https://doi.org/10.15407/usim.2018.06.046 https://nasplib.isofts.kiev.ua/handle/123456789/161565 581.513 uk Управляющие системы и машины application/pdf Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Ukrainian
topic	Интеллектуальные информационные технологии и системы Интеллектуальные информационные технологии и системы
spellingShingle	Интеллектуальные информационные технологии и системы Интеллектуальные информационные технологии и системы Тимчишин, Р.М. Волков, О.Є. Господарчук, О.Ю. Богачук, Ю.П. Сучасні підходи до розв'язання задач комп'ютерного зору Управляющие системы и машины
description	Наведено структурований огляд сучасних методів розв’язання задач комп’ютерного зору, їх переваг та недоліків, і визначення невирішених проблем. Цей напрямок швидко прогресує, що пов’язано зі збільшенням обчислювальної потужності комп’ютерів, а також підключенням до дослідження таких гігантів IT індустрії, як Google і Microsoft. Розглянуто абсолютно різні за своєю природою підходи: підхід на основі нечіткої логіки; підхід на базі згорткових нейронних мереж та глибокого навчання; підхід з використанням детекторів і дескрипторів. Розглядається не тільки точність алгоритмів, але і їх швидкодія та затрати пам’яті, що відіграють важливу роль для вбудованих систем (безпілотних літальних апаратів, мобільних пристроїв, роботизованих та супутникових систем).
format	Article
author	Тимчишин, Р.М. Волков, О.Є. Господарчук, О.Ю. Богачук, Ю.П.
author_facet	Тимчишин, Р.М. Волков, О.Є. Господарчук, О.Ю. Богачук, Ю.П.
author_sort	Тимчишин, Р.М.
title	Сучасні підходи до розв'язання задач комп'ютерного зору
title_short	Сучасні підходи до розв'язання задач комп'ютерного зору
title_full	Сучасні підходи до розв'язання задач комп'ютерного зору
title_fullStr	Сучасні підходи до розв'язання задач комп'ютерного зору
title_full_unstemmed	Сучасні підходи до розв'язання задач комп'ютерного зору
title_sort	сучасні підходи до розв'язання задач комп'ютерного зору
publisher	Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
publishDate	2018
topic_facet	Интеллектуальные информационные технологии и системы
url	https://nasplib.isofts.kiev.ua/handle/123456789/161565
citation_txt	Сучасні підходи до розв'язання задач комп'ютерного зору / Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук // Управляющие системы и машины. — 2018. — № 6. — С. 46-73. — Бібліогр.: 48 назв. — укр.
series	Управляющие системы и машины
work_keys_str_mv	AT timčišinrm sučasnípídhodidorozvâzannâzadačkompûternogozoru AT volkovoê sučasnípídhodidorozvâzannâzadačkompûternogozoru AT gospodarčukoû sučasnípídhodidorozvâzannâzadačkompûternogozoru AT bogačukûp sučasnípídhodidorozvâzannâzadačkompûternogozoru AT timčišinrm sovremennyepodhodykrešeniûzadačkompʹûternogozreniâ AT volkovoê sovremennyepodhodykrešeniûzadačkompʹûternogozreniâ AT gospodarčukoû sovremennyepodhodykrešeniûzadačkompʹûternogozreniâ AT bogačukûp sovremennyepodhodykrešeniûzadačkompʹûternogozreniâ AT timčišinrm modernapproachestocomputervision AT volkovoê modernapproachestocomputervision AT gospodarčukoû modernapproachestocomputervision AT bogačukûp modernapproachestocomputervision
first_indexed	2025-11-26T19:19:28Z
last_indexed	2025-11-26T19:19:28Z
_version_	1849881811440631808
fulltext	46 ISSN 0130-5395, Control systems and computers, 2018, № 6 DOI: https://doi.org/10.15407/usim.2018.06.046 УДК 581.513 Р.М. ТИМЧИШИН, аспірант, відділ інтелектуального управління, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна, romantymchyshyn.rt@gmail.com О.Є. ВОЛКОВ, завідувач відділу інтелектуального управління, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна, alexvolk@ukr.net О.Ю. ГОСПОДАРЧУК, старший науковий співробітник, відділ інтелектуального управління, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна, dep185@irtc.org.ua Ю.П. БОГАЧУК, провідний науковий співробітник, відділ інтелектуального управління, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна, dep185@irtc.org.ua СУЧАСНІ ПІДХОДИ ДО РОЗВ’ЯЗАННЯ ЗАДАЧ КОМП’ЮТЕРНОГО ЗОРУ Наведено структурований огляд сучасних методів розв’язання задач комп’ютерного зору, їх переваг та недоліків, і визначення невирішених проблем. Цей напрямок швидко прогресує, що пов’язано зі збільшенням обчислювальної потужності комп’ютерів, а також підключенням до дослідження таких гігантів IT індустрії, як Google і Microsoft. Розглянуто абсолютно різні за своєю природою підходи: підхід на основі нечіткої логіки; підхід на базі згорткових нейронних мереж та глибокого навчання; підхід з використанням детекторів і дескрипторів. Розглядається не тільки точність алгоритмів, але і їх швидкодія та затрати пам’яті, що відіграють важливу роль для вбудованих систем (безпілотних літальних апаратів, мобільних пристроїв, роботизованих та супутникових систем). Ключові слова: комп’ютерний зір, класифікація зображень, виявлення об’єктів, сегментація зображень, фільтрація зображень, ідентифікація контурів, нечітка логіка, нейронні мережі, детектори, дескриптори. Вступ Комп’ютерний зір — надзвичайно широка об- ласть, яка включає в себе багато різноплано- вих задач, таких яких сегментація, фільтрація, класифікація, реконструкція сцени, оцінка по- ложення об’єкта, виявлення об’єктів, відео- спостереження та багато інших. Комп’ютерне бачення є важливою складовою розвитку штуч- ного інтелекту та інтелектуальних інформацій- них технологій. Комп’ютерне бачення використовується в де- сятках галузей, наприклад, при побудові «ро- зумних» магазинів, ідентифікації клієнтів за допомогою біологічних характеристик, авто- матизації сільськогосподарських процесів з використанням дронів, автоматичній інспекції на виробництвах, відеоспостереженні, покра- щенні якості фото- та відеоданих (фільтрація), автоматичній доставці посилок безпілотними літальними апаратами. Коло застосувань цієї технології розширюється, адже потреба у сис- ISSN 0130-5395, УСиМ, 2018, № 6 47 Сучасні підходи до розв’язання задач комп’ютерного зору темах штучного інтелекту зростає, а зір — це один з найінформативніших сенсорів, який може використовуватись в таких системах. І хоча значного прогресу в цій галузі вже до- сягнуто, залишається багато нерозв’язаних за- дач. Існуючим алгоритмам бракує загальності, а збільшення швидкодії зазвичай викликає змен- шення точності. Тому актуальними напрямками є: покращення швидкодії існуючих алгоритмів; застосування алгоритмів розпізнавання на вбу- дованих системах, які мають обмежені ресурси пам’яті і обчислювальні потужності, напри- клад, безпілотні літальні апарати, роботизова- ні та супутникові системи; розв’язання задач в режимі реального часу в умовах обмежених ресурсів; покращення точності; зменшення за- трат на навчання систем, що базуються на не- йронних мережах; розширення кола об’єктів розпізнавання; розпізнавання зображень низь- кого розширення та якості. В роботі аналізуються основні підходи до розв’язання задач комп’ютерного зору, висвіт- лено їх переваги та недоліки. Комп’ютерний зір з використанням нечіткої логіки Задачі комп’ютерного зору передбачають пев- ний рівень невизначеності. Це є основною при- чиною використання теорії нечіткої логіки. Вважається, що значного покращення в за- дачах комп’ютерного бачення можна досягнути, якщо збільшити кількість інформації, яку можна обробити за адекватний період часу. Але хоча лю- дина не вміє обробляти величезні потоки даних в реальному часі, вона виконує задачу розпізна- вання дуже і дуже успішно. Вміння підбирати потрібний рівень деталізації — ось що дозволяє людині розпізнавати об’єкти, занадто загальний опис може призвести до пропуску важливих де- талей та відвести увагу від основних характерис- тик. Теорія нечіткої логіки дозволяє варіювати цим рівнем узагальнення змінюючи кількість лінгвістичних змінних в системі та варіюючи ви- гляд функцій належності нечітких множин. Системи комп’ютерного зору повинні вміти представляти невизначеність та передбачати ефекти невизначеності для правильної інтер- претації отриманих результатів. Невизначеність часто розглядається як ре- зультат деякого випадкового процесу, проте в комп’ютерному баченні невизначеність може виникати і з інших причин, серед яких: про- екція зображень у простір меншої розмірності, зміна освітлення, дискретизація просторових чи часових (у випадку відео) координат, неві- дома якість зображення, неточні обчислення, перетин класів розпізнаваних об’єктів, тоб- то неможливість чітко сформулювати ознаки і визначення об’єктів. Теорія нечіткої логіки ідеально підходить для розв’язання проблем невизначеності такого роду. Нечітка логіка дозволяє легко переносити накопичений досвід в системи комп’ютерного бачення, використовуючи прості та зрозумілі правила. Людина, здійснюючи класифікацію зображень, не працює з суто числовими харак- теристиками об’єктів, які зображені, натомість ми класифікуємо об’єкт за базою правил, які отримані з досвідом і можемо легко сформу- лювати. Це є великою перевагою таких систем, оскільки потенціал для їх покращення прак- тично невичерпний і завжди можна сформу- лювати правила більш жорстко, чи доповнити систему новими, уточнюючими, правилами. Базовим поняттям нечіткої логіки є нечітка множина. Нечітка множина — це множина, елементи якої належать їй в певній мірі, на відміну від традиційних множин, де елементи або належать множині або ні. Нечітка мно- жина — це пара: (U, m), де U — множина, а m:U→[0,1] — функція належності або характе- ристична функція множини. Нечіткі множини допускають більшість операцій, які можна ви- конувати зі звичайними множинами, напри- клад доповнення, перетин і об’єднання. Вважаючи, що елемент належить нечіткій множині в певній мірі, судження в нечіткій ло- гіці є правдивими теж в певній мірі, на відміну від традиційної логіки, де висловлювання мо- же бути або вірним, або хибним. Нечітким k-арним предикатом є функція P (x 1 , x 2 , …, x k ): X 1 × X 2 × … × X k →[0,1] — відо- браження декартового добутку універсумів на 48 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук відрізок [0,1]. З нечіткими висловлюваннями можна виконувати багато операцій традиційної логіки: заперечення, кон’юнкція, диз’юнкція, імплікація, еквівалентність тощо. Під правилом нечіткої продукції або під не- чіткою продукцією зазвичай розуміють вираз наступного вигляду: (i) : Q; P; A ̃=>B̃; S, F, N, де (i) — ім’я нечіткого правила, певна сукуп- ність символів, яка дозволяє однозначно іден- тифікувати правило; Q — cфера застосування нечіткого правила; P — умова застосовності ядра нечіткого пра- вила; N — постумова нечіткого правила; A ̃=>B̃ — ядро правила, центральний компо- нент продукції, зазвичай записується у вигляді «якщо …, то …»; S — метод визначення кількісного значення міри істинності висновку B̃ на основі відомого значення істинності A ̃ (прямий і обернений, або FMP — fuzzy modus ponens та FMT — fuzzy modus tollens); F — коефіцієнт впевненості, який визначає кількісну оцінку міри істинності, часто нази- вається ваговим коефіцієнтом правила. Існує декілька типів нечітких множин. Пер- ший тип пов’язує з множиною функцію, яка має досить конкретні значення, тобто є чіткою, і багато дослідників критикують теорію не- чітких множин через це. Тому запропоновано новий тип нечітких множин. Нечіткі множини другого типу зазвичай поділяють на інтервальні (IT2 — interval type-2) та загальні (GT2 — general type-2). Загалом особливістю множин другого типу є те, що функція належності також набу- ває певної нечіткості. Вводиться поняття сліду невизначеності — об’єднання всіх функцій на- лежності. У випадку інтервальної нечіткої мно- жини вводиться дві функції — верхня і нижня функції належності і слід невизначеності ви- глядає наступним чином: FOU (footprint of uncertainty)(A)=⋃∀x ∈ X [μ (x),μ (x)]]. Нечіткі множини загального типу вносять ще один рівень свободи і їх функція належнос- ті є уже 3-вимірною. Слід невизначеності та- ких множин виражають так: FOU(A ̃)={(x, u) ∈ X × [0,1] \| μ̃ (x, u) > 0}. Для обмеження складності логіки загального типу часто використовують концепцію α-пло- щин, слід невизначеності яких виглядає на- ступним чином: FOU(A ̃α)={(x, u) ∈ X × [0,1] \| μ̃ (x, u) ≥ α}. Основними кроками проектування систем на базі нечіткої логіки є: 1) фаззіфікація — підбір лінгвістичних змін- них, визначення потрібного рівня деталізації; 2) підбір функцій належності для кожної не- чіткої множини кожної лінгвістичної змінної; 3) вибір бази нечітких правил таким чином, щоб мінімізувати їх кількість та максимізувати точність; 4) дефаззіфікація — приведення виходу сис- теми до чіткого вигляду, лінгвістичні змінні, які використовуються як вихід системи часто неможливо прямо застосувати для розв’язання задачі, зазвичай їх потрібно перевести в кіль- кісний вигляд (цей крок часто називають ре- дукцією, найпоширенішим методом є редукція з використанням центру множини). Нечіткі множини можуть використо ву ва тись для опису понять типу «близько»/«далеко», а також для визначення чітких областей зобра- ження, що відповідають поняттю «пів ніч но- східний». Просторове розташування об’єктів один відносно іншого має велике значення в за- дачах ком п’ю тер но го бачення і, хоча лю- дина легко може описати його, дуже важко навчити автоматичну систему розв’язувати цю задачу саме через нечіткість визначень. Просторове відношення об’єк тів і його зв’язок з розумінням людиною зображеного, є дуже важливим, тому дослідники розгля- дають цю проблему з точки зору лінгвістики та психології. Просторові відношення «над» чи «зліва» не мають точних визначень і тому є хорошим прикладом для застосування не- чітких множин. Проте су б’єк тив ність і склад- ність цих концепцій зумовлює складність ISSN 0130-5395, УСиМ, 2018, № 6 49 Сучасні підходи до розв’язання задач комп’ютерного зору об’єктивного визначення просторових від- ношень, що зумовило наявність великої кіль- кості нечітких визначень. Комп’ютерне бачення — досить широка об- ласть, яка включає в себе багато різних задач. Розглянемо деякі з цих задач в контексті нечіт- кої логіки. Сегментація зображень. Як відомо, сегмен- тація зображень — процес виділення значущих сегментів на зображенні з метою покращення подальшого виявлення об’єктів, опису сцени і розуміння контексту. Процес знаходить облас- ті зі спільними ознаками, такими як текстура, колір та ін. Саме визначення не є чітким: неві- домо як визначити схожість між пікселями чи їх областями. Сегментація зображень є одним із найважливіших завдань комп’ютерного ба- чення, це один з перших кроків класифікації. Якщо зображення буде неправильно поділене на області, то і їх подальша класифікація буде невірною. Результати сегментації можуть роз- глядатися як нечіткі множини. Кожній області присвоюється нечітка множина і визначається рівень з яким кожен піксель належить кожній множині. Після цього для отримання остаточ- ного результату за традиційними техніками порогових значень, кластеризації, сегментації з учителем та сегментації на базі правил засто- совуються техніки теорії нечітких множин. В [1] розглянуто проблему сегментації дис- танційних зображень таких як знімки з висо- ти пташиного польоту. Вони використовують нечіткі множини першого та другого типів. Гаусівські моделі першого типу використову- ються для моделювання невизначеності, що присутня на зображенні. В подальшому не- чітка модель другого інтервального типу бу- дується шляхом «розмивання» математичного сподівання та дисперсії, в результаті чого отри- мується верхня та нижня функції належності. Запропонована модель другого типу допома- гає підсилити вираження невизначеності на зображенні та одночасно зменшити невизна- ченість у системі прийняття рішення. Далі не- чітка функція належності з її верхньою та ниж- ньою функціями належності використовується як вхід нейронної мережі, що є системою при- йняття рішень. По суті нечіткі моделі викорис- товуються для покращення роботи фінальної моделі — нейромережі. В [2] автори застосовують нечіткі множини другого інтервального типу в моделі активно- го контуру для покращення сегментації. Вони здійснюють ітераційне оновлення пікселів тільки у вузькій смузі вздовж контуру через значне збільшення обчислювальних затрат при використанні нечіткої логіки другого типу. Загалом, методи нечіткої логіки використо- вуються при розв’язанні задач сегментації як допоміжний засіб для покращення існуючих алгоритмів. Потрібно зазначити, що засто- сування нечітких множин другого типу мо- же значно збільшити обчислювальні затрати. Існуючі роботи спрямовані на розв’язання за- дачі сегментації з застосуванням нечіткої логі- ки зазвичай не використовують якісь спільні бази даних, що робить порівняння їх з іншими алгоритмами практично неможливим. Крім того всі вони використовують різні метрики для оцінки результатів роботи алгоритму, як то візуальна оцінка результатів, кількість згене- рованих сегментів, відсоток помилок тощо. Фільтрація зображень. Часто отримані зоб- ра жен ня є спотвореними або містять шум, який ускладнює процес розпізнавання. Фільт- ра ція — це набір інструментів, який глушить або підкреслює певні види інформації на зо- браженні. Через нечітку природу цієї задачі, ряд робіт присвячено саме підходам на базі не- чіткої логіки. В [3] використано алгоритм на базі IT2 FLS (interval type-2 fuzzy logic system). За про по но ва- ний фільтр складається з двох підфільтрів. Один фільтр обчислює відстань між компонентами кольору центрального пікселя та його околу. Ця відстань визначає в якій мірі компонента пови- нна бути відкоригована. Для кожного пікселя визначаються пари rg(i, j) — red/green, rb(i, j) — red/blue, gb(i, j) — green/blue. Щоб відфільтрува- ти піксель в позиції (i, j) використовується рам- ка 3 × 3 і для кожної пари обчислюються відстані між центральним пікселем та іншими пікселя- ми з рамки. Далі кожному пікселю, на основі нечітких правил, присвоюється певна вага. Щоб 50 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук визначити чи відстань між компонентами вели- ка чи мала, використовують нечіткі множини “small” для кожної пари, що характеризуються функціями μ rgs , μ rbs , μ gbs , яким відповідають верх- ня і нижня функції належності, оскільки роз- глядається IT2 (interval type-2) логіка. Інший фільтр використовує попередній результат, щоб обчислити локальну відстань для кожної ком- поненти кольору окремо, і для кожного пікселя продукує кількісне значення, яке потрібно від- няти від кожної компоненти кольору цього пік- селя, щоб прибрати шум. Приклад роботи алгоритмів можна побачи- ти на рис. 1. В [4] введено імпульс—детектор, який ви- користовує IT2 FLS. Детектор базується на селективному фільтруванні використовуючи спеціальний оператор, який вирішує, чи пік- сель потребує фільтрування. Внутрішні пара- метри функцій належності виводяться під час тренування. Алгоритм тестувався з трьома ти- пами шумів. Запропонована в [5] адаптивна T2 нечітка ме діан на фільтрація дозволяє пом’якшувати ім пульс ний шум зберігаючи при цьому деталі зоб раження. Фільтр використовує здатності нечіт ких систем управління невизначеністю другого типу в комбінації з медіанним філь- тром і фільт ром Аракави. Алгоритм зменшує затрати пам’яті у порівнянні з іншими алго- ритмами фільтрації, що базуються на нечіткій логіці другого типу. Ідентифікація контурів та кутів (edge de- tec ti on). Однією з найбільш важливих харак- теристик зображення є контури і ребра, які ідентифікують розташування об’єктів і опису- ють їх форму. В ідеальному зображенні ребра відповідають контурам об’єкта і тому є ефек- тивним підходом до сегментації зображень. Проте визначення ребра є досить розмитим. Інтуїтивно зрозуміло, що точки, в околі яких є значний скачок інтенсивності, скоріш за все належать ребру. Проте невідомо як визначити рівень за якого стрибок в інтенсивності ви- значає ребро, а за якого ні. Або як визначити, що саме цей піксель належить ребру, а не його сусід. Зрозуміло, що таке нечітке визначення краще всього представляти за допомогою не- чітких множин. В [6] запропоновано метод, що базується на техніці морфологічного градієнта та IT2 FLS. Система нечіткої логіки спроектована з ви- користанням гаусівських функцій належнос- ті, а параметри обчислюються динамічно на базі значень градієнта кожного зображення. Система складається з 4 входів, одного ви- ходу та трьох нечітких правил, сформованих на базі декількох тестів та експертних знань. Редукція проводилась використовуючи центр множин. В [7], так само як [6], використовується тех- ніка морфологічного градієнта, проте в комбі- нації з GT2 FS (general type-2 fuzzy set). Система має чотири входи з трьома лінгвістичними Рис. 1. Результат роботи алгоритму фільтрації ISSN 0130-5395, УСиМ, 2018, № 6 51 Сучасні підходи до розв’язання задач комп’ютерного зору змін ни ми і один вихід з двома лінгвістични- ми змінними. Використовується структура пра вил Мамдані, дефаззіфікація проводиться використовуючи методи висот та наближень. Для тестування використовувалась база даних [6] і одне синтетичне зображення. До зобра- жень застосовано гаусівський шум. Множину порівняльних досліджень представлено в [6]: слід невизначеності GT2 функцій належності варіювався з метою покращення результатів; дефаззіфікація проводилась за допомогою ме- тоду висот та методу наближень, де метод ви- сот давав кращі результати на зображеннях без шуму, а метод наближень — на зображеннях з гаусівським шумом; кількість α-площин варі- ювалась з метою знаходження площин потріб- них для апроксимації результату; проведено дослідження з використанням традиційного методу морфологічного градієнта, методу на базі Type-1 FL (type-1 fuzzy logic), а також IT2 FL та GT2 FL. Методи на базі GT2 FL мають най- кращі результати, що автори пояснюють біль- шою кількістю степенів свободи. В [8] автори, на відміну від інших робіт, за- стосовують ідентифікацію контурів на зоб- раженнях у кольорі. Запропонований підхід поєднує методи, що базуються на градієнтах і GT2 FLS. Системи нечіткої логіки є набли- женими та використовують α-площини. Для тестування використовувались зображення у кольорі з шумом та без. Використання кольо- рових зображень очевидно потребує більших обчислювальних затрат, проте кількість інфор- мації в кольоровому зображенні набагато біль- ша, ніж в чорно-білому, що потенційно може покращити ідентифікацію об’єктів та розумін- ня сцени і контексту. Результат роботи градієнтного методу іден- тифікації контурів на основі градієнта на ко- льоровому зображенні наведено на рис. 2. Загалом, дослідники, працюючи з абсолют- но різними базами даних, не використовують спільної еталонної бази, а оцінюють результа- ти роботи за різними критеріями, як напри- клад: візуальна оцінка, критерій Пратта, відсо- ток правильних класифікацій тощо, тому по- рівняти алгоритми між собою — досить склад- но. Варто зазначити, що алгоритми на основі GT2 FS (general type-2 fuzzy set) вважаються найбільш точними, проте потрібно брати до уваги обчислювальну складність алгоритмів, які базуються на цій теорії. Особливо гостро ця проблема постає у випадках, коли задача розв’язується в режимі реального часу. Класифікація зображень — процес присво- єння об’єктам на зображенні міток певних класів. В [9] запропоновано класифікатор на базі GT2 FS для застосування в класифікації зе- мельного покриву (рівнинної культивованої те ри торії) за зображеннями з висоти. Для кла- сифікації використовували картограф із 7 діа- пазонами довжин хвиль. Задача полягає в роз- пізнаванні областей з висадженою соєю, ку- Рис. 2. Результат роботи градієнтного методу іден- тифікації контурів 52 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук курудзою та люцерном. Автори використали відповідні лінгвістичні змін ні: «соя, кукуру- дза чи люцерн» для кожного діапазону довжи- ни хвилі. Запропонований метод на базі GT2 FS перевершив методи на базі інших типів ло- гік, проте все ще поступається методу макси- мальної правдоподібності. Автори стверджу- ють, що такий метод краще застосовувати для більш складних баз даних, оскільки головною перевагою методу є вміння справлятись з не- визначеністю. Багато робіт пов’язаних з класифікацією при свячено розпізнаванню медичних знім- ків, як наприклад, рентгенографічні знімки гомілки чи легенів або мікроскопічні знімки клітин. Загалом, кількість робіт за темою класифіка- ції, що використовують теорію нечіткої логіки, значно менша, ніж кількість робіт за темою сегментації, фільтрації чи виявлення ребер. Підбір параметрів нечіткої системи з вико- ристанням генетичних алгоритмів. Для роз в’я- зання задач розпізнавання образів застосову- ють генетичні алгоритми. Цікавим є поєднан- ня генетичних алгоритмів та нечіткої логіки для розв’язання цієї задачі, наприклад, у [10] розглянуто проблему ідентифікації людини на основі її райдужної оболонки, голосу та вуха. Тут нечітка логіка використовується для комбі- нування результатів модульної нейронної ме- режі. Модульна нейронна мережа — це такий тип нейронної мережі, де обчислення розді- лені на декілька модулів, кожен з яких збирає інформацію певного типу (в даному випадку — райдужна оболонка, вухо та голос). На рис. 3 можна побачити схематичне зображення сис- теми, представленої в [10]. Результати, отримані модульною нейрон- ною мережею подаються на вхід системи на основі нечіткої логіки, де вони комбінуються на основі бази правил для отримання остаточ- ного результату. Представлена система використовує гене- тичний алгоритм для оптимізації практично всіх параметрів системи: тип нечіткої логіки (перший, другий інтервальний та загальний), тип системи (Mamdani чи Sugeno), тип функ- цій належності (трапезоїд чи GBell), кількість функцій належності в кожній вхідній та вихід- ній змінній, їх параметри, а також правила. Використовуючи таку оптимізацію вдалося добитись розпізнавання на рівні 99—100% у випадках без шуму та в середньому 90% роз- пізнавання у випадках з шумом (найгірші ви- падки — 83%, найкращі — 99%). Таке поєднання генетичних алгоритмів та не- чіткої логіки є перспективним і потенційно мо- же застосовуватись для класифікації об’єктів. Класифікація та виявлення об’єктів за допомогою нейронних мереж Основними інструментами, на яких базують- ся сучасні алгоритми класифікації зображень є Deep Learning та CNN (convolutional neural networks — згорткові нейронні мережі). Згорткові нейронні мережі схожі з звичайни- ми нейронними мережами, проте вони спро- ектовані з припущенням, що на вхід подається Рис. 3. Схема системи розпізнавання людей на базі нечіткої логіки ISSN 0130-5395, УСиМ, 2018, № 6 53 Сучасні підходи до розв’язання задач комп’ютерного зору зображення. Це дозволило закласти певні ха- рактеристики в архітектуру, які спрямовані на покращення класифікації. На відміну від зви- чайних нейронних мереж, шари згорткових нейронних мереж є тривимірними. Нейрони одного шару пов’язані тільки з певною об- ластю наступного шару. Перший вхідний шар мережі має розмірність w × h × d, де w — шири- на зображення, h — висота, d — кількість ка- налів кольору [11]. Кожен шар такої мережі трансформує отриманий вхід, використовую- чи диференційовну функцію. В згортковій не- йронній мережі використовуються такі типи шарів: CONV (convolutional — згорткові), POOL (pooling — агрегуючі), FC (fully-connected — повнозв’язні). Параметри згорткового шару — множи- на фільтрів. Типовий фільтр може мати роз- мірність 5 × 5 × 3. Під час прямого проходу цей фільтр рухається по вхідному шару і об- числює добуток між елементами фільтру та областю вхідного зображення. Таким чином формується так звана активаційна карта, що містить відповідь фільтра на вхідний шар в кожній позиції. Інтуїтивно зрозуміло, що в процесі навчання формуються фільтри, які реагують на певні характеристики, напри- клад, ребро, пляма певного кольору тощо. Насправді проблема інтерпретації роботи не- йронної мережі є складною і не вирішеною на даний момент, але така аналогія дозволяє краще уявити принцип роботи. Для кожної області вхідного шару використовується де- кілька фільтрів, кожен з яких потенційно по- винен розпізнавати різні характеристики цієї області. Кожен фільтр продукує двовимірну активаційну карту, які потім нашаровуються одна на одну вздовж глибини вихідного шару. Розглянуту концепцію можна наглядно по- казати на рис. 4. Вхідний шар (червоний) має розмірність 32 × 32 × 3, тобто на вхід подається зображення 32 × 32 з трьома каналами кольо- ру. Кожен нейрон згорткового шару зв’язаний тільки з певною областю вхідного шару, проте з повною глибиною. Наведено приклад згорт- кового шару з використанням 5 фільтрів для кожної області. Варто зазначити, що фільтри можуть ру- хатись з різними кроками (1, 2 і т. ін.) тим самим ми можемо варіювати розмірність ви- хідного шару, чим більший крок, тим менша буде розмірність шару. Інколи до вхідного зображення дописують нульові елементи по краях, щоб стандартизувати всі зображення до певного розміру на який розрахована не- йронна мережа. Така схема все ще містить дуже багато не- йронів і потребує багато обчислень. Тому ді- йшли висновку, що якщо є сенс шукати певну характеристику в одному місці зображення, то є сенс шукати її і в інших місцях. Тому вирі- шено для нейронів на певній глибині викорис- товувати один і той самий фільтр для кожної просторової позиції, що значно зменшує кіль- кість унікальних параметрів шару. Між згортковими шарами таких мереж час від часу вставляють агрегуючі шари для того, щоб контролювати розмірність вихідного ша- ру. Такі шари трансформують тільки ширину та висоту вихідного шару. Вони складають- ся з фільтрів розміру k × l, які агрегують зна- чення в області замінюючи всі значення цієї області одним. Прикладом такої агрегуючої операції є MAX. Такий фільтр залишає тільки максимальне значення, наприклад, в області 2 × 2 він відкидає 75% параметрів, залишаючи одне з чотирьох значень. Застосування таких шарів дозволяє зберегти важливу інформацію тим самим зменшивши кількість параметрів в системі. Приклад такого шару можна побачи- ти на рис. 5. Рис. 4. Приклад згорткового шару ней рон- ної мережі 54 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук Нейрони повнозв’язного шару з’єднані з усіма нейронами вхідного шару як і у звичай- них нейронних мережах. Є багато відкритих баз зображень та відео на яких розробники алгоритмів порівнюють свої напрацювання. Такими базами є CIFAR-10, CIFAR-100, ILCVRC (ImageNet Large Scale Visual Recognition Challenge), PASCAL VOC Challenge, COCO (Common Objects in Context). Класифікація зображень. AlexNet [12] — пер- ша робота, що популяризувала використан- ня згорткових нейронних мереж в задачах комп’ютерного бачення. Виграла ILSVRC в 2012 з результатом 18.9% top 5 error. Особливістю мережі є те, що згорткові шари розташовані один за одним. До цього, зазвичай, використо- вували згорткові шари, за якими одразу йшли агрегуючі шари. Мережа складалась з 60 млн. параметрів, 500 000 нейронів, п’ять згорткових шарів, деякі з яких передували шарам з max- агрегацією, два повнозв’язних шари та фіналь- ний 1000-вимірний softmax шар. Ця архітектура ефективно реалізована на GPU з застосуванням регуляризації для уникнення перенавчання. Все це дуже пришвидшило як навчання так і класифікацію. ZFNet [13] — згорткова нейронна мережа, що є покращенням AlexNet (14.8% top 5 error на ILSVRC 2013). Вона використовує схожу архітектуру, але інші гіперпараметри, зокрема збільшений розмір внутрішніх згорткових ша- рів, а також зменшений крок і розмір фільтра на першому шарі. VGGNet [14] — мережа, основним здобутком якої є доведення емпіричним шляхом того, що глибина мережі є критичним моментом для хороших показників. Значного покра- щення можна досягнути, використовуючи 16—19 згорт кових / пов но зв’яз них шарів з ду- же однорідною архітектурою, яка виконує ли- ше 3 × 3 згортки та 2 × 2 агрегацію. Недоліками є те, що вона повільна та використовує багато пам’яті та параметрів (140 млн.). Більшість параметрів знаходяться на першому пов- но зв’яз но му шарі. Пізніше доведено, що ці пов но зв’яз ні шари можуть бути видалені без зниження якості розпізнавання, при цьому суттєво зменшуючи кількість необхідних па- раметрів. VGGNet ще й зараз використовується в якості мережі для формування карти ознак (feature extraction). GoogLeNet (Inception-v1) [15] — вперше пред- ставила архітектуру Inception (6.67% top 5 error на ILSVRC 2014), що значно зменшила кіль- кість параметрів в мережі (4 млн.). Мережа складається з дев’яти блоків або Inception мо- дулів, схожих за архітектурою. Кожен з блоків робить згортки 1 × 1, 3 × 3, 5 × 5 та max-агрега- цію. Таким чином на кожному рівні витягу- ються ознаки різного масштабу. Якщо масш- таб занадто великий для поточного рівня — він розпізнається на наступному рівні. Після Inception модулів йде агрегація за се- реднім та softmax шар. Для пришвидшення тренування використовуються ще допоміжні так звані training heads, тобто на проміжних рівнях додається вихід, який дозволяє сигналу швидше доходити до нижніх рівнів та є додат- ковою регуляризацією. ResNet [16] — основна ідея таких мереж по- лягає у введенні в архітектуру так званих обхід- них з’єднань, які дозволяють просто пропус- Рис. 5. Агрегуючий шар згорткової нейронної ме- режі ISSN 0130-5395, УСиМ, 2018, № 6 55 Сучасні підходи до розв’язання задач комп’ютерного зору тити сигнал далі. Мережа також використовує batch normalization. Наявність обхідних шарів дозволила натренувати модель зі 152 шарів, при цьому зберігаючи меншу складність ніж VGGNet. ResNet після цього зазнала ще декількох мо- дифікацій. В [17] запропоновано Inception-v4 (побудована на базі GoogLeNet, без обхідних з’єднань) та Inception-ResNet (містить обхідні з’єднання). Тут надано емпіричне доведення, що тренування з обхідними шарами пришвид- шує тренування мереж з Inception архітектурою. Наведено деякі аргументи, що ResNet Inception архітектури (тобто поєднання Inception з обхід- ними з’єднаннями), не сильно, але все ж пе- ревершують схожі за складністю Inception ар- хітектури. Поєднання трьох Inception-ResNets та Inception-v4 дозволяє досягнути результату в 3.58% top 5 error. В [18] викладена теорія про те, що Residual Networks поводять себе як ансамбль віднос- но неглибоких мереж. Автори переписують residual network як набір шляхів, які, як вияв- ляється, ведуть себе як ансамбль, в тому сенсі, що вони не сильно залежать один від одного. Більшість градієнтів в мережі зі 110 шарів да- ють шляхи, які мають глибину всього 10—34. Подальші покращення цієї архітектури зроб- лені в [19]. Взявши за основу інтерпретацію дуже глибоких residual networks як ансамб- лю мереж, автори будують мережу, яка біль- ше широка, ніж глибока. Така архітектура не тільки покращує точність, але й дає значний приріст в швидкодії в тому сенсі, що її можна обчислювати паралельно на різних процесо- рах. Ідея широких мереж використана в [20], де показано, що навіть мережа глибиною в 16 шарів перевершує за швидкодією і точністю інші глибокі residual networks та розроблено архітектуру, яка показала найкращий резуль- тат на CIFAR-10. В [21] представлено архітектуру (FractalNet), яка по суті є усіченим фракталом та генерує гли- бокі мережі, використовуючи просте правило розширення без застосування обхідних шарів, проте з арифметикою між шарами. Показано, що залишкові з’єднання не обов’язково є клю- чем до успіху, скоріше — це можливість пере- йти з неглибокого рівня на глибокий під час тренування. SqueezeNet [22] — мережа, оптимізована під розмір моделі, містить в 50 разів менше зв’язків та є в 2 рази швидшою, ніж AlexNet, але має більшу точність. Після застосування компрес- сії модель займає всього 470 КВ. Ідентифікація об’єктів. На відміну від кла- сифікації зображень, ідентифікація об’єктів потребує локалізації об’єкта на зображенні. Більшість робіт в цій області до 2014 р. ба- зувалась на використанні SIFT (scale-invariant feature transform — перетворення ознак не- залежно від масштабу) та HOG (histogram of oriented gradients — гістограми орієнтованих градієнтів). Одним з підходів до виявлення об’єктів є регресія, проте ця стратегія дала 30.5% mAP (mean average precision) на базі VOC 2007. Одною з перших робіт, де використову- вались згорткові нейронні мережі для ви- явлення об’єктів була [23], в якій представ- лено архітектуру R-CNN (region-based CNN). Автори використовують підхід розпізнавання Рис. 6. Схема роботи R-CNN 56 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук на основі областей. Система складається з 3 модулів: 1) генерація областей-кандидатів (RoI — re- gion of interest, region proposals), незалежних від категорій; 2) велика згорткова нейронна мережа для перетворення зображення у карту ознак (4096- вимірний вектор для кожної з областей канди- датів, згенерований використовуючи AlexNet); 3) набір специфічних для кожного класу лі- нійних SVM-класифікаторів. Схему роботи R-CNN [23] представлено на рис. 6. Потрібно зазначити, що цей метод дав зна- чний приріст в точності в порівнянні з попере- дніми (53—58% mAP на VOC 2007-2012). Цей підхід є досить складним в обчисленні, потрібно багато областей, що приводить до об- числень, які повторюються (для областей, що перетинаються). Цю проблему вирішує метод Fast R-CNN [24], шляхом пропускання цілого зображення через мережу для генерації карти ознак. Тоді для кожної області-кандидата агре- гаційний шар бере вектор ознак фіксованого розміру з карти ознак. Цей вектор пропуска- ється через декілька повнозв’язних шарів, які потім відгалужуються в два паралельних шари, один з яких генерує імовірності того, що об- ласть належить до певного класу, а інший (bbox regressor) генерує 4 значення, які описують рамку для об’єкта. Метод дав також приріст в точності — 68-70% mAP на VOC 2007-2012. Схему архітектури Fast R-CNN [24] наведено на рис. 7. Fast R-CNN майже досягає швидкодії реаль- ного часу, якщо не брати до уваги час на гене- рацію областей-кандидатів (цей крок все ще дуже повільний). Слабким місцем є саме гене- рація областей. Запропоновано покращення цього алгоритму — Faster R-CNN [25]. Введено RPN (region proposal network), яка використо- вує ті ж згорткові ознаки цілого зображення, що і мережа виявлення об’єктів, таким чином уможливлюючи майже незатратну генерацію областей кандидатів. На першій стадії (RPN) зображення пропускаються через мережу VGG- 16, яка генерує карту ознак, деякі з яких на пев- ному внутрішньому шарі використовуються для генерації областей-кандидатів незалежно від класів. На другій стадії ці області (зазвичай 300) використовуються для вибору ознак з тієї Рис. 7. Архітектура Fast R-CNN Рис. 8. Ключова ідея R-FCN ISSN 0130-5395, УСиМ, 2018, № 6 57 Сучасні підходи до розв’язання задач комп’ютерного зору ж карти, які після подаються на вхід останньої частини мережі генерації ознак з метою перед- бачення класу та уточнення обмежуючої рамки відповідно до класу. Області не генеруються на- пряму із зображення і не пропускаються кож- на окремо через мережу генерації ознак, таким чином обчислення не повторюються для кож- ної області. Точність методу на VOC 2007-2012 складає 75—78% mAP. Архітектура дозволяє об- робляти зображення зі швидкістю 5 fps. Хоча Faster R-CNN на декілька порядків швидша за Fast R-CNN, той факт, що деякі об- Рис. 9. Результат роботи різних архітектур 58 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук числення виконуються по кількасот разів для кожної області, привів авторів [26] до створення нового методу — R-FCN, який схожий з Faster R-CNN, проте мінімізує кількість обчислень, що припадають на кожну область. Замість того, щоб витягувати ознаки для області-кандидата напряму з карти ознак, вони переміщують цей процес на останній шар перед прогнозуван- ням. Всі шари є згортковими і обраховуються на цілому зображенні, а останній згортковий шар генерує k2 чутливих до позицій карт оцінок для кожної категорії, і таким чином має (C+1)- канальний вихідний шар (C категорій + 1 для фону). Чутливість до позицій важлива в задачі виявлення об’єктів, на відміну від класифіка- ції зображень. Після цього шару йде шар агре- гації, який обирає з кожних k × k оцінок одну. Ключова ідея R-FCN зображена на рис. 8. Під час тренування, останній шар вчиться гене- рувати потрібні оцінкові карти. Показується, що R-FCN з використанням ResNet 101 (хоча можна застосовувати і інші мережі для класи- фікації) досягає точності такого ж порядку, як і Faster R-CNN, працюючи набагато швидше. Загалом запропонована архітектура працює в 2.5—20 разів швидше за попередника. YOLO (You Only Look Once) [27] — це метод, який на відміну від інших, що використовують класифікатори в якості детекторів, розглядає проблему розпізнавання об’єктів як задачу ре- гресії на просторово відокремлені обмежуваль- ні прямокутники та пов’язані з ними класові імовірності. Одна нейронна мережа передбачає обмежувальні прямокутники та класові ймо- вірності з повного зображення за один прохід і працює з повним зображенням, а не з окреми- ми областями. Архітектура має 24 згорткових і 2 повнозв’язних шари. Оскільки весь цикл роз- пізнавання є однією мережею, то його швидко- дія може бути оптимізована. Архітектура є над- звичайно швидкою, але не настільки точною, як Faster R-CNN. Стандартна модифікація дося- гає 63.4% mAP при 45 fps, а швидка модифікація досягає 52.7% mAP при 155 fps на VOC 2007. SSD (Single Shot MultiBox Detector) [28] — значний крок вперед в напрямку виявлення об’єктів в реальному часі. Автори запропону- вали метод, який досягає швидкості в 59 fps на VOC 2007 при цьому показуючи mAP 74.3%. Метод, як і попередній, не використовує ге- нерацію областей-кандидатів. Натомість ви- користовується невеликий згортковий фільтр для передбачення категорій і розміщення рам- ки та окремі фільтри для різного співвідно- шення сторін рамок. Ці фільтри застосовують- ся на різних етапах мережі з метою виявлення об’єктів різного масштабу. На даний момент відомо дуже багато різних архітектур для виявлення об’єктів. Порівняльна статистика різних архітектур наводиться в [29]. Тут обрано архітектуру з оптимальним балансом швидкодії, пам’яті та точності, береться до уваги розмір об’єктів, що розпізнаються, та розширен- ня зображення, що є дуже важливим в багатьох практичних задачах, зокрема в розпізнаванні по- вітряних об’єктів, оскільки вони зазвичай носять нечіткий характер та відносно малі на зображен- нях, бо рухаються дуже швидко, а тому повинні бути виявленні на ранніх стадіях, коли об’єкт знаходиться ще досить далеко. Автори поєдну- ють різні, як вони називають, мета-архітектури (Faster R-CNN, R-FCN, SSD) з різними мере- жами для класифікації (VGG, Inception, ResNets та ін.). Вони показують, що швидкодію Faster R-CNN можна покращити за рахунок викорис- тання меншої кількості областей-кандидатів без значних втрат в точності. Порівняння результату роботи різних архітектур наведено на рис. 9. Складність нейронних мереж для класифі- кації зображень останніми роками зростала експоненційно, тому виникли роботи, при- свячені автоматизації пошуку архітектури, де використовують рекурентні нейронні мережі і навчання з підкріпленням для пошуку потріб- ної архітектури. Використання детекторів та дескрипторів в задачах комп’ютерного бачення Значний прогрес досягнутий в області ком п’ю- тер но го зору завдяки використанню нейрон- них мереж. Багато IT гігантів працюють над роз в’я зан ням задач комп’ютерного зору і біль- ISSN 0130-5395, УСиМ, 2018, № 6 59 Сучасні підходи до розв’язання задач комп’ютерного зору шість з них роблять ставку саме на нейронні мережі. По трібно зазначити, що хоча це один із найбільш успішних на даний момент підхо- дів, він потре бує великих затрат ресурсів: люд- ської праці, фі нансів, обчислювальних потуж- ностей і т. н. Зро зуміло, що такі затрати до- ступні далеко не кожному, саме тому значного прогресу в індустрії досягли Google, Facebook та інші великі корпорації. Проте існують методи, які дозволяють отри- мати бажаний результат при значно менших затратах, хоча і у задачах вузького спрямуван- ня, а комбінацією таких методів можна до- сягнути розв’язання більш широкої задачі. На відміну від нейронних мереж, які фокусуються на моделюванні аналітичних підходів людини, ці методи базуються на особливостях самого зображення. Одними із таких є підходи, що базуються на знаходженні так званих особли- вих точок та їх числового представлення. Такі методи дозволяють комп’ютеру досить точно працювати з візуальною інформацією. Щоб описати зображення, потрібно при в’я- за тись до його локальних особливостей або як їх часто називають — особливих точок. Особ- лива точка — це така точка зображення, що за- довольняє ряду властивостей: 1. визначеності — особливість повинна виді- лятися на фоні серед сусідніх точок; 2. стійкості — зміна яскравості, контраст- ності і кольорової гами не повинні впливати на місце особливої точки на об’єкті або сцені; 3. інваріантності — особливі точки повинні володіти стійкістю до повороту, зміни масшта- бу зображення і зміни ракурсу зйомки; 4. стабільності — зашумленість зображен- ня, що не перевищує певний поріг, не повинна впливати на роботу детектора; 5. інтерпретованості — особливі точки пови- нні бути представлені в форматі, придатному для подальшої роботи; 6. кількості — кількість виявлених особли- вих точок має відповідати мінімальній вимозі до їх кількості для зіставлення зображень. Пошук особливих точок здійснюється де- тектором. Детектор — алгоритм пошуку осо- бливих точок. Дескриптор — опис особливої точки, що визначає особливості її околиці, являє со- бою числовий або бінарний вектор певних параметрів. Довжина вектора і вид параме- трів визначаються застосовуваним алгорит- мом. Дескриптор дозволяє виділити особливу точку з усієї їх множини на зображенні. Це необхідно для складання ключових пар осо- бливостей, що належать одному об’єкту при порівнянні різних зображень. Схема застосування детекторів і дескрипто- рів для розв’язання задачі класифікації. Одними з найпоширеніших класів алгоритмів класифі- кації є так звані bag-of-words (або bag-of-features, bag-of-key-points). Ідея запозичена з задачі кла- сифікації текстів, де використовується опис у вигляді гістограм входжень певних слів із напе- ред складеного словника. Основні кроки таких алгоритмів описуються так: виявлення ключових точок зображення;1. обчислення дескрипторів локальних око-2. лів особливих точок; кластеризація дескрипторів ключових то-3. чок, що належать всім об’єктам навчальної ви- бірки; побудова опису кожного зображення у ви-4. гляді нормованої гістограми входжень «слів» (для кожного кластеру обчислюється кількість віднесених до нього ключових точок певного зображення); побудова класифікатора, який використо-5. вує обчислений на кроці 4 опис зображення; Дескриптори, що використовуються алго- рит ма ми даного класу, повинні бути інваріант- ні до афінних перетворень та зміни освітлення. Слов ник дескрипторів ключових точок пови- нен бу ти достатньо великим, щоб відображати релевантні зміни частин зображення, але в той же час не надто великим, щоб алгоритм був стійким до шуму. Такий підхід отримав досить критики, оскільки він ніяк не враховує просторову ін- формацію про розподіл ключових точок зобра- ження в результаті чого опис об’єктів зі схожи- ми наборами ключових точок, які знаходяться в абсолютно різних конфігураціях, співпадає. Для врахування цього аспекту запропоновано 60 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук декілька підходів: використання так званих просторових корелограм «візуальних слів»; ви- користання ієрархічної моделі, в якій об’єкт представляється P частинами, до кожної з яких відноситься N p ключових точок; використання схеми порівняння пірамід, в якій простір ознак розбивається на послідовність вкладених од- на в одну підобластей і обчислюється зважена сума числа співпадінь на всіх рівнях розбиття, при чому співпадіння на більш детальних рів- нях мають більшу вагу. Ще одним підходом до розв’язання задачі кла сифікації є використання моделей об’єк тів, що скла даються з частин (part-based models). Ал го ритми даного класу враховують взаємне розташування різних частин об’єкту. На прик- лад, при розпізнаванні обличчя важливе вза- ємне розташування очей, носа, рота, волосся тощо. Основними елементами моделей, що складаються з частин є: представлення окремих частин об’єкта (за- звичай для цього використовують дескриптори); методи навчання даного представлення; опис зв’язків між частинами. Виявлення об’єктів за допомогою детекторів і дескрипторів. Методи розв’язання задач ви- явлення об’єктів можна умовно поділити на 3 групи: методи, що використовують найбільш ха- рактерні ознаки для опису об’єктів. В якості ознак можуть бути вибрані точкові особливос- ті об’єкта або ознаки побудовані для зображен- ня, що містить тільки один цей об’єкт; методи пошуку об’єктів за шаблоном; методи виявлення об’єктів, що рухаються на базі декількох зображень або кадрів відео однієї й тої ж сцени. Методи на основі характерних ознак спочат- ку будують характерні вектори ознак для осо- бливих точок об’єкта або для всього об’єкта, а потім на основі цього будують класифікатор (для побудови класифікатора можуть викорис- товуватись також методи машинного навчан- ня). Оскільки об’єктів на зображенні може бути досить багато і вони можуть бути представлені в різних масштабах, то потрібно проглядати області зображення використовуючи техніку «ковзаючої рамки» різного розміру. Детектори і дескриптори використовуються для виявлен- ня та опису особливих точок. Ця інформація потім подається на вхід класифікатора, який відносить об’єкт до певного класу. Методи пошуку за шаблоном в якості ша- блону можуть використовувати зображення, на якому присутній тільки шуканий об’єкт, або дескриптори, які притаманні цьому об’єкту. Для розв’язання задачі як і в інших методах застосовується техніка «ковзаючої рамки» різ- них масштабів. Частина зображення, що по- падає в рамку співставляється з шаблоном. Результатом такого порівняння є міра схожос- ті, в якості якої може бути вибрана, наприклад, величина, обернена до Евклідової відстані. Вважається, що, якщо значення схожості біль- ше якогось наперед вибраного порогу, то зна- йдено співпадіння. Проблема вибору порогу є важливою, оскільки його збільшення призво- дить до збільшення числа співпадінь, які були хибно відкинуті, тоді як зменшення порогу призводить до збільшення числа хибних спів- падінь. Методи пошуку за шаблоном ефектив- но працюють при пошуку одиночних об’єктів, тоді як за наявністю багатьох об’єктів різних класів на зображенні виникають певні труд- нощі, пов’язані з перекриттям об’єктами один одного, що призводить до відсутності певних ознак в результуючих дескрипторах. Порівняння зображень часто відбувається у три кроки: виділення двох множин так званих особливих точок; побудова дескрипторів осо- бливих точок; зіставлення особливих точок. Цікавий підхід на основі співставлення зо- бражень використовується в [30]. Автори ви- користовують особливі точки, на основі яких шукають відстані між вихідним та еталонним зображеннями для розпізнавання відбитків пальців. Алгоритми порівняння дескрипторів. Най- прос ті шим алгоритмом порівняння є brute force або метод повного перебору, тобто всі де- скриптори першого зображення зіставляють- ся з усіма дескрипторами другого зображен- ня. Збігом вважається дескриптор, відстань до якого найменша. Відстань обирається в ISSN 0130-5395, УСиМ, 2018, № 6 61 Сучасні підходи до розв’язання задач комп’ютерного зору залежності від розглядуваної задачі та вигляду дескрипторів. Пошук відповідного дескриптора — це по- шук найближчого сусіда в просторі дескрипто- рів. Бібліотека FLANN (Fast Library for Ap pro xi- ma te Nearest Neighbors) містить колекцію алго- ритмів для пошуку найближчих сусідів в про- сторах великої розмірності. Методи бібліотеки автоматично вибирають найкращий алгоритм пошуку і оптимальні параметри, базуючись на вхідних даних. В проведених розробниками експериментах, реалізовані в бібліотеці алго- ритми пошуку, на порядок швидші в більшості відомих баз даних, ніж їх попередники. Відфільтрувати дескриптори тільки за від- станню недостатньо для досягнення високої точності визначення схожих об'єктів на зо- браженнях. Якщо об'єкт рухається на сцені або знятий з іншого ракурсу, то при застосу- ванні викладених вище методів порівняння дескрипторів можуть з'явитися помилково визначенні зв'язки. Для зниження впливу помилкових зістав- лень особливих точок використовується алго- ритм робастного оцінювання RANSAC (RANdom Samp le Consensus) [31]. Під робастністю слід розуміти нечутливість до малих відхилень від припущень. Цей допоміжний алгоритм, ви- користовується як варіант додаткової фільтра- ції результатів, відсіювання хибних співпадінь піс ля знаходження збігів особливих точок. RANSAC — це метод, який використовуєть- ся для оцінки параметрів моделі на підставі випадкових вибірок. При зіставленні модель являє собою матрицю перетворення (гомо- графія). На вході алгоритму є дві множини де- скрипторів, отриманих на попередньому і по- точному зображенні. Схема роботи RANSAC полягає в багаторазо- вому повторенні таких етапів. Вибір опорних точок і побудова параме-1. трів моделі, що містить 8 невідомих параме- трів. Для пошуку матриці гомографіі необ- хідно, як мінімум, 4 пари особливих точок на зображеннях, що зіставляються. На підставі отриманих наборів будується матриця пере- творення. Перевірка побудованої моделі. Для кож-2. ної точки попереднього кадру знаходиться проекція на поточному кадрі, і виконується пошук найбільш близького дескриптора (точ- ки) з множини дескрипторів поточного кадру. Характерна точка позначається як «викид», якщо відстань між проекцією і відповідним дескриптором поточного зображення більше заданого порогу. Заміщення моделі. Перевіряється, чи є 3. побудована модель кращою серед набору по- передніх моделей. В результаті застосування RANSAC будуєть- ся найкраща матриця гомографіі, яка буде ви- користовуватися для пошуку помилкових від- повідностей. В даному випадку алгоритм RANSAC — це математичний засіб верифікації достовірності виявлених збігів. Детектори. Детектор Моравеця. Одним з найперших і найпростіших детекторів кутів є алгоритм Моравеця [32]. Автор розглядає зміну яскра- вості квадратного вікна (зазвичай розміру 3 × 3, 5 × 5, 7 × 7) відносно розглядуваної точки при зсуві вікна на 1 піксель у 8 напрямках (горизон- тальні, вертикальні, діагональні). Для кожно- го пікселя обчислюється зміна інтенсивності, після чого будується карта ймовірності знахо- дження кутів в кожному пікселі за допомогою оціночної функції. Потім пікселі зі значенням ймовірності меншим певного порогового зна- чення відкидаються і в кінці, за допомогою про- цедури пошуку локальних максимумів функції відгуку, видаляються кути, що повторюються. В результаті всі ненульові елементи, що зали- шились, відповідають кутам. Серед недоліків методу варто відзначити такі: неінваріантність до повороту та помилки виявлення при великій кількості діагональних ребер. Детектор Кенні. Детектор був запропонова- ний Джоном Кенні в 1986 [33]. Алгоритм скла- дається з 4 кроків: до зображення застосовується фільтр Га-1. усса з маскою K. Відбувається розмиття зобра- ження, тим самим видаляється той шум, що залишився; 62 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук пошук максимальних значень градієнтів. 2. Для кожного пікселя зображення застосову- ється оператор Собеля, який обчислює набли- жене значення градієнта яскравості зображен- ня. Далі обчислюється напрямок градієнта; пригнічення не-максимумів. Пікселями 3. кон ту рів є пікселі, в яких досягається локаль- ний мак симум градієнта в напрямку вектора градієнта. Значення напрямку повинно бути кратне 45°; порогова фільтрація для визначення по-4. тенційних границь. Застосовується для визна- чення, чи знаходиться границя в даній точці зображення. Чим менший поріг тим більше границь знаходиться, але тим більш сприй- нятливим до шуму стане результат, виділяючи зайві дані зображення. Високий поріг може проігнорувати слабкі межі або отримати гра- ницю фрагментами. Виділення границь Кенні використовує два порога фільтрації: якщо зна- чення пікселя вище верхньої межі — він при- ймає максимальне значення (межа вважається достовірною), якщо нижче — піксель пригні- чується. Точки із значенням, що потрапляють в діапазон між порогів, приймають фіксоване середнє значення. Результат роботи детектора кутів Кенні наведено на рис. 10. Детектор Харріса і Стівенса. Харріс і Стівенс [34] покращили детектор Моравеця розглядаючи похідні за деякими напрямка- ми безпосередньо, а не використовуючи зсув рамки. Далі на основі власних чисел матриці Хар рі- са — робиться висновок про характер точки: якщо обидва власні числа досить вели-1) кі — кут; якщо одне власне число значно більше ін-2) шого — ребро; якщо обидва власні числа близькі до ну-3) ля, то поточний піксель належить плоскій об- ласті. Серед недоліків детектора Харріса і Стівенса: більші обчислювальні затрати порівняно з де- тектором Моравеця, чутливість до шуму. Серед переваг: інваріантність відносно повороту і мен- ша кількість помилок виявлення кутів. FAST (Features from Accelerated Segment Test). В алгоритмі розглядається коло з 16 пікселів (побудоване алгоритмом Брезенхема) навколо точки-кандидата P. Точка є кутовою, якщо для поточної розглянутої точки P існують N суміж- них пікселів на колі, інтенсивність яких біль- ше I P + t або інтенсивності всіх менше I P — t, де I P — інтенсивність точки P, t — гранична вели- чина. Далі необхідно порівняти інтенсивність в вертикальних і горизонтальних точках на колі під номерами 1, 5, 9 і 13 з інтенсивністю в точці P (для того, щоб якомога швидше відсте- жити хибні кандидати). Якщо для трьох з цих точок виконається умова I Pi > I P + t або I Pi < I P + t, i = 1, …, 4 то проводиться повне тестування для всіх 16 точок [35]. Експерименти показали, що найменше значення N, при якому особливі точ- ки починають стабільно проявлятися: N = 9. Існують різні модифікації алгоритму: древо- видні FAST-9 і FAST-12. Хоча алгоритм є одним із найпоширеніших на даний момент, він все ж має ряд недоліків: в околі деякої точки може бути виявлено декіль- ка особливих точок, ефективність алгоритму залежить від порядку обробки зображення та розподілу пікселів. В [36] покращено алгоритм використовуючи машинне навчання. Покращена версія отри- мала назву FAST-ER (ER — Enhanced Re peata bi- li ty, покращена повторюваність). На одній і тій Рис. 10. Приклад роботи детектора кутів Кенні ISSN 0130-5395, УСиМ, 2018, № 6 63 Сучасні підходи до розв’язання задач комп’ютерного зору же сцені, що розглядається з різних ракурсів, алгоритм знаходить особливі точки, що нале- жать одним і тим же об’єктам. FAST-ER в за- гальному краще виконує поставлене завдання, ніж FAST, але він потребує більших обчислю- вальних ресурсів. В [37] автори запропонували альтернативу FAST — AGAST (Adaptive and Generic Ac ce le rat- ed Segment Test). Автори використовують той же AST, але покращують побудову і викорис- тання дерев рішень для AST. Алгоритм засто- совує метод обчислення двійкового дерева рішень (кутового детектора), який є загаль- ним і не повинен бути адаптований до нових середовищ. Комбінуючи два дерева, кутовий детектор автоматично адаптується до навко- лишнього середовища і забезпечує найбільш ефективне дерево рішень для області зобра- ження із затримкою в один піксель. AGAST використовує таке ж пригнічення немакси- мумів, що і FAST. Дескриптори. На вхід дескрипторам подаєть- ся зображення і набір особливих точок, а вихо- дом є набір векторів ознак для кожної особли- вої точки. Проте деякі алгоритми розв’язують одразу дві задачі: пошук особливих точок та побудову їх дескрипторів. Дескриптори для отримання якісного ре- зультату повинні мати такі властивості: повторюваність — більшість ознак по-1) винно зберігатись при зміні точки зйомки чи умов освітлення; локальність — ознаки повинні якомога 2) більш локальними, щоб уникати перекриття одних точок іншими; репрезентативність — кількість ознак по-3) винна бути достатньою для того, щоб розумне число ознак виявлялось навіть на невеликому зображенні; ефективність — економія обчислюваль-4) них ресурсів, що особливо важливо в задачах реального часу. SIFT (Scale Invariant Feature Transform) [38]. Алгоритм можна описати наступним чином. 1. Побудова простору зображень, що масш- табується — набору зображень, згладженим Га- усовим фільтром. 2. На основі отриманого простору зобра- жень, що масштабується, обчислюється різни- ця Гауса — попіксельне віднімання зображень в одній октаві. Октаву формують зображення одного масштабу, розмиті фільтром Гауса з різ- ним радіусом розмиття (4 зображення в одній октаві). На цьому етапі забезпечується інва- Рис. 11. Різниця Гаусово- розмитих зображень 64 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук ріантність до масштабування. Потім визнача- ються екстремуми, які записуються в список потенційних особливих точок. На рис. 11 зліва зображена піраміда гаусіа- нів, а справа — їх різниць. Кожна різниця ви- ходить з двох сусідніх гаусіанів. При переході до наступної октави розмір зображень змен- шується вдвічі. Після побудови пірамід точка вважається особливою, якщо вона є локальним екстремумом різниці гаусіанів. Для пошуку екстремумів використовується метод, схема- тично зображений на рис. 12. Якщо значення різниці гаусіанів в точці, позначеній хрестиком більше (менше) всіх значень в точках, позна- чених колами, то ця точка вважається точкою екстремуму. 3. Інваріантність до повороту досягається шляхом обчислення гістограми орієнтацій для деякої ключової точки. Для кожного значення метод знаходить екстремальні значення гісто- грами орієнтації. Після визначення орієнтації всі операції ви- конуються на зображеннях, перетворених від- носно призначеної орієнтації, масштабу і роз- ташування кожної характеристики, чим забез- печується інваріантність цих перетворень. 4. Обчислення дескрипторів. Дескриптор — вектор довжиною 128 = 8 (кількість бінів) × 4 × 4 (кількість квадратів). В кожному квадраті роз- міру 4 × 4 обчислюється гістограма орієнтова- них градієнтів шляхом додавання зваженого значення магнітуди градієнту до одного з 8 бінів гістограми. Використовується також так звана білінійна інтерполяція для уникнення віднесення схожих градієнтів до різних ква- дратів: значення магнітуди кожного градієнта додається не тільки в гістограму відповідного квадрату, але і в гістограми сусідніх квадратів з вагою пропорційною відстані від пікселя, в якому градієнт обчислений до центру відпо- відного квадрату. Перевагами алгоритму є його інваріантність до поворотів, масштабу, зсувів та частково до зміни освітлення. Недоліком є вимогливість до обчислювальної потужності. Крім того, комер- ційне використання алгоритму SIFT повинне бути ліцензоване. Алгоритм зазнав декілька модифікацій, се- ред яких PCA-SIFT (PCA — Principal Component Analysis) та GLOH (Gradient Location and Ori en- tation Histogram). SURF (Speeded up Robust Features) [39]. Алго- ритм розв’язує обидві задачі — задачу пошуку особливих точок та обчислення дескрипторів інваріантних до масштабу та повороту. Метод шукає особливі точки за допомогою матриці Гессе. Гессіан досягає екстремуму в точках максимальної зміни градієнту яскра- вості. Алгоритм добре виявляє плями, кути, краї. Оскільки гессіан не інваріантний від- носно масштабу, то SURF використовує різно- масштабні фільтри для знаходження гессіанів. Для кожної ключової точки обчислюється на- прямок максимальної зміни яскравості і масш- таб, взятий з масштабного коефіцієнта матри- ці Гессе. Градієнт обчислюється за допомогою фільтрів Хаара. Після знаходження ключових точок форму- ються дескриптори — набір з 64 (або 128) чисел. Ці числа відображають напрямок градієнта на- вколо ключової точки. Оскільки ключова точка являє собою максимум гессіана, то це гарантує те, що в оточенні точки повинні бути ділянки із різними градієнтами. Таким чином забезпе- чується дисперсія (відмінність) дескрипторів для різних ключових точок. Напрямок граді- єнта околу рахується відносно напрямку граді- єнта навколо точки в цілому (по всьому околу ключової точки). Таким чином, досягається ін- Рис. 12. Схема методу пошуку екстрему- мів різниці гаусіанів ISSN 0130-5395, УСиМ, 2018, № 6 65 Сучасні підходи до розв’язання задач комп’ютерного зору варіантність дескриптора відносно обертання. Розмір області, на якій рахується дескриптор, визначається масштабом матриці Гессе, що за- безпечує інваріантність відносно масштабу. На- прямок градієнта також рахується за допомогою фільтра Хаара. Для ефективного обчислення фільтрів Гессе і Хаара використовується інтегральне пред- ставлення зображення. Для обчислення дескрипторів виконуються наступні кроки: навколо області будується квадратний окіл розміром 20s, де s — масштаб, на якому отри- мано максимум гессіана; отримана квадратна область розбивається на регіони 4 × 4; для кожного блоку обчислюються прості ознаки, в результаті чого отримується вектор з чотирьох компонент: дві — сумарний градієнт за квадрантом, дві — сума модулів точкових градієнтів; дескриптор формується в результаті скле- ювання зважених описів градієнту для шіст- надцяти квадрантів навколо особливої точки. В якості ваг використовуються коефіцієнти Га- усівського ядра, які необхідні для стійкості до шумів у віддалених точках; до дескриптора додається слід матриці Гессе для розрізнення темних (слід додатній) і світлих (від’ємний) плям. Алгоритм дав значний приріст у швидко- сті у порівнянні зі своїми попередниками, що автори вважають найбільшою заслугою цього алгоритму. За показник якості автори вибрали повторюваність, яку вони вимірювали робля- чи різного роду трансформації з вхідним зо- браженням. Перевагами алгоритму є інваріантність від- носно повороту та масштабування, інваріант- ність відносно різниці загальної яскравості, може виявляти багато об’єктів на сцені. Недоліками є складність реалізації, відносно повільна робота алгоритму. BRIEF (Binary Robust Independent Elementary Features). Алгоритм представлено в [40] з ме- тою розпізнавання однакових областей зобра- ження, що зняті з різних точок. За мету авто- ри ставили максимальне зменшення кількості обчислень. Алгоритм зводиться до побудови випадкового лісу або наївного Баєсівського класифікатора на тренувальній множині. Для найбільш схожої області в тренувальній ви- бірці може використовуватись, наприклад, метод найближчого сусіда. Невеликої кіль- кості операцій вдалось добитись за рахунок представлення вектора ознак у вигляді бінар- ного рядка і використання відстані Хеммінга в якості міри близькості. Зображення розбивається на області розмі- ром, скажімо, S × S. З області вибирається мно- жина p пар пікселів (x, y), де x та y вектори ви- гляду (u, v)T. Для цієї множини будується набір бінарних тестів: 1 if p (x) < p (y) ,τ (p; x, y) = {0 otherwise де p (x) — інтенсивність пікселя x в згладженій версії області p. Вибір множини n d пар ідентифікує множину бінарних тестів і BRIEF дескриптор будується наступним чином: f nd = ∑ 1 ≤ i ≤ nd 2i —1 τ (p; x i , y i ). Автори беруть n d рівним 128, 256, 512. В екс- периментах автори беруть точки згідно з рів- номірним та нормальним розподілами з різни- ми значеннями математичного сподівання та середньоквадратичного відхилення. Алгоритм дає результати порівнювані з SURF, а на дея- ких тестових даних навіть перевершує SURF та SIFT алгоритми. Алгоритм виконується зна- чно швидше, за своїх попередників, проте він є досить чутливим до значних поворотів. BRISK (Binary Robust Invariant Scalable Key- points). У [41] представлено метод BRISK, який є розвитком SURF у плані подальшого удоско- налення складових FAST. Враховуючи розташування ключових точок та відповідні значення масштабу, дескрип- тор BRISK складає дескриптор — двійковий рядок шляхом об’єднання результатів порів- няльних тестів яскравості. Ідентифікується характерний напрямок кожної ключової точ- ки, щоб отримати орієнтовано нормалізовані 66 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук дескриптори та забезпечити інваріантність до обертання. Концепція дескриптора BRISK використо- вує шаблон шляхом аналізу точок, що розта- шо вані рівномірно розподілено по колам, кон- центричним з ключовою точкою. Це забезпе- чує інтегрований аналіз та високу швидкість оброблення чи зберігання. BRIEF-дескриптор тут забезпечує розпізнавання однакових діля- нок зображення, знятих з різних точок зору. У BRISK порівняно з SIFT та SURF приблиз- но однакова точність розпізнання зображень, але при цьому досягнута в декілька разів вища швидкодія реалізації. Відзначимо, що на окре- мих тестових зображеннях точність детекту- вання за допомогою BRISK значно вище, ніж з використанням SURF дескрипторів. Автори також зазначають, що алгоритм також добре пристосовується до різних модифікацій, так неважко збільшити швидкодію алгоритму за рахунок зменшення розглядуваних особливих точок або легко можна позбутись інваріант- ності до масштабування та/чи повороту у ви- падках, коли вони непотрібні. Таким чином основні переваги BRISK поля- гають у забезпеченні суттєво вищої швидкодії за рахунок спрощення процесу оброблення та побудови і використання дескриптора бінар- ного типу. ORB (Oriented FAST and Rotated BRIEF). Ал- го ритм, представлений в [42], є ефективною альтернативою SIFT та SURF. ORB є свого роду сплавом FAST детектора та дескриптора BRIEF. За допомогою детектора FAST знахо- дяться особливі точки, після чого застосову- ється міра Харріса для визначення найкращих N точок. Алгоритм використовує пірамідальну структуру для виявлення особливостей різ- них масштабів. Для обчислення дескриптора використовується BRIEF, проте він не є інва- ріантним до значних поворотів, тому автори роблять певну модифікацію у відповідності до напрямку особливої точки, для того, щоб мати можливість застосувати BRIEF. Для розрахун- ку дескриптора в околиці особливої точки на поточному масштабі виділяється область, для якої знаходиться центр мас. Вектор, спрямо- ваний з особливої точки в бік центру мас, бу- де задавати орієнтацію особливої точки. Для складання дескриптора необхідно сформува- ти квадратне вікно, центроване щодо ключо- вої точки і узгоджене з її орієнтацією. У цьому вікні за заданим правилом вибирається набір пар точок, значення яскравості в яких порів- нюються між собою. Якщо яскравість першої точки буде вищою, у відповідний елемент де- скриптора записується 1, в іншому випадку за- писується значення 0. Складені таким чином дескриптори можна зіставляти один з одним за нормою Хемінга. Структура алгоритму ORB показує, що він є менш вимогливим до обчислювальних ресур- сів. Виграш в швидкості обчислень визнача- ється, перш за все, більш простою процедурою побудови дескрипторів і механізмом обчис- лення норми. KAZE. Алгоритм був представлений в 2012 р. [43] і залишається у відкритому доступі. Ідея створення цього алгоритму полягала у вияв- ленні та описі 2D особливості в нелінійних екс- тремумах масштабного простору, щоб отримати кращу точність локалізації. Гаусове розмиття, що використовується в інших алгоритмах роз- пізнавання об’єктів, таких як SIFT, не враховує природні межі об’єктів, оскільки деталі зобра- ження і шум згладжуються однаковою мірою на всіх рівнях шкали. Щоб зробити розмиття пристосовним до особ ли вос тей зображення, KAZE використо- вує нелінійну диффузійну фільтрацію разом з методом AOS (additive operator splitting — ади- тивне розкладання операторів). При такій фільтрації шуми зображення зменшуються, але межі об’єктів зберігаються. Для розпізнавання об’єктів KAZE слідує в основному тими ж кроками, що і SIFT, але з деякими відмінностями на кожному кроці. Цей алгоритм використовує нелінійну диф- фузійну фільтрацію в поєднанні з функцією провідності замість гауссівского масштабного ядра, використовуваного в SIFT. Ця функція провідності приймає градієнт гауссової згла- дженої версії вихідного зображення як функ- цію часу. Ця діяльність спрямована на отри- ISSN 0130-5395, УСиМ, 2018, № 6 67 Сучасні підходи до розв’язання задач комп’ютерного зору мання особливостей, які мають більш високу повторюваність і відмінність ніж SIFT. Оскільки KAZE обчислює багатомасштабні похідні (градієнти) для кожного пікселя, алго- ритм KAZE більш вимогливий до продуктив- ності, ніж SURF, але його можна порівняти з SIFT. KAZE економить обчислювальні затрати при описі ключових точок, тому що один і той же набір похідних використовується для опису ключової точки. AKAZE (Accelerated KAZE). Пришвидшена версія KAZE представлена в [44]. Автори ста- вили за мету покращити швидкість роботи як детектора, так і дескриптора. При цьому зна- йдені особливі точки і їх дескриптори повинні задовольняти високим показникам точності при порівнянні зображень. Застосування алгоритму FED Fast Explicit Diffusion — на пірамідальній схемі дозволяє побудувати нелінійну багатомасштабну піра- міду. Використання нелінійного коефіцієнта масштабування дозволяє збільшити швидкість знаходження потрібної особливої точки в по- рівнянні з Гауссовою пірамідою. Обчислення даного коефіцієнта базується на зміні яскра- вості зображення при масштабуванні. Порівняння різних детекторів та дескрип- торів. В [45] автори використовують алгорит- ми ORB та AKAZE для порівняння візуальної одометрії отриманої з безпілотних літальних апаратів. Вони використовують дві різні бази даних знімків, зроблені з різних висот та різ- них камер. Отриману інформацію вони філь- трують за допомогою RANSAC і порівнюють з метою визначення положення безпілотни- ка. Застосування алгоритмів у такого вигляду системах ставить додаткові жорсткі вимоги на обчислювальні затрати і швидкодію. Автори приходять до висновку, що ORB є швидшим в обчисленні та час виконання AKAZE швидко зростає зі збільшенням роздільної здатності. Проте, після фільтрування і видалення так зва- них викидів, виявляється, що AKAZE знаходить більше правильних збігів, ніж ORB. Хоча ORB є швидшим, AKAZE демонструє кращий комп- роміс між точністю та швидкістю на знімках з малим розширенням — 680 × 480. Автори при- водять отримані знімки з високою роздільної здатністю до такого розміру з метою забезпе- чити обробку в режимі реального часу. Схоже порівняння проводиться в [46], де ав- тори порівнюють SIFT, SURF, ORB, AKAZE та BRISK для задачі реконструкції спостережень. Результати, що наводяться, підтверджують сказане вище щодо швидкодії алгоритмів. ORB та BRISK показують найкращу швидкість, але генерують дуже багато викидів, що потенцій- но збільшує час порівняння зображень. Тоді як AKAZE працює швидше, генерує набагато мен- ше точок, проте лише невелика частина згене- рованих результатів є викидами. Порівняння різних комбінацій детекторів і дескрипторів зроблено в [47]. Розглянуто ком- бінації: SIFT і SIFT, SURF і SURF, MSER і SIFT, BRISK і FREAK, BRISK і BRISK, ORB і ORB та FAST і BRIEF. Багато різних метрик викорис- товується для порівняння, основні з яких — точність (відношення правильних співпадінь до повної кількості співпадінь) та повнота (від- ношення правильних співпадінь до кількості відповідностей між оригінальним зображен- ням та отриманим знімком). Автори розгля- дають алгоритми в контексті різних аспектів: вплив масштабування та повороту (ORB пока- зує найкращі результати в більшості випадків), вплив розмиття (знову ж таки ORB в більшос- ті перевершує інші підходи, проте результати приблизно одного порядку показують MSER і SIFT та FAST і BRIEF), вплив зміни точки зйомки (найкращі MSER і SIFT та ORB), вплив зміни освітлення (FAST і BRIEF виділяється на фоні інших), вплив компресії JPEG (ORB пере- вершує інші підходи). Конкретні результати порівнянь наведено в [47]. Потрібно зазначи- ти, що використання ORB є допустимим у всіх розглянутих випадках. Найшвидшою є комбі- нація FAST і BRIEF, далі йдуть ORB та BRISK з на порядок нижчими показниками. Для ко- ректного порівняння швидкості виконання потрібно використовувати також інші бази да- них та більше зображень. Ґрунтовне порівняння детекторів та де- скрипторів проведено в 2018 р. в [48]. Розглядаються недоліки всіх попередніх по- 68 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук рівнянь та використовуються дві бази даних, скомбіновані з різних зображень багатьох ін- ших баз даних. По рів ню ють ся алгоритми реа- лізовані в бібліотеці OpenCV: SIFT, SURF (128), SURF (64), KAZE, AKAZE, ORB, ORB (1000) — ORB з параметром MaxFeatures = 1000 (на від- міну від звичайного, в якому цей параметр до- рівнює 100000), BRISK, BRISK (1000) — BRISK з MaxFeatures = 1000. Автори порівнюють вплив різноманітних перетворень на роботу алгоритмів, а також звертають увагу на швид- кодію роботи різних частин та алгоритму в ці- лому. Деталізоване порівняння можна знайти в [48], наведемо тільки деякі з отриманих ре- зультатів. Автори дійшли висновку, що SIFT, SURF та BRISK є найбільш інваріантними до зміни масштабу, в той час як ORB — най- менш інваріантний до цієї зміни. ORB (1000), BRISK (1000) та AKAZE — більш інваріант- ні до повороту ніж інші. ORB та BRISK най- більш ефективні алгоритми, які виявляють також велику кількість особливостей, проте час потрібний на співставлення всіх цих осо- бливостей може впливати на загальний час порівняння зображень. Тоді як ORB (1000) та BRISK (1000) мають найменший час порів- няння, проте за рахунок цього втрачається точність. Загалом SIFT та BRISK найточніші, якщо розглядати всі геометричні перетворен- ня в цілому, з перевагою на боці SIFT. В [48] наводяться такі упорядкування алго- ритмів: за вмінням виявляти велику кількість особ- ливостей: ORB>BRISK>SURF>SIFT>AKAZE>KAZE; за ефективністю обчислення однієї особ- ливої точки: ORB>ORB(1000)>BRISK>BRISK(1000)> >SURF(64)>SURF(128)>AKAZE>SIFT>KAZE; за середнім часом витраченим на співстав- лення особливостей однієї точки: ORB(1000)>BRISK(1000)>AKAZE>KAZE> >SURF(64)>ORB>BRISK>SIFT>SURF(128); за загальним часом витраченим на спів- ставлення: ORB(1000)>BRISK(1000)>AKAZE>KAZE> >SURF(64)> SIFT>ORB>BRISK >SURF(128). Загалом є дуже багато робіт, які порівнюють між собою різні алгоритми, проте вони ви- користовують різні бази даних і різні критерії якості, розглядаються в контексті розв’язання різних задач. Тому неможливо зробити одно- значне порівняння алгоритмів і розставити їх в порядку якості. Порівняння повинне проводи- тись в залежності від розв’язуваної задачі. Висновки Зроблено огляд основних методів розв’язання задач комп’ютерного бачення, розглянуто їх переваги та недоліки. Теорія нечіткої логіки вивела розпізнавання на якісно новий рівень подарувавши новий методологічний та алго- ритмічний фреймворк для роботи зі складни- ми та недовизначеними системами. Одним з найбільших вкладів теорії нечіткої логіки в розпізнавання образів є спрощення розробки алгоритмів на базі інтерпретованих моделей. Алгоритми на основі ймовірносних моделей погано інтерпретуються і тому їх не- можливо доповнити експертними знаннями. Теорія нечітких множин має в своєму розпо- рядженні механізм, що дозволяє використо- вувати всі накопичені експертами знання в якості бази правил. Саме можливість вико- ристання експертних знань та інтерпретова- ність моделей є основними перевагами систем на базі нечіткої логіки. Використання множин другого типу може значно покращити отрима- ні результати, проте суттєво збільшує обчис- лювальні затрати. Проектування системи на базі нечіткої ло- гіки може обернутись надзвичайно непростою задачею, оскільки з розширенням домену за- дачі буде збільшуватись і розмір бази правил та обчислювальні потреби. Через ресурсоза- тратність та складність проектування систем класифікації, теорію нечіткої логіки здебіль- шого використовують на попередніх етапах комп’ютерного бачення, таких як сегментація чи фільтрація. Нейронні мережі є далеко не новим підхо- дом, проте отримали значне поширення до- сить недавно з появою згорткових нейронних ISSN 0130-5395, УСиМ, 2018, № 6 69 Сучасні підходи до розв’язання задач комп’ютерного зору мереж, що направлені саме на роботу з фото- та відеоданими. За допомогою рекурентних не- йронних мереж реалізовано пошук архітектур нейромережевих систем. Різні моделі оптимі- зовано під різні обмеження, як то розмір моде- лі, обчислювальні затрати чи точність. Для навчання нейромережевої системи за- звичай потрібні великі об’єми репрезентатив- них даних. Збір повноцінної бази зображень є нелегкою задачею. Варто зауважити, що най- точніші архітектури є дуже вимогливими в пла ні пам’яті та обчислювальних потужнос- тей, а швидким та невеликим моделям бракує точності. Альтернативою попереднім двом підходам є використання особливостей самого зобра- ження. Такий підхід не потребує великої бази зображень. Алгоритми на базі детекторів та де- скрипторів використовуються в багатьох систе- мах розпізнавання та до сплеску популярності нейронних мереж були найпоширенішим під- ходом до розв’язання задач класифікації. Ефективним застосуванням детекторів та дескрипторів може бути автономна навігація безпілотних літальних апаратів, де потрібне співставлення ландшафтів та визначення по- точного місцезнаходження. В такій задачі не- має конкретних класів об’єктів, які потрібно розпізнати, замість розподілу на класи «доро- га», «дерево» та ін., ще постає завдання спів- ставлення, чи це та сама дорога, чи те саме дерево, координати якого відомі. Крім того, знімки можуть бути взяті з різної висоти. Потрібно зазначити, що немає універсаль- ного детектора чи дескриптора, який пере- важає інші. Загалом цим методам бракує точ- ності і їх застосування не є доцільним для всіх задач класифікації чи виявлення. Вибір кон- кретного апарату залежить від поставленої за- дачі. Для ефективного розв’язання тієї чи ін- шої задачі найкращим може бути поєднання декількох підходів. Незважаючи на значний прогрес в галузі комп’ютерного бачення, все ще залишається багато відкритих питань. Одним з нагальних питань є застосування таких систем в умовах обмежених ресурсів — безпілотних літальних апаратах, мобільних пристроях, роботизова- них та супутникових системах. Досягнення швидкодії реального часу при збереженні за- довільної точності — це та задача, яка стоїть на даний момент перед дослідниками. REFERENCES 1. Wang, C., Xu, A., Li, C., Zhao, X., 2016. “Interval type-2 fuzzy based neural network for high resolution remote sensing image segmentation,” ISPRS The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Vols. XLI-B7, pp. 385—391. 2. Shi, J., Lei, Y., Zhou, Y., 2016. “A narrow band interval type-2 fuzzy approach for image segmentation,” Journal of Systems Architecture, v. 64, pp. 86—99. 3. Murugeswari, P., Manimegalai, D., 2011. “Noise Reduction in Color image using Interval Type-2 Fuzzy Filter (IT2FF),” International Journal of Engineering Science and Technology, v. 3, 2, pp. 1334—1338. 4. Yuksel, M., Basturk, A., 2012. “Application of Type-2 Fuzzy Logic Filtering to Reduce Noise in Color Images,” IEEE Computer Intelligence Magazine, v. 7, pp. 25—35. 5. Own, C. M., Tsai, H. H., Yu P.T., Lee, Y.J., 2006. “Adaptive type-2 fuzzy median filter design for removal of impulse noise,” Imaging Scientific Journal, v. 54, pp. 3—18. 6. Melin, P. Mendoza O., Castillo, O., 2010. “An improved method for edge detection based on interval type-2 fuzzy logic,” Expert Systems with Applications, v. 37, pp. 8527—8535. 7. Melin, P., Gonzalez, C., Castro, J., Mendoza, O., Castillo, O., 2014. “Edge-Detection Method for Image Processing Based on Generalized Type-2 Fuzzy Logic,” IEEE Transactions on Fuzzy Systems, v. 22, pp. 1515—1525. 8. Gonzalez, C.I., Melin, P., Castillo, O., 2017. “Edge Detection Method Based on General Type-2 Fuzzy Logic Applied to Color Images,” Information (Switzerland), vol. 8. 9. Lucas, L., Centeno, T., Delgado, M., 2008. “Land cover classification based on general type-2 fuzzy classifiers,” Inter- national Journal of Fuzzy Systems, vol. 10, pp. 207—216. 10. Melin, P., 2018. “Genetic optimization of type-1, interval and intuitionistic fuzzy recognition systems,” Notes on Intu- itionistic Fuzzy Sets, v. 24, pp. 106—128. 70 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук 11. CS231n Convolutional Neural Networks for Visual Recognition, [Online]. Available: http://cs231n.github.io/convolu- tional-networks. [Accessed 6 November 2018]. 12. Krizhevsky, A., Sutskever I., Hinton, G.E., 2012. “Imagenet classification with deep convolutional neural networks,” Advances in neural information processing systems (NIPS 2012). 13. Zeiler, M.D., Fergus, R. “Visualizing and Understanding Convolutional Networks,” 2013. [Online]. Available: https:// arxiv.org/abs/1311.2901v3. [Accessed 6 November 2018]. 14. Simonyan, K., Zisserman, A. “Very deep convolutional networks for large-scale image recognition,” 2014. [Online]. Available: https://arxiv.org/abs/1409.1556. [Accessed 6 November 2018]. 15. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A. “Going deeper with convolutions,” 2014. [Online]. Available: https://arxiv.org/abs/1409.4842. [Accessed 6 November 2018]. 16. K. He, K., Zhang, X., Ren, S., Sun, J., 2016. “Deep residual learning for image recognition,” CVPR. 17. Szegedy, C., Ioffe, S., Vanhoucke V., Alemi, A., 2016. Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. [Online]. Available: https://arxiv.org/abs/1602.07261. [Accessed 6 November 2018]. 18. Veit, A., Wilber, M., Belongie, S. “Residual Networks Behave Like Ensembles of Relatively Shallow Networks,” 2017. [Online]. Available: https://arxiv.org/abs/1605.06431v2. [Accessed 6 November 2018]. 19. Abdi, M., Nahavandi, S. “Multi-Residual Networks: Improving the Speed and Accuracy of Residual Networks,” 2017. [Online]. Available: https://arxiv.org/abs/1609.05672v4. [Accessed 6 November 2018]. 20. Zagoruyko, S., Komodakis, N., 2017. Wide Residual Networks. [Online]. Available: https://arxiv.org/abs/1605.07146v4. [Accessed 6 November 2018]. 21. Larsson, G., Maire, M., Shakhnarovi, G. “FractalNet: Ultra-Deep Neural Networks without Residuals,” 2017. [On- line]. Available: https://arxiv.org/abs/1605.07648v4. [Accessed 6 November 2018]. 22. Iandola, F.N., Han, S., Moskewicz, M.W., Dally, W.J., Keutzer, K., 2016. “SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size”. [Online]. Available: https://arxiv.org/abs/1602.07360. [Accessed 6 No- vember 2018]. 23. Girshick, R., Donahue, J., Darrell, T., Malik, J., 2014. “Rich feature hierarchies for accurate object detection and se- mantic segmentation,” Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 580—587. 24. Girshick, R., 2015. Fast R-CNN. [Online]. Available: https://arxiv.org/abs/1504.08083v2. [Accessed 6 November 2018]. 25. Ren, S., He, K., Girshick, R., Sun, J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Net- works, 2015. [Online]. Available: https://arxiv.org/abs/1506.01497. [Accessed 6 November 2018]. 26. Dai, J., Li, Y., He, K., Sun, J., 2016. R-FCN: Object Detection via Region-based Fully Convolutional Networks, [On- line]. Available: https://arxiv.org/abs/1605.06409. [Accessed 6 November 2018]. 27. Redmon, J., Divvala, S., Girshick, R., Farhadi, A., 2015. You only look once: Unified, real-time object detection, [On- line]. Available: https://arxiv.org/abs/1506.02640. [Accessed 6 November 2018]. 28. Liu, W., Anguelov, D., Erhan, D., Szegedy, C. Reed, S., Fu, C.-Y., Berg, A.C., 2016. SSD: Single Shot MultiBox Detec- tor, [Online]. Available: https://arxiv.org/abs/1512.02325v5. [Accessed 6 November 2018]. 29. Huang, J., Rathod, V., Sun, C., Zhu, M., Korattikara, A., Fathi, A., Fischer, I., Wojna, Z., Song, Y., Guadarrama, S., Murphy, K., 2017. Speed/accuracy trade-offs for modern convolutional object detectors. [Online]. Available: https:// arxiv.org/abs/1611.10012v3. [Accessed 6 November 2018]. 30. Kyyko, V.M., Matsello, V.V., 2015. “The Fingerprints Recognition Based on Corresponding Points Searching”. Uprav- lausie sistemy i masiny, 3, pp. 36—41. (In Russian). 31. Fischler, M.A., Bolles, R.C., 1981. “Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography,” Comm. ACM. 32. Moravec, H., 1980. “Obstacle Avoidance and Navigation in the Real World by a Seeing Robot Rover”. Tech Report CMU-RI-TR-3,” Carnegie-Mellon University, Robotics Institute. 33. Canny, J., 1986. “A Computational Approach To Edge Detection,” IEEE Trans. Pattern Analysis and Machine Intel- ligence, 1986. 34. Harris, C., Stephens, M., 1988. “A combined corner and edge detector,” Proceedings of the 4th Alvey Vision Conference. 35. Rosten, E., Drummond, T., 2006. Machine Learning for High-speed Corner Detection. 36. Rosten, E., 2008. Faster and better: a machine learning approach to corner detection. 37. Mair, E., Hager, G.D., Burschka, D., Suppa, M., Hirzinger, G. “Adaptive and Generic Corner Detection Based on the Accelerated Segment Test,” European Conference on Computer Vision (ECCV’10), September 2010. 38. Lowe, David, G., 1999. “Object recognition from local scale-invariant features,” Proceedings of the International Confer- ence on Computer Vision. ISSN 0130-5395, УСиМ, 2018, № 6 71 Сучасні підходи до розв’язання задач комп’ютерного зору 39. Bay, H., Ess, A., Tuytelaars, T., Van Gool, L., 2008. “Speeded Up Robust Feature,” ETH Zurich, Katholieke Universiteit Leuven. 40. Calonder, M., Lepetit, V., Strecha, C., Fua, P., 2010. “BRIEF: Binary Robust Independent Elementary Features,” 11th European Conference on Computer Vision (ECCV). 41. Leutenegger, S., Chli, M. Siegwart, R.Y., 2011. “BRISK: Binary Robust invariant scalable keypoints,” 2011 Interna- tional Conference on Computer Vision, Barcelona, Spain. 42. Rublee, E., Rabaud, V., Konolige, K.M, Bradski, G., 2011. “ORB: An efficient alternative to SIFT or SURF,” 2011 International Conference on Computer Vision, Barcelona, Spain. 43. Alcantarilla, P.F., Bartoli, A., Davison, A.J., 2012. “KAZE Features,” in European Conference on Computer Vision 2012 (ECCV 2012). 44. Alcantarilla, P.F., Nuevo, J., Bartoli, A., 2013. Fast explicit diffusion for accelerated features in nonlinear scale spaces, BMVC. 45. Roos, D.R., Shiguemori, E.H., Lorena, A.C., 2016. “Comparing ORB and AKAZE for visual odometry of unmanned aerial vehicles,” 4th Conference of Computational Interdisciplinary Sciences, 2016. 46. Byrne, J., Laefer, D.F., O’Keffe, E., 2017. “Maximizing feature detection in aerial unmanned aerial vehicle datasets,” Journal of Applied Remote Sensing, 11(2). 47. Isık, S. Özkan, K., 2014. “A Comparative Evaluation of Well-known Feature Detectors and Descriptors.,” International Journal of Applied Mathematics, Electronics and Computers, v. 3. 48. Tareen, S.A.K., Saleem, Z., 2018. “A comparative analysis of SIFT, SURF, KAZE, AKAZE, ORB, and BRISK.,” 2018 International Conference on Computing, Mathematics and Engineering Technologies (iCoMET). Received 22.11.2018 Tymchyshyn Roman, PhD student, International Research and Training Center for Information Technologies and Systems of the NAS and MES of Ukraine, Glushkov ave., 40, Kyiv, 03187, Ukraine, romantymchyshyn.rt@gmail.com Volkov Olexander, head of department, International Research and Training Center for Information Technologies and Systems of the NAS and MES of Ukraine, Glushkov ave., 40, Kyiv, 03187, Ukraine, alexvolk@ukr.net Gospodarchuk Oleksiy, senior research fellow, International Research and Training Center for Information Technologies and Systems of the NAS and MES of Ukraine, Glushkov ave., 40, Kyiv, 03187, Ukraine, dep185@irtc.org.ua Bogachuk Yuriy, leading research fellow, International Research and Training Center for Information Technologies and Systems of the NAS and MES of Ukraine, Glushkov ave., 40, Kyiv, 03187, Ukraine, dep185@irtc.org.ua MODERN APPROACHES TO COMPUTER VISION Introduction. Computer vision includes a wide variety of problems: image segmentation, processing, classification, scene reconstruction, pose estimation, object detection, trajectory tracking and others. These problems are cornerstones of artificial intelligence. The field has been rapidly evolving in recent years, partly due to the fact that such giants of IT industry as Google and Microsoft have joined the research. AI systems are in high demand nowadays. Technological advances have enabled many applications of computer vision in dozens of industries. Among them are such well known applications as smart stores, biometric authentication, automation of agricultural processes using drones, video surveillance, improving the quality of photo and video data, autonomous delivery of parcels by unmanned aerial vehicles. The scope will be expanding since the need for artificial intelligence systems increases over time and vision is one of the most informative sensors that can be used in such systems. Purpose. The number of developments in the field of computer vision increases exponentially and staying up to date is not an easy task. There is a wide variety of existing approaches and choosing the right one can be difficult. The goal of this 72 ISSN 0130-5395, Control systems and computers, 2018, № 6 Р.М. Тимчишин, О.Є. Волков, О.Ю. Господарчук, Ю.П. Богачук paper is to present a structured overview of modern techniques in the field of computer vision with their advantages and disadvantages, and identification of unresolved problems. Accuracy is not the only quality measure considered, we also take speed and memory into account, which is critical for embedded systems (unmanned aerial vehicles, mobile devices, robotic and satellite systems). Methods. Fuzzy logic, convolutional neural networks, feature detectors and descriptors. Results. Fuzzy logic theory has led recognition to a completely new level by presenting a new methodological and algorithmic framework for working with complex and uncertain systems. Introduction of type-2 fuzzy sets has significantly improved accuracy and robustness. Their main advantages are the use of expert’s knowledge and interpretability of fuzzy logic models. Now fuzzy logic is mainly used as a complement for other systems with the aim to improve decision making process by handling the uncertainty. Researchers often employ this technique for solving image segmentation and filtering problems. Convolutional neural networks (CNN) make the explicit assumption that the inputs are images. This assumption allows to encode certain properties into the architecture and lead to striking results. CNN architectures even managed to beat human in a classification task in some cases (e.g. on ImageNet visual database). Presented here are the architectures with state-of-the-art results in image classification and object detection tasks. Feature detectors and descriptors were the most commonly used tool in image processing for years. They remain a great alternative to resource intensive neural networks. Methods based on feature detectors and descriptors don’t require large databases for learning. A good fit for these types of methods is autonomous navigation of unmanned aerial vehicles where images matching is needed for the coordinate identification. Conclusion. While the great progress has been made in recent years there is still a number of unsolved problems. Existing algorithms lack generality. Performance improvement usually leads to accuracy degradation. There are no high-quality accurate algorithms that can solve object detection problems in real-time. Use of accurate computer vision algorithms requires significant amounts of memory and computing resources that may not be available on embedded systems. Training time of deep convolutional neural networks is still large and can reach weeks even on the most performant computers. There is no clear way to deal with low quality images. Keywords: Computer vision, image classification, object detection, image segmentation, image filtering, edge detection, fuzzy logic, neural networks, feature detectors, feature descriptors. Р.М. Тимчишин, аспирант, отдел интеллектуального управления, Международный научно-учебный центр информационных технологий и систем НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина, romantymchyshyn.rt@gmail.com А.Е. Волков, заведующий отделом интеллектуального управления, Международный научно-учебный центр информационных технологий и систем НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина, alexvolk@ukr.net А.Ю. Господарчук, старший научный сотрудник, отдел интеллектуального управления, Международный научно-учебный центр информационных технологий и систем НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина, dep185@irtc.org.ua Ю.П. Богачук, ведущий научный сотрудник, отдел интеллектуального управления, Международный научно-учебный центр информационных технологий и систем НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина, Е-mail: dep185@irtc.org.ua СОВРЕМЕННЫЕ ПОДХОДЫ К РЕШЕНИЮ ЗАДАЧ КОМПЬЮТЕРНОГО ЗРЕНИЯ Введение. Компьютерное зрение включает в себя широкий спектр задач: сегментацию, обработку и классифи- кацию изображений, восстановление сцен, обнаружение, оценку положения и восстановление траекторий объ- ектов, и многие другие. Эта нгаправление стремительно развивается в последние годы, частично и потому, что к исследованию при- соединились такие гиганты ИT-индустрии, как Google и Microsoft. В настоящее время системы искусственного ISSN 0130-5395, УСиМ, 2018, № 6 73 Сучасні підходи до розв’язання задач комп’ютерного зору интеллекта пользуются большим спросом. Технологические достижения сделали возможным применение ком- пьютерного зрения в десятках новых отраслей, таких как умные магазины, биометрическая аутентификация, ав- томатизация сельскохозяйственных процессов с использованием беспилотных летательных аппаратов (БпЛА), видеонаблюдение, улучшение качества фото- и видеоданных, автономная доставка посылок. Область примене- ния будет расширяться, поскольку потребность в системах искусственного интеллекта только возрастает. Цель. Количество наработок в области компьютерного зрения увеличивается экспоненциально и выбор под- ходящего инструмента — непростая задача. Цель данной статьи — представить структурированный обзор совре- менных технологий компьютерного зрения с их преимуществами и недостатками, а также идентифицировать нерешенные проблемы. Методы. Нечеткая логика, сверточные нейронные сети, детекторы и дескрипторы ключевых точек. Результаты. Теория нечеткой логики вывела распознавание на качественно новый уровень представив новый фреймворк для работы со сложными и неопределенными системами. Введение нечетких множеств второго типа значительно улучшило точность и устойчивость алгоритмов. Основными преимуществами систем на базе нечет- кой логики являются использование знаний эксперта и интерпретируемость финальной модели. Сейчас этот ме- тод часто используется для решения задач сегментации и фильтрации изображений. Сверточные нейронные сети (CNN) делают явное предположение о том, что на вход системе подается изо- бражение. Это предположение позволило внедрить определенные свойства в архитектуру и привело к порази- тельным результатам. Архитектура CNN даже в некоторых случаях превзошла человека в задаче классификации (например, на базе данных ImageNet). В работе представлены архитектуры с лучшими результатами в задачах классификации изображений и обнаружения объектов. Детекторы и дескрипторы ключевых точек — наиболее часто используемый инструмент обработки изображе- ний в течение многих лет. Они остаются отличной альтернативой ресурсоемким нейронным сетям. Методы, что базируются на детекторах и дескрипторах, не требуют больших баз данных для обучения. Хорошим применением этих типов методов может быть автономная навигация беспилотных летательных аппаратов, где для идентифика- ции координат требуется сопоставление изображений. Выводы. Несмотря на то, что в последние годы удалось добиться значительного прогресса, все еще остается множество нерешенных проблем. Повышение производительности обычно приводит к ухудшению точности. Нет достаточно точных алгоритмов, которые могли бы решать проблемы обнаружения объектов в режиме ре- ального времени. Использование точных алгоритмов компьютерного зрения требует значительных объемов памяти и вычислительных ресурсов, которые недоступны во встраиваемых системах. Время обучения глубоких сверточных нейронных сетей по-прежнему велико и может достигать недель даже на самых производительных компьютерах. Ключевые слова: Компьютерное зрение, классификация изображений, обнаружение объектов, сегментация изображе- ний, фильтрация изображений, выделение границ, нечеткая логика, нейронные сети, детекторы, дескрипторы.

Сучасні підходи до розв'язання задач комп'ютерного зору

Institution

Ähnliche Einträge