Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень

The paper presents an analysis of the optical and geometric characteristics of pharmaceutical packaging in AI recognition tasks. The study considers the specifics of medication packaging as a complex object for automated image analysis, including the influence of geometric properties, reflective sur...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2026
Hauptverfasser: Дацок, Є.О., Яковлева, О.В.
Format: Artikel
Sprache:Ukrainisch
Veröffentlicht: Vinnytsia National Technical University 2026
Schlagworte:
Online Zugang:https://oeipt.vntu.edu.ua/index.php/oeipt/article/view/867
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Optoelectronic Information-Power Technologies
Завантажити файл: Pdf

Institution

Optoelectronic Information-Power Technologies
_version_ 1868294510095630336
author Дацок, Є.О.
Яковлева, О.В.
author_facet Дацок, Є.О.
Яковлева, О.В.
author_institution_txt_mv [ { "author": "Є.О. Дацок", "institution": "Харківський національний університет радіоелектроніки" }, { "author": "О.В. Яковлева", "institution": "Харківський національний університет радіоелектроніки" } ]
author_sort Дацок, Є.О.
baseUrl_str https://oeipt.vntu.edu.ua/index.php/oeipt/oai
collection OJS
datestamp_date 2026-06-17T13:08:31Z
description The paper presents an analysis of the optical and geometric characteristics of pharmaceutical packaging in AI recognition tasks. The study considers the specifics of medication packaging as a complex object for automated image analysis, including the influence of geometric properties, reflective surfaces, small text, multilingual labeling, and illumination conditions on recognition quality. The limitations of classical OCR approaches for this type of packaging are analyzed, particularly those related to text deformation on curved surfaces, glare artifacts, low contrast, and complex image structures. Practical recommendations for photographing the packaging to improve recognition stability are also considered. The findings demonstrate that optical image characteristics significantly influence the effectiveness of AI-based analysis and should be taken into account during the design of multimodal recognition systems.
doi_str_mv 10.31649/1681-7893-2026-51-1-130-138
first_indexed 2026-06-18T01:01:29Z
format Article
fulltext 130 CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ УДК 004.932:615.1/.4-014.24 ЄВГЕНІЯ ДАЦОК, ОЛЕНА ЯКОВЛЕВА ОПТИКО-ГЕОМЕТРИЧНІ ОСОБЛИВОСТІ УПАКОВОК ЛІКАРСЬКИХ ЗАСОБІВ У ЗАДАЧАХ АВТОМАТИЗОВАНОГО РОЗПІЗНАВАННЯ ЗОБРАЖЕНЬ Kharkiv National University of Radio Electronics, Kharkiv, Ukraine, yevheniia.datsok@nure.ua, olena.yakovleva@nure.ua, oleh.datsok@nure.ua Анотація. У роботі проведено аналіз оптичних та геометричних особливостей упаковок лікарських засобів у задачах AI-розпізнавання. Розглянуто специфіку такої упаковки як складного об’єкта для автоматизованого аналізу зображень, зокрема вплив геометричних характеристик, відбивних поверхонь, дрібного тексту, багатомовного маркування та особливостей освітлення на якість розпізнавання. Проаналізовано обмеження класичних OCR-підходів у задачах розпізнавання медичної продукції, пов’язані з деформацією тексту на криволінійних поверхнях, відблисками, низьким контрастом та складною структурою зображень. Розглянуто практичні рекомендації щодо фотографування упаковок лікарських засобів для підвищення стабільності автоматизованого розпізнавання. Отримані результати показують, що оптичні характеристики зображень суттєво впливають на ефективність AI-аналізу та повинні враховуватися під час проєктування систем мультимодального розпізнавання. Ключові слова: автоматизоване розпізнавання зображень, мультимодальні моделі, OCR, упаковки лікарських засобів, комп’ютерний зір, оптичні характеристики, обробка зображень, мультимодальний аналіз. Abstract. The paper presents an analysis of the optical and geometric characteristics of pharmaceutical packaging in AI recognition tasks. The study considers the specifics of medication packaging as a complex object for automated image analysis, including the influence of geometric properties, reflective surfaces, small text, multilingual labeling, and illumination conditions on recognition quality. The limitations of classical OCR approaches for this type of packaging are analyzed, particularly those related to text deformation on curved surfaces, glare artifacts, low contrast, and complex image structures. Practical recommendations for photographing the packaging to improve recognition stability are also considered. The findings demonstrate that optical image characteristics significantly influence the effectiveness of AI- based analysis and should be taken into account during the design of multimodal recognition systems. Keywords: automated image recognition, multimodal models, OCR, pharmaceutical packaging, computer vision, optical characteristics, image processing, multimodal analysis. DOI: 10.31649/1681-7893-2026-51-1-130-138 I. ВСТУП Розвиток методів комп’ютерного зору та штучного інтелекту сприяв активному впровадженню систем автоматизованого аналізу зображень у різних прикладних сферах. Подібні AI-рішення вже широко використовуються у фінансовому домені, зокрема у системах автоматизованого розпізнавання чеків та отримання структурованої інформації про витрати, як у застосунку Billka AI [1]. Використання мультимодальних моделей дозволяє поєднувати аналіз текстового та візуального контексту, що значно розширює можливості автоматизованого вилучення інформації зі складних зображень [2]. Одним із перспективних напрямів застосування AI-розпізнавання є аналіз упаковок лікарських засобів, який може використовуватися у фармацевтичних інформаційних системах, мобільних застосунках для домашнього медичного обліку, сервісах контролю медикаментів та інтелектуальних медичних асистентах [3]. © ЄВГЕНІЯ ДАЦОК, ОЛЕНА ЯКОВЛЕВА, 2026 mailto:olena.yakovleva@nure.ua CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ 131 Сучасні мультимодальні AI-моделі дозволяють виконувати автоматизоване вилучення інформації з фотографій упаковок препаратів, включаючи назви лікарських засобів, виробників, активні речовини та інші характеристики. Попри розвиток сучасних AI-підходів, упаковки лікарських засобів залишаються складним об’єктом для автоматизованого оптичного розпізнавання. На відміну від документів або друкованих форм із передбачуваною структурою, упаковки лікарських засобів характеризуються складними геометричними та оптичними властивостями, що ускладнює автоматизований аналіз зображень. Класичні OCR-системи мають обмеження під час аналізу упаковок лікарських засобів через складні умови зйомки та деформацію тексту. Крім цього, традиційні OCR-системи не враховують загальний візуальний контекст зображення та не здатні виконувати семантичний аналіз об’єктів. Паралельно з цим розвиток мультимодальних великих мовних моделей (MLLMs) створює нові можливості для AI-розпізнавання комплексних зображень. На відміну від класичних OCR-підходів, мультимодальні моделі здатні одночасно аналізувати текстову та візуальну інформацію, враховувати просторовий контекст елементів упаковки та виконувати структуроване отримання даних навіть у випадках часткової деградації зображення. Проте ефективність таких систем також значною мірою залежить від оптичних характеристик вхідного зображення. Актуальним є аналіз оптичних особливостей упаковок лікарських засобів у задачах AI- розпізнавання, а також дослідження факторів, які впливають на якість автоматизованого аналізу зображень у мультимодальних системах. II. ОГЛЯД ІСНУЮЧИХ ДОСЛІДЖЕНЬ ОПТИЧНИХ ОСОБЛИВОСТЕЙ ТА ПІДХОДІВ ДО AI-РОЗПІЗНАВАННЯ УПАКОВОК ЛІКАРСЬКИХ ЗАСОБІВ Для задач AI-розпізнавання упаковок лікарських засобів недостатньо розглядати лише алгоритми читання тексту, оскільки сама упаковка є складним оптичним об’єктом, а її фотографія формується внаслідок взаємодії геометрії поверхні, матеріалів упаковки, освітлення, параметрів камери та умов зйомки. Саме тому сучасні дослідження у цій сфері охоплюють не лише OCR-підходи, а й питання оптичних характеристик зображень, деформації тексту, відблисків, геометричної корекції та мультимодального аналізу текстонасичених сцен. У сучасних дослідженнях зазначається, що однією з головних причин зниження точності автоматизованого розпізнавання є складна форма упаковок лікарських засобів. На відміну від звичайних документів, фармацевтичні упаковки часто мають складну геометрію поверхонь та насичену текстом структуру. У систематичному огляді методів machine vision для розпізнавання кодів продукції Koponen та співавт. [13] серед основних причин погіршення якості розпізнавання виділяють зміну кута зйомки, кривизну поверхні, відблиски, розмиття через рух (motion blur) та низький контраст зображення. Окремий клас проблем пов’язаний із циліндричними поверхнями та деформацією тексту під час фотографування. У роботі Gromova та Elangovan [15] запропоновано pipeline для автоматизованого зчитування інформації з етикеток prescription bottle labels, який включає локалізацію ключових точок, деформаційне випрямлення поверхні, stitching декількох кадрів та OCR/NLP-аналіз. Автори відзначають суттєвий вплив геометричних спотворень на якість OCR-розпізнавання. Значну увагу у сучасних дослідженнях також приділено проблемі відблисків та відбиттів світла на текстонасичених зображеннях. У роботі Hou та співавт. [16] задача видалення specular highlights розглядається як окремий етап підготовки зображень перед text detection та OCR. Автори показують, що glare суттєво знижує стабільність downstream text recognition, особливо у випадку глянцевих та металізованих поверхонь. Для упаковок лікарських засобів ця проблема є критично важливою через широке використання фольгованих блістерів та відбивних матеріалів. Традиційно для задач автоматизованого розпізнавання тексту використовуються OCR-системи, зокрема Tesseract OCR, EasyOCR та PaddleOCR [4] – [6]. Дослідження, орієнтовані на аналіз упаковок, показують, що ефективність OCR суттєво знижується у випадку криволінійних поверхонь, дрібного шрифту, багатомовного тексту та складних структур розміщення інформації. У benchmark-дослідженнях OCR для упаковок харчової продукції glare, відбивних матеріалів та curved text визначаються як одні з основних причин помилок розпізнавання навіть для сучасних OCR-систем [17]. Фундаментальні роботи у сфері scene text recognition також підтверджують обмеження класичного OCR у випадку довільних форм тексту. У роботах TextSnake [7], ABCNet [8] та ESIR [9] запропоновано методи геометричного моделювання та image rectification для curved text recognition. Подібні підходи дозволяють частково компенсувати перспективні та криволінійні спотворення перед CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ 132 етапом OCR-розпізнавання. Проте більшість існуючих методів орієнтована на природні сцени, вивіски та document images, а не на фармацевтичні упаковки з дрібним текстом, фольгою та складними матеріалами поверхонь. Паралельно з цим активно розвиваються мультимодальні великі мовні моделі (MLLMs), здатні аналізувати не лише текстові елементи, а й загальний візуальний контекст сцени. У роботі Liu та співавт. [10] запропоновано підхід DLI-IT для drug label identification, у якому OCR та image embeddings комбінуються для покращення ідентифікації лікарських етикеток. Інші дослідження демонструють ефективність image+OCR fusion у задачах fine-grained product recognition [11]. Водночас сучасні benchmark-дослідження OCR-Reasoning показують, що навіть потужні MLLMs усе ще мають труднощі зі складними текстонасиченими зображеннями, особливо у випадку дрібного шрифту, glare, multilingual text та складних layout-композицій [12]. Аналіз сучасних досліджень показує, що упаковки лікарських засобів є складним об’єктом для AI-розпізнавання через поєднання геометричних, оптичних та текстових особливостей. Наявні OCR- підходи демонструють високу ефективність у контрольованих умовах, зокрема під час роботи зі сканованими документами або зображеннями, отриманими при стабільному освітленні, фіксованому положенні камери, однорідному фоні та мінімальних геометричних спотвореннях. Проте їхня точність суттєво знижується під час обробки реальних фотографій упаковок, зроблених на смартфон. Такі зображення часто містять перспективні викривлення, нерівномірне освітлення, відблиски, шум, розмиття та складні фонові елементи, що ускладнює розпізнавання тексту. Тому перспективним напрямом розвитку є поєднання мультимодальних AI-моделей із методами геометричної корекції та попередньої обробки зображень, що дозволяє підвищити стабільність і надійність автоматизованого розпізнавання. III. ГЕОМЕТРИЧНІ ОСОБЛИВОСТІ УПАКОВОК Важливою проблемою автоматизованого AI-розпізнавання упаковок лікарських засобів залишається складна геометрія поверхонь упаковки. На відміну від класичних document-oriented сценаріїв, у яких текст розташовується на плоских поверхнях із мінімальними перспективними спотвореннями, фармацевтичні упаковки часто мають циліндричну або криволінійну форму. Подібні геометричні особливості характерні для флаконів, туб, пластикових контейнерів, аерозольних балонів та інших типів медичних упаковок. Під час фотографування циліндричних або вигнутих поверхонь текстові елементи зазнають нелінійної проєкційної деформації. Символи, розташовані ближче до країв упаковки, можуть візуально стискатися, викривлятися або частково виходити із зони чіткої видимості. Приклади деформації тексту на криволінійних поверхнях упаковок наведено на рисунку 1. Рисунок 1 – Приклади деформації тексту на циліндричних та криволінійних поверхнях упаковок лікарських засобів CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ 133 Подібні спотворення ускладнюють локалізацію текстових областей та розпізнавання символів. Додатковою проблемою є необхідність фотографування упаковки під різними кутами для отримання повної інформації про препарат. На циліндричних флаконах або тубах текст часто розміщується по всьому периметру поверхні, тому один кадр не дозволяє одночасно зафіксувати всі текстові елементи без значних перспективних спотворень. У результаті для повного розпізнавання інформації можуть використовуватися декілька фотографій або відеопослідовності з подальшим stitching та geometric rectification. Окрему складність створює поєднання криволінійної геометрії з дрібним шрифтом та щільним розташуванням інформації. У подібних випадках навіть незначне розмиття або зміна кута зйомки може призводити до втрати читабельності окремих фрагментів тексту. Приклад впливу кута фотографування на деформацію текстових елементів наведено на рисунку 2. Рисунок 2 – Вплив кута зйомки на геометричне спотворення тексту на упаковках лікарських засобів На відміну від традиційних OCR-підходів, мультимодальні AI-моделі здатні частково компенсувати геометричні спотворення завдяки аналізу загального візуального контексту сцени. Проте навіть MLLM-системи залишаються чутливими до сильних деформацій тексту, особливо у випадку дрібних написів, низької роздільної здатності зображення та складних криволінійних поверхонь. У зв’язку з цим геометричні особливості упаковок лікарських засобів залишаються одним із ключових факторів, що впливають на ефективність AI-розпізнавання. IV. ВПЛИВ МАТЕРІАЛІВ УПАКОВКИ ТА ВІДБИВНИХ ПОВЕРХОНЬ НА ЯКІСТЬ AI-РОЗПІЗНАВАННЯ Окрім геометричних особливостей упаковок лікарських засобів, важливий вплив на якість автоматизованого розпізнавання мають оптичні властивості матеріалів поверхні. У сучасній фармацевтичній продукції широко використовуються глянцеві покриття, фольговані блістери, ламіновані та металізовані елементи, які ускладнюють аналіз зображень через появу відблисків і локальних пересвічених ділянок. Під час фотографування при природному або штучному освітленні на поверхні упаковки можуть виникати specular reflections, що знижують контрастність текстових областей та погіршують читабельність інформації. Особливо критичними відблиски є для дрібного тексту, серійних номерів, термінів придатності та інструктивних елементів упаковки. У подібних випадках окремі фрагменти тексту можуть частково або повністю перекриватися світловими артефактами, що призводить до помилок сегментації та втрати символів під час OCR-розпізнавання. Приклади локальної втрати читабельності тексту наведено на рисунку 3. Додаткову складність створюють фольговані та металізовані поверхні, для яких характерні нерівномірні reflection patterns і зниження локального контрасту між текстом та фоном. Це ускладнює як роботу класичних OCR-систем, так і аналіз зображень мультимодальними AI-моделями. CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ 134 У випадку упаковок лікарських засобів проблема відблисків поєднується зі складною геометрією поверхонь, дрібним шрифтом та неоднорідним освітленням, що додатково знижує стабільність AI- розпізнавання. Тому контроль умов освітлення та мінімізація світлових артефактів є важливими елементами підвищення якості автоматизованого аналізу фармацевтичних упаковок. Рисунок 3 – Приклади відблисків та локальної втрати читабельності тексту на упаковках лікарських засобів V. ОСОБЛИВОСТІ ТЕКСТОВОЇ ІНФОРМАЦІЇ НА УПАКОВКАХ ЛІКАРСЬКИХ ЗАСОБІВ Суттєвий вплив на ефективність AI-розпізнавання має не лише геометрія упаковки або оптичні характеристики поверхні, а й сама структура текстової інформації. Фармацевтичні упаковки зазвичай містять значний обсяг даних, розташованих у межах обмеженої площі, що призводить до формування складних text-rich сцен із високою щільністю текстових елементів. Для упаковок лікарських засобів характерне одночасне використання маркетингових назв препаратів, інструктивних блоків, технічної інформації, barcode-елементів, серійних номерів та службових позначень. Приклади складної текстової структури упаковок наведено на рисунку 4. Однією з характерних особливостей фармацевтичного маркування є використання дрібного шрифту для розміщення великого обсягу інформації на компактних поверхнях упаковки. Найчастіше це стосується складу препарату, способу застосування, умов зберігання, протипоказань та допоміжної інформації. У таких умовах навіть незначне погіршення різкості зображення або локальні світлові артефакти можуть суттєво ускладнювати автоматизоване розпізнавання тексту. Крім цього, упаковки лікарських засобів часто містять багатомовне маркування. На одній поверхні можуть одночасно використовуватися українська, англійська та інші мови, а також різні системи скорочень, позначень одиниць вимірювання та фармацевтичних термінів. Подібне поєднання ускладнює процес автоматичної локалізації текстових областей та підвищує ймовірність OCR-помилок під час розпізнавання дрібних фрагментів тексту. Для фармацевтичних упаковок також характерне використання вертикального, нахиленого або частково деформованого тексту. Частина написів може розташовуватися вздовж бокових граней коробок, на краях етикеток або у важкодоступних для фотографування ділянках упаковки. У подібних випадках погіршується стабільність segmentation та orientation detection, особливо під час аналізу smartphone- фотографій із довільним кутом зйомки. Додатковим фактором складності є наявність рельєфних елементів, зокрема шрифту Брайля, тиснення або embossed-symbols. Такі елементи можуть створювати локальні тіні, нерівномірний розподіл освітлення та оптичні спотворення поверхні. На відміну від класичних OCR-систем, мультимодальні AI-моделі здатні частково компенсувати окремі проблеми, пов’язані зі складною структурою текстових сцен, завдяки використанню контекстного аналізу зображення. Водночас стабільність AI-розпізнавання все ще суттєво залежить від якості текстових областей, розміру символів, умов освітлення та загальної читабельності упаковки. CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ 135 Рисунок 4 – Приклади складної текстової структури упаковок лікарських засобів VI. ПРАКТИЧНІ РЕКОМЕНДАЦІЇ ЩОДО ФОТОГРАФУВАННЯ УПАКОВОК ЛІКАРСЬКИХ ЗАСОБІВ ДЛЯ AI-РОЗПІЗНАВАННЯ Ефективність автоматизованого AI-розпізнавання упаковок лікарських засобів значною мірою залежить не лише від алгоритмів аналізу зображень, а й від умов отримання фотографій. Важливим фактором є організація освітлення під час фотографування упаковки. Використання м’якого розсіяного світла дозволяє зменшити кількість glare-артефактів та локальних пересвічених ділянок поверхні. Водночас пряме спрямоване освітлення або використання спалаху часто призводить до формування інтенсивних відбиттів на глянцевих та фольгованих поверхнях, що погіршує читабельність текстових елементів. Для мінімізації геометричних спотворень доцільно виконувати фотографування максимально перпендикулярно до поверхні упаковки. У випадку циліндричних флаконів, туб або аерозольних балонів рекомендується використовувати декілька фотографій із різних ракурсів для покриття повного текстового периметра упаковки. Подібний підхід дозволяє зменшити втрату інформації через криволінійну деформацію тексту. Важливим фактором також є роздільна здатність зображення [18-20]. Для стабільного розпізнавання дрібного тексту та службових елементів упаковки необхідно забезпечувати достатній рівень деталізації microtext-областей. Особливо це стосується серійних номерів, термінів придатності, інструктивних блоків та barcode-елементів. Під час smartphone-фотографування бажано уникати надмірного цифрового zoom, оскільки це може призводити до втрати різкості та появи compression artifacts. Крім цього, суттєвий вплив на якість AI-аналізу мають motion blur та помилки autofocus, які особливо критичні для дрібного шрифту та text-dense сцен. Основні рекомендації щодо покращення умов фотографування упаковок лікарських засобів наведено у табл. 1. Якість фотографування упаковок лікарських засобів є одним із ключових факторів стабільності AI-розпізнавання. Дотримання базових рекомендацій щодо освітлення, ракурсу зйомки та деталізації CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ 136 зображення дозволяє суттєво підвищити ефективність як OCR-систем, так і сучасних мультимодальних AI-моделей [19-22]. Таблиця 1 – Рекомендації щодо підвищення якості AI-розпізнавання упаковок лікарських засобів Рекомендація Очікуваний ефект Використання розсіяного освітлення Зменшення glare та світлових артефактів Фотографування під прямим кутом Зниження перспективних спотворень Використання високої роздільної здатності Покращення читабельності дрібного тексту Зйомка декількох ракурсів Повніше покриття текстових областей Стабілізація камери під час фотографування Зменшення motion blur Уникнення цифрового zoom Збереження деталізації тексту Результати, отримані під час дослідження, можуть бути використані не лише під час розробки систем AI-розпізнавання лікарських засобів, а й на етапі формування та аналізу датасетів фармацевтичних упаковок. Врахування геометричних, оптичних і текстових особливостей упаковок дозволяє більш коректно оцінювати якість мультимодальних моделей у реальних умовах фотографування. Наведені рекомендації можуть бути застосовані також під час розробки мобільних застосунків для автоматизованого розпізнавання інформації з фотографій упаковок лікарських засобів, зокрема для покращення якості зйомки, попередньої обробки зображень та підвищення стабільності AI- аналізу. ВИСНОВКИ У роботі проведено аналіз оптичних особливостей упаковок лікарських засобів у задачах AI- розпізнавання. Показано, що геометричні, оптичні та текстові особливості фармацевтичних упаковок суттєво ускладнюють автоматизований аналіз зображень і знижують ефективність класичних OCR- систем, особливо в умовах реального smartphone-фотографування. Встановлено, що основними факторами погіршення якості розпізнавання є геометричні спотворення тексту, відблиски, низький локальний контраст, дрібний шрифт та складна структура текстових сцен. Показано перспективність використання мультимодальних AI-моделей, які завдяки контекстному аналізу зображення демонструють вищу стійкість до частини таких спотворень. Окрему увагу приділено практичним аспектам фотографування упаковок лікарських засобів. Визначено, що використання розсіяного освітлення, достатньої роздільної здатності та декількох ракурсів дозволяє підвищити стабільність автоматизованого розпізнавання. Отримані результати можуть бути використані під час розробки систем AI-розпізнавання лікарських засобів і мультимодальних фармацевтичних AI-сервісів. Перспективним напрямом подальших досліджень є інтеграція методів geometric rectification, glare reduction та multimodal reasoning для підвищення ефективності аналізу складних фармацевтичних зображень. CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ 137 REFERENCES 1. Billka AI : Website. URL: https://billka.sytoss.com/en/ (дата звернення: 11.05.2026). 2. Liu Z., Lin Y., Cao Y. et al. Visual Instruction Tuning. Advances in Neural Information Processing Systems (NeurIPS). 2023. Vol. 36. Available: https://arxiv.org/abs/2304.08485 (дата звернення: 11.05.2026). 3. Liu Y., Stathopoulos S., Petukhova V. et al. DLI-IT: A Deep Learning Approach to Drug Label Identification through Image and Text Embedding. BMC Medical Informatics and Decision Making. 2020. Vol. 20, no. 1. P. 84. doi: https://doi.org/10.1186/s12911-020-1078-3. 4. Smith R. An Overview of the Tesseract OCR Engine. Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR 2007). 2007. Vol. 2. Pp. 629–633. doi: https://doi.org/10.1109/ICDAR.2007.4376991. 5. JaidedAI. EasyOCR : GitHub repository. 2024. URL: https://github.com/JaidedAI/EasyOCR (дата звернення: 14.05.2026). 6. PaddlePaddle Authors. PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle : GitHub repository. 2024. URL: https://github.com/PaddlePaddle/PaddleOCR (дата звернення: 16.05.2026). 7. Long S., Ruan J., Zhang W. et al. TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes. Proceedings of the European Conference on Computer Vision (ECCV). 2018. Pp. 20–36. doi: https://doi.org/10.48550/arXiv.1807.01544. 8. ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network / Y. Liu et al. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. Pp. 9809–9818. doi: https://doi.org/10.1109/CVPR42600.2020.00983. 9. Zhan F., Lu S. ESIR: End-to-End Scene Text Recognition via Iterative Image Rectification. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. Pp. 2059–2068. doi: https://doi.org/10.1109/CVPR.2019.00216. 10. Liu Y., Stathopoulos S., Petukhova V. et al. DLI-IT: A Deep Learning Approach to Drug Label Identification through Image and Text Embedding. BMC Medical Informatics and Decision Making. 2020. Vol. 20, no. 1. P. 84. doi: https://doi.org/10.1186/s12911-020-1078-3. 11. Pettersson N., Falkman G., Karlsson M. Multimodal Fine-Grained Grocery Product Recognition Using Image and OCR Text. Machine Vision and Applications. 2024. Vol. 35, no. 5. doi: https://doi.org/10.1007/s00138-024-01549-9. 12. Huang X., Li Z., Wang Y. et al. OCR-Reasoning Benchmark for Multimodal Large Language Models. OpenReview. 2025. URL: https://openreview.net/forum?id=aH7eyx64pC (дата звернення: 12.05.2026). 13. Koponen J., Haataja K., Toivanen P. Recent Advancements in Machine Vision Methods for Product Code Recognition: A Systematic Review. F1000Research. 2022. Vol. 11. doi: https://doi.org/10.12688/f1000research.124796.1. 14. Koponen J., Haataja K., Toivanen P. Text Recognition of Cardboard Pharmaceutical Packages by Utilizing Machine Vision. IS&T International Symposium on Electronic Imaging. 2021. doi: https://doi.org/10.2352/ISSN.2470-1173.2021.10.IPAS-235. 15. Gromova A., Elangovan N. Automatic Extraction of Medication Information from Cylindrically Distorted Pill Bottle Labels. Machine Learning and Knowledge Extraction. 2022. Vol. 4, no. 4. Pp. 1045–1065. doi: https://doi.org/10.3390/make4040043. 16. Hou Q., Xie R., Yang M. et al. Text-Aware Single Image Specular Highlight Removal. arXiv preprint. 2021. arXiv:2108.06881. URL: https://arxiv.org/abs/2108.06881 (дата звернення: 16.05.2026). 17. Evaluating OCR Performance on Food Packaging Labels in South Africa. arXiv preprint. 2025. arXiv:2510.03570. URL: https://arxiv.org/abs/2510.03570 (дата звернення: 16.05.2026). 18. Sokol, Y., Avrunin, O., Kolisnyk, K., & Zamiatin, P. (2020). Using medical imaging in disaster medicine. Paper presented at the 2020 IEEE 4th International Conference on Intelligent Energy and Power Systems, IEPS 2020 - Proceedings, 287-290. doi:10.1109/IEPS51250.2020.9263175 19. Selivanova, K. G., Avrunin, O. G., Tymkovych, M. Y., & Manhora, T. V. (2021). 3D Visualization of Human Body Internal Structures Surface During StereoEndoscopic Operations Using Computer Vision Techniques. Przegląd Elektrotechniczny, (9), 30–33. DOI: 10.15199/48.2021.09.06. 20. Місоченко С. Ю. Дослідження використання вірогіднісних методів у сфері обробки біомедичних зображень / С. Ю.Місоченко, К. Г. Селіванова, О. Г. Аврунін // Інформаційні технології: наука, https://billka.sytoss.com/en/ https://arxiv.org/abs/2304.08485 CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ 138 техніка, технологія, освіта, здоров’я: тези доповідей ХXХ міжнародної науково-практичної конференції MicroCAD2022, 19-21 жовтня 2022 р. – Харків : НТУ «ХПІ», 2022. – C. 902. 21. Tymkovych, O. Gryshkov, O. Avrunin, K. Selivanova, Y. Nosova, V. Mutsenko, et al., "Application of SOFA framework for physics-based simulation of deformable human anatomy of nasal cavity", IFMBE Proceedings, vol. 80, pp. 112-120, 2021. 22. Pavlov S.V., Avrunin O.G., Zlepko S.M., Bodiansky E.V. et al. Intellectual technologies in medical diagnostics, treatment and rehabilitation // Monograph [edited by S. Pavlov, O. Avrunin]. Vinnytsia: PP TD “Edelweiss and K, 2019. 260 p. Дата надходження: 24.04.2026 Дата прийняття до друку після рецензування: 15.05.2026 Дата публікації: 18.06.2026 Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License ДАЦОК ЄВГЕНІЯ ОЛЕГІВНА – студентка, Харківський національний університет радіоелектроніки, Харків, 61166,Україна, e-mail: yevheniia.datsok@nure.ua, https://orcid.org/0009-0008-5101-5217 ЯКОВЛЕВА ОЛЕНА ВОЛОДИМИРІВНА – PhD, доцент, Харківський національний університет радіоелектроніки, Харків, 61166,Україна, , e-mail: olena.yakovleva@nure.ua, https://orcid.org/0000-0002-6129-6146 Yevheniia DATSOK, Olena YAKOVLEVA OPTICAL-GEOMETRIC FEATURES OF MEDICINAL PACKAGING IN AUTOMATED IMAGE RECOGNITION PROBLEMS Kharkiv National University of Radio Electronics https://creativecommons.org/licenses/by/4.0/ https://orcid.org/0009-0008-5101-5217 mailto:olena.yakovleva@nure.ua https://orcid.org/0000-0002-6129-6146 CИСТЕМИ ТЕХНІЧНОГО ЗОРУ І ШТУЧНОГО ІНТЕЛЕКТУ З ОБРОБКОЮ ТА РОЗПІЗНАВАННЯМ ЗОБРАЖЕНЬ
id oai:oeipt.vntu.edu.ua:article-867
institution Optoelectronic Information-Power Technologies
keywords_txt_mv keywords
language Ukrainian
last_indexed 2026-06-18T01:01:29Z
publishDate 2026
publisher Vinnytsia National Technical University
record_format ojs
resource_txt_mv oeiptvntueduua/6f/a6e6af1a615b7092ed968cd546913b6f.pdf
spelling oai:oeipt.vntu.edu.ua:article-8672026-06-17T13:08:31Z Optical-geometric features of medicinal packaging in automated image recognition problems Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень Дацок, Є.О. Яковлева, О.В. automated image recognition multimodal models OCR pharmaceutical packaging computer vision optical characteristics image processing multimodal analysis автоматизоване розпізнавання зображень мультимодальні моделі OCR упаковки лікарських засобів комп’ютерний зір оптичні характеристики обробка зображень мультимодальний аналіз The paper presents an analysis of the optical and geometric characteristics of pharmaceutical packaging in AI recognition tasks. The study considers the specifics of medication packaging as a complex object for automated image analysis, including the influence of geometric properties, reflective surfaces, small text, multilingual labeling, and illumination conditions on recognition quality. The limitations of classical OCR approaches for this type of packaging are analyzed, particularly those related to text deformation on curved surfaces, glare artifacts, low contrast, and complex image structures. Practical recommendations for photographing the packaging to improve recognition stability are also considered. The findings demonstrate that optical image characteristics significantly influence the effectiveness of AI-based analysis and should be taken into account during the design of multimodal recognition systems. У роботі проведено аналіз оптичних та геометричних особливостей упаковок лікарських засобів у задачах AI-розпізнавання. Розглянуто специфіку такої упаковки як складного об’єкта для автоматизованого аналізу зображень, зокрема вплив геометричних характеристик, відбивних поверхонь, дрібного тексту, багатомовного маркування та особливостей освітлення на якість розпізнавання. Проаналізовано обмеження класичних OCR-підходів у задачах розпізнавання медичної продукції, пов’язані з деформацією тексту на криволінійних поверхнях, відблисками, низьким контрастом та складною структурою зображень. Розглянуто практичні рекомендації щодо фотографування упаковок лікарських засобів для підвищення стабільності автоматизованого розпізнавання. Отримані результати показують, що оптичні характеристики зображень суттєво впливають на ефективність AI-аналізу та повинні враховуватися під час проєктування систем мультимодального розпізнавання. Vinnytsia National Technical University 2026-06-17 Article Article application/pdf https://oeipt.vntu.edu.ua/index.php/oeipt/article/view/867 10.31649/1681-7893-2026-51-1-130-138 Optoelectronic Information-Power Technologies; Vol. 51 No. 1 (2026); 130-138 Оптико-електроннi iнформацiйно-енергетичнi технологiї; Том 51 № 1 (2026); 130-138 Оптико-електроннi iнформацiйно-енергетичнi технологiї; Том 51 № 1 (2026); 130-138 2311-2662 1681-7893 10.31649/1681-7893-2026-51-1 uk https://oeipt.vntu.edu.ua/index.php/oeipt/article/view/867/787
spellingShingle автоматизоване розпізнавання зображень
мультимодальні моделі
OCR
упаковки лікарських засобів
комп’ютерний зір
оптичні характеристики
обробка зображень
мультимодальний аналіз
Дацок, Є.О.
Яковлева, О.В.
Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень
title Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень
title_alt Optical-geometric features of medicinal packaging in automated image recognition problems
title_full Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень
title_fullStr Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень
title_full_unstemmed Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень
title_short Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень
title_sort оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень
topic автоматизоване розпізнавання зображень
мультимодальні моделі
OCR
упаковки лікарських засобів
комп’ютерний зір
оптичні характеристики
обробка зображень
мультимодальний аналіз
topic_facet automated image recognition
multimodal models
OCR
pharmaceutical packaging
computer vision
optical characteristics
image processing
multimodal analysis
автоматизоване розпізнавання зображень
мультимодальні моделі
OCR
упаковки лікарських засобів
комп’ютерний зір
оптичні характеристики
обробка зображень
мультимодальний аналіз
url https://oeipt.vntu.edu.ua/index.php/oeipt/article/view/867
work_keys_str_mv AT dacokêo opticalgeometricfeaturesofmedicinalpackaginginautomatedimagerecognitionproblems
AT âkovlevaov opticalgeometricfeaturesofmedicinalpackaginginautomatedimagerecognitionproblems
AT dacokêo optikogeometričníosoblivostíupakovoklíkarsʹkihzasobívuzadačahavtomatizovanogorozpíznavannâzobraženʹ
AT âkovlevaov optikogeometričníosoblivostíupakovoklíkarsʹkihzasobívuzadačahavtomatizovanogorozpíznavannâzobraženʹ