Multimodal RAG using text and visual data

This paper presents the development and investigation of a multimodal Retrieval-Augmented Generation system designed for the analysis and interpretation of medical images. The research focuses on chest X-ray images and their corresponding radiology reports. The primary goal was to create a system ca...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Datum:	2025
Hauptverfasser:	Shevchenko, M.H., Androshchuk, M.V.
Format:	Artikel
Sprache:	Ukrainisch
Veröffentlicht:	PROBLEMS IN PROGRAMMING 2025
Schlagworte:	Retrieval-Augmented Generation multimodality medical imaging report generation deep learning large language models UDC 004.8
Online Zugang:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/859
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:	Problems in programming
Завантажити файл:

Institution

Problems in programming

_version_	1859494746115801088
author	Shevchenko, M.H. Androshchuk, M.V.
author_facet	Shevchenko, M.H. Androshchuk, M.V.
author_sort	Shevchenko, M.H.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2025-11-20T15:40:09Z
description	This paper presents the development and investigation of a multimodal Retrieval-Augmented Generation system designed for the analysis and interpretation of medical images. The research focuses on chest X-ray images and their corresponding radiology reports. The primary goal was to create a system capable of performing two key tasks: generating a detailed radiology report for an input image and providing accurate answers to specific ques tions about it. A secondary goal was to demonstrate that employing a multimodal retrieval-augmented approach significantly improves generation quality compared to using large multimodal models without a retrieval com ponent. The system's implementation utilizes a combination of state-of-the-art deep learning models. The Bio medCLIP model, fine-tuned on the target dataset, was used to generate vector embeddings for both text and visual data. The generator component is based on the large language model LLaVA-Med 1.5, which is adapted for the medical domain and quantized to operate under limited computational resources. The system architecture also includes auxiliary classifiers based on DenseNet121 to determine the image projection and identify clinical findings, thereby enhancing retrieval accuracy. The experimental evaluation involved testing six different con figurations of the developed system. The evaluation was conducted using a range of metrics, including accuracy and F1-score for the question-answering task, as well as BLEU, ROUGE, F1-CheXbert, and F1-RadGraph for assessing the quality of the generated reports. The test results demonstrated a significant advantage of all system configurations over the baseline generator model. The best results were achieved by the configuration that uti lizes projection and clinical finding classifiers with an exact match requirement for the identified pathologies. The study confirmed that integrating a relevant data retrieval mechanism significantly enhances both the struc tural and semantic quality of the generated textual descriptions for medical images.Problems in programming 2025; 3: 66-78
first_indexed	2025-11-15T02:08:59Z
format	Article
fulltext	Штучний інтелект 66 © M.H. Shevchenko, M.V. Androshchuk, 2025 ISSN 1727-4907. Проблеми програмування. 2025. №3 УДК 004.8 https://doi.org/10.15407/pp2025.03.066 М. Г. Шевченко, М.В. Андрощук МУЛЬТИМОДАЛЬНИЙ RAG З ВИКОРИСТАННЯМ ТЕКСТОВИХ ТА ВІЗУАЛЬНИХ ДАНИХ Стаття присвячена розробці та дослідженню мультимодальної системи генерації, доповненої пошуком (Retrieval-Augmented Generation), призначеної для аналізу та інтерпретації медичних зображень. Об’єктом дослідження є рентгенівські знімки грудної клітки та відповідні їм радіологічні звіти. Основна мета роботи полягала у створенні системи, здатної виконувати два ключові завдання: генерувати дета- льний радіологічний звіт для вхідного зображення та надавати точні відповіді на конкретні запитання щодо нього. Додатковою ціллю було демонстрування того, що застосування мультимодального підходу з пошуком релевантної інформації суттєво покращує якість генерації порівняно з використанням вели- ких мультимодальних моделей без компонента пошуку. Для реалізації системи було використано комбі- націю сучасних моделей глибокого навчання. За основу для створення векторних представлень тексто- вих та візуальних даних було взято модель BiomedCLIP, яку було додатково навчено на цільовому наборі даних. Функції генератора виконувала велика мовна модель LLaVA-Med 1.5, адаптована для медичної галузі та квантизована для роботи в умовах обмежених обчислювальних ресурсів. Архітектура системи також включає допоміжні класифікатори на основі DenseNet121 для визначення проєкції знімка та іден- тифікації наявних клінічних ознак, що дозволило підвищити точність пошуку. У процесі експеримента- льного дослідження було протестовано шість різних конфігурацій розробленої системи. Оцінювання проводилося з використанням низки метрик, зокрема, точності та F1 для задачі відповіді на питання, а також BLEU, ROUGE, F1-CheXbert та F1-RadGraph для оцінки якості згенерованих звітів. Результати тестування продемонстрували значну перевагу всіх конфігурацій системи над базовою моделлю-генера- тором. Найкращі результати показала конфігурація, що використовує класифікатори проєкції та клініч- них ознак із вимогою точного збігу знайдених патологій. Дослідження підтвердило, що інтеграція меха- нізму пошуку релевантних даних значно підвищує структурну та змістовну якість генерованих текстових описів для медичних зображень. Ключові слова: генерація доповнена пошуком, мультимодальність, медичні зображення, генерація звітів, глибинне навчання, великі мовні моделі. M.H. Shevchenko, M.V. Androshchuk MULTIMODAL RAG USING TEXT AND VISUAL DATA This paper presents the development and investigation of a multimodal Retrieval-Augmented Generation system designed for the analysis and interpretation of medical images. The research focuses on chest X-ray images and their corresponding radiology reports. The primary goal was to create a system capable of performing two key tasks: generating a detailed radiology report for an input image and providing accurate answers to specific ques- tions about it. A secondary goal was to demonstrate that employing a multimodal retrieval-augmented approach significantly improves generation quality compared to using large multimodal models without a retrieval com- ponent. The system's implementation utilizes a combination of state-of-the-art deep learning models. The Bio- medCLIP model, fine-tuned on the target dataset, was used to generate vector embeddings for both text and visual data. The generator component is based on the large language model LLaVA-Med 1.5, which is adapted for the medical domain and quantized to operate under limited computational resources. The system architecture also includes auxiliary classifiers based on DenseNet121 to determine the image projection and identify clinical findings, thereby enhancing retrieval accuracy. The experimental evaluation involved testing six different con- figurations of the developed system. The evaluation was conducted using a range of metrics, including accuracy and F1-score for the question-answering task, as well as BLEU, ROUGE, F1-CheXbert, and F1-RadGraph for assessing the quality of the generated reports. The test results demonstrated a significant advantage of all system configurations over the baseline generator model. The best results were achieved by the configuration that uti- lizes projection and clinical finding classifiers with an exact match requirement for the identified pathologies. The study confirmed that integrating a relevant data retrieval mechanism significantly enhances both the struc- tural and semantic quality of the generated textual descriptions for medical images. Keywords: Retrieval-Augmented Generation, multimodality, medical imaging, report generation, deep learning, large language models. Штучний інтелект 67 Вступ Мультимодальний RAG — це RAG, який використовує не один, а кілька типів даних для ретривера(англ. retriever) й гене- ратора одночасно, наприклад: текст, зобра- ження, відео, аудіо тощо. Застосування кі- лькох типів даних часто надає генератору більше інформації, завдяки чому генеру- ються вичерпніші та релавантніші відповіді на запит користувача [34]. Мультимодальний RAG із викорис- танням текстових та візуальних даних — це найпоширеніший вид мультимодаль- ного RAG. Він застосовує тексти, зобра- ження та відео для генерації відповіді. Найчастіше використовують саме зобра- ження, а не відео, оскільки робота з відео є значно складнішою через великий обсяг, необхідність обробки послідовностей кад- рів, а також складність виокремлення реле- вантної інформації з часових даних. Засто- сування мультимодального RAG із вико- ристанням текстових та візуальних даних часто підвищує коректність і релевант- ність відповідей генераторів [3], оскільки велика кількість інформації зберігається саме у візуальному вигляді й не має текс- тового відповідника. Наприклад, така ін- формація, як просторові відношення між об'єктами, емоційний контекст, специфі- чні деталі зображень (текстури, кольори, форми), а також складні візуальні струк- тури (графіки, діаграми, медичні знімки), часто не мають точного текстового відпо- відника або потребують значного спро- щення у разі опису словами. В роботі для реалізації мультимода- льного RAG було обрано медичну предме- тну сферу, зокрема, аналізу та інтерпретації рентгенівських знімків грудної клітки та їх- ніх звітів. Медична предметна сфера є до- волі популярним напрямком створення RAG. Вибір такої предметної сфери надає широкі можливості для створення різних RAG систем та дозволить оцінити як вико- ристання мультимодального RAG покра- щує роботу існуючих систем. Іншим факто- ром вибору такої предметної сфери є доста- тня кількість доступних наборів даних у ві- льному доступі, що не завжди властиво ін- шим предметним сферам. Найчастіше такі набори даних включають певну кількість рентгенівських знімків грудних кліток та звітів у текстовому форматі для кожного знімку. Мультимодальна RAG-система, створена в роботі, підтримує два сценарії використання. Перший сценарій викорис- тання — це генерація звіту на вхідний рен- тгенівський знімок, щодо наявності патало- гій, хвороб тощо. Інший сценарій викорис- тання — це генерація відповіді на вхідне питання щодо певного рентгенівського зні- мку. Ці сценарії є типовими для мультимо- дального RAG. Також такі сценарії викори- стання є стандартними для використання в медичній сфері. Для реалізації даних сцена- ріїв використання, ретривер буде знахо- дити релевантні звіти до вхідного зобра- ження. Потім знайдені звіти будуть разом із вхідним зображенням та питанням надава- тися генератору для генерації звіту або від- повіді на вхідне питання. Під час розробки мультимодальної RAG-системи з використанням текстових та візуальних даних для роботи з рентгенів- ськими знімками грудної клітки та звітами до них були використанні набори даних: MIMIC-CXR [24], MIMIC-CXR-JPG [14], CheXpert [16] та IU-Xray [9]. Методологія дослідження Рентгенівські знімки грудей бува- ють двох типів: передні і бічні. Передні — зроблені спереду грудної клітки. Бічні — зроблені збоку грудної клітки. Передні і бі- чні знімки значно відрізняються один від одного, бо на передніх можна бачити пата- логії і клінічні ознаки, яких не видно на бі- чних і навпаки. Через це було вирішено ре- алізувати дві моделі, які створюють індекси (далі — моделі індексації): одна модель буде працювати з передніми зображеннями і їхніми звітами, а інша з бічними зображен- нями і звітами. Для того, щоб ретривер міг ідентифікувати, яке зображення — пе- реднє, а яке — бічне, було створено додат- кову модель для ідентифікації сторони (далі — класифікатор сторін). Також для покращення ретривера, щоб він знаходив Штучний інтелект 68 найбільш релевантні звіти, було розроб- лено модель для створення метаданих, а саме інформацію про наявність певної клі- нічної ознаки на кожному зображенні (далі — класифікатор хвороб). Як модель для створення індексів була вибрана модель BiomedClip [33]. BiomedClip — це модель, створена на ос- нові CLIP [25], для задач біомедичного ба- чення. BiomedClip був натренований на на- борі даних PMC-15M, створений дослідни- ками BiomedClip. PMC-15M складається із 15 мільйонів пар підпис-картинок з різних медичних галузей: офтальмологія, стомато- логія, рентгенографія та інші. Також дослі- дники BiomedClip створили модель PubMedBERT та свій власний Vision Transformer, які використовуються як коду- вальник тексту та кодувальник зображень відповідно до архітектури CLIP. Хоча BiomedClip натренований на медичних даних, він не навчений безпосе- редньо на тих даних, які планується вико- ристовувати в ретривері для релевантного пошуку. Також варто враховувати, що BiomedClip натренований на широкому спектрі медичних галузей, а нам потрібно лише рентгенівські знімки грудей. Врахо- вуючи попередні зауваження, зрозуміло, що просте використання BiomedClip як мо- делі для створення індексів, може часто призводити до нерелевантних результатів [32]. Для покращення роботи BiomedCLIP застосовують передавальне навчання. У межах цієї роботи BiomedCLIP було донавчено на даних MIMIC-CXR, оскільки саме ці дані надалі використову- ються ретривером для релевантного по- шуку. Для донавчання був створений про- грамний застосунок із використанням біб- ліотеки PyTorch. Як функція втрат [2] вико- ристовується перехрестна втрата ентропії (англ. cross entropy loss) [21] та AdamW [20] як оптимізатор [29]. В результаті було донавчено три ок- ремі моделі BiomedClip. Перша — для індексації передніх ре- нтгенівських знімків і їхніх звітів (далі — модель індексації передніх знімків). Вона була донавчена на 100000 випадково вибра- них пар передніх рентгенгенівських знімків та їхніх звітів з MIMIC-CXR. Модель дона- вчалася протягом 100 епох [5] на відеокарті Nvidia GeForce RTX 3090 24 ГБ. Для дона- вчання використовувалися такі гіперпара- метри [7]: розмір партії (англ. batch size) [4] — 64, темп навчання (англ. learning rate) [1] — 0.00005√8. Значення втрат на останній епосі склало: 0.0336. Друга — для індексації бічних рент- генівських знімків і їхніх звітів (далі — мо- дель індексації бічних знімків). Вона була донавчена на 50000 випадково вибраних пар бічних рентгенгенівських знімків та їх- ніх звітів з MIMIC-CXR. Модель донавча- лася протягом 100 епох на відеокарті Nvidia GeForce RTX 2060 6 ГБ. Для донавчання ви- користовувалися такі гіперпараметри: роз- мір партії — 8, темп навчання — 0.00005. Значення втрат на останній епосі склало: 0.0306. Третя — для індексації передніх та бічних рентгенівських знімків і їхніх звітів (далі — загальна модель індексації). Вона була донавчена на 150000 випадково вибра- них пар передніх та бічних рентгенгенівсь- ких знімків та їхніх звітів з MIMIC-CXR. Модель донавчалася протягом 95 епох на відеокарті Nvidia GeForce RTX 3090 24 ГБ. Для донавчання використовувалися такі гі- перпараметри: розмір партії — 64, темп на- вчання — 0.00005√8. Значення втрат на останній епосі склало: 0.0337. Для того, щоб ретривер міг прави- льно вибирати модель для класифікації пе- редніх чи бічних знімків, він повинен вміти класифікувати зображення на передні і бі- чні. Це класична задача класифікації зобра- жень [11]. Для такої задачі найчастіше ви- користовуються нейронні мережі. Трену- вання класифікатора сторін відбувалося на наборі даних CheXpert, бо він містить інфо- рмацію про сторону кожного рентгенівсь- кого знімка. За нейронну мережу для дотре- нування була обрана модель DenseNet121, яка також використовувалася в дослідженні набору даних CheXpert і показала кращі ре- зультати, ніж інші моделі в дослідженні. DenseNet121 — це згорткова нейронна ме- режа [13], яка складається з 121 шару, ко- жен пов'язаний один з одним. Штучний інтелект 69 Для тренування використовувалася передавальне навчання. Для цього бралася модель DenseNet121, яка була попередньо натренована на наборі даних ImageNet [10]. Як функція втрат використовувалася пере- хрестна втрата ентропії та стохастичний градієнтний спуск [27] як оптимізатор. Тренування класифікатора сторін ві- дбувалося протягом 10 епох на відеокарті Nvidia GeForce RTX 2060 ГБ. Для трену- вання використовувалося 20000 випадково вибраних рентенівських знімків з набору даних CheXpert. Тестування моделі після кожної епохи відбувалося на 2000 рентге- нівських знімках. Уже після першої епохи тренування, точність визначення сторони зображення на тренувальних та тестових даних склала 100%, тому тренування було закінчене достроково на 5-ій епосі. Для до- навчання використовувалися такі гіперпа- раметри: розмір партії — 32, темп навчання — 0.001. Для покращення релевантності знай- дених результатів ретривером було ство- рено класифікатор хвороб. Класифікатор хвороб визначає, які клінічні ознаки із зада- ного списку наявні на зображенні, а які ні. Це задача класифікації за багатьма класами (англ. multi-label classification) [26], задача в якій один об’єкт може відповідати декіль- ком класам одночасно. Ця задача схожа на класифікацію зображень, використану в класифікаторі сторін. Для її розв’язання та- кож найчастіше використовують нейронні мережі. Для створення класифікатора хво- роб було використано модель DenseNet121, як в класифікаторі сторін. Для тренування було використано набір даних CheXpert, тому що він містить інформацію про наяв- ність певної ознаки зі списку 14 клінічних ознак для кожного зображення. Кожна ознака для кожного зображення в наборі да- них CheXpert може мати одне з 4-ох зна- чень: «наявна», «відсутня», «не зазначена», «не зрозуміло». В тренуванні значення «не зазначена» і «не зрозуміло» будуть сприй- матися як один клас, тому що важлива лише наявність або відсутність ознаки. Вихідним значенням тренувальної моделі DenseNet121 є вектор із 14 чисел, кожне з яких відповідає за наявність певної хво- роби. Значення чисел вектора знаходяться в межах від нуля включно до одиниці вклю- чно, числа більше 0.7 будуть сприйматися як наявність хвороби, числа менше 0.3 бу- дуть сприйматися як її відсутність. Усе, що між 0.3 та 0.7, буде відповідати значенням «не зазначена» або «не відомо». Для трену- вання, як в класифікаторі сторін, було вико- ристане передавальне навчання та модель DenseNet121, яка була попередньо натрено- вана на наборі даних ImageNet. Як функція втрат використовувалася перехрестна втрата ентропії та Adam [17] як оптиміза- тор. Тренування класифікатора хвороб відбувалося протягом 50 епох на відеокарті Nvidia GeForce RTX 2060 6 ГБ. Для трену- вання використовувалося 156553 випад- ково вибраних рентенівських знімків з на- бору даних CheXpert. Тестування моделі пі- сля кожної епохи відбувалося на 67095 ре- нтгенівських знімках. Після останньої епохи точність визначення наявості та від- сутності хвороб на тестових даних склала 86,71%, що майже відповідає результатам у досліджені CheXpert. Для донавчання вико- ристовувалися такі гіперпараметри: розмір партії — 32, темп навчання — 0.0001. Для збереження індексів, звітів, ме- таданих та виконання пошуку за індексами, як векторна база даних була взята ChromaDb, котра повністю відповідає ви- могам для створення системи. В ChromaDb дані зберігаються в колекціях аналогічно до таблиць в реляційних базах даних. Кожен запис в колекції повинен мати індекс, за яким буде відбуватися пошук, та якісь дані. Також запис може містити додаткові дані — метадані, за якими може відбуватися до- датковий пошук. Індекси всіх записів в ко- лекції повинні бути однієї розмірності. У межах реалізації системи було створено три окремі колекції в ChromaDb, кожна з яких відповідала певному типу ре- нтгенівських знімків і використовувала від- повідну модель індексації. Для створення колекцій використовувся набір даних MIMIC-CXR. Перша колекція була ство- рена за допомогою моделі індексації перед- ніх знімків на 100000 випадково вибраних пар передніх ретгенівських знімків та їхніх звітів. Друга була створена за допомогою Штучний інтелект 70 моделі індексації бічних знімків на 50000 випадково вибраних пар бічних ретгенівсь- ких знімків та їхніх звітів. Третя була ство- рена за допомогою загальної моделі індек- сації на 150000 випадково вибраних пар пе- редніх і бічних ретгенівських знімків та їх- ніх звітів. Генератором була обрана велика мо- вна модель LLaVA-Med 1.5 [18]. Ця модель є дотренованою версією LLaVA 1.5 на ме- дичних даних, розробленою дослідниками з Microsoft [18]. У роботі використовувалася LLaVA-Med, яка містить 7 мільярдів пара- метрів. Оскільки для параметрів в нейрон- них мережах використовується 32-бітні чи- сла з рухомою комою, то для запуску LLaVA-Med 1.5 на відеокарті треба понад 26 ГБ відеопам’яті. Під час виконання ро- боти не було доступу до відеокарт з такою кількістю відеопам’яті. Для того, щоб запу- скати нейронні мережі на відеокартах з меншою кількісю відеопам’яті, використо- вують техніку квантинізації [22]. Квантині- зація дозволяє зменшити кількість пам’яті, яку займає модель, за допомогою представ- лення параметрів моделі 16-ти, 8-ми або 4- ма бітними числами з рухомою комою. Зві- сно, використання квантинізації може при- звести до деградації моделі, але за дослі- дженням це або не відбувається взагалі, або зміни не суттєві. Для запуску LLaVA-Med 1.5 на Nvidia GeForce RTX 2060 6 ГБ була використана техніка квантинізації у режимі 4-біт. В результаті модель займає прибли- зно 5 ГБ відеопам’яті. Для демонстрації роботи системи у процесі генерування звіту на вхідне зобра- ження було використано випадковий рент- генівський знімок з набору даних MIMIC- CXR. В результаті мультимодальний RAG згенерував такий звіт: «The chest X-ray image shows a large right pleural effusion, which is an abnormal accumulation of fluid in the pleural space surrounding the lungs. This finding is concerning for pneumonia, which is an infection that causes inflammation in the air sacs of the lungs. It is important to consult a healthcare professional for a thorough evaluation and proper diagnosis of the underlying cause of these findings.». Еталон- ний звіт із набору даних для цього ж самого зображення: «impression: Increased right pleural loculated effusion with chest tube in place. Increasing consolidation in the right lung is concerning for pneumonia. Findings: PA and lateral views of the chest provided. Port-A-Cath is unchanged in position with its tip positioned in the expected location of the mid SVC. A right pleural drain is in place with increased opacity in the right lung and probable increase in size of the loculated right pleural effusion. Findings are concerning for a superimposed consolidation/pneumonia. The left lung remains essentially clear. The heart is difficult to assess given the effacement of the right heart border. The prominence of the mediastinum may reflect in part adjacent loculated pleural fluid. No pneumothorax is seen.». Для демонстрації роботи системи як оцінювача конкретного питання за вхідне зображення було використано випадковий рентгенівський знімок з набору даних MIMIC-CXR Вхідним питанням до системи було: «Is the cardiomediastinal silhouette within normal limits?». В результаті система згенерувала таку відповідь: «Yes, the cardiomediastinal silhouette appears to be within normal limits in the image.». Еталонна відповідь на це питання до цього ж самого зображення з набору даних: «Yes». Тестування системи Тестування створеної системи про- водилося на шістьох конфігураціях мульти- модального RAG, кожна з яких була нала- штована на знаходження 5-ти релевантних звітів до кожного запиту. Як зразок порів- няння конфігурацій також була протесто- вана LLaVA-Med 1.5 без використання рет- риверу. В рамках створення конфігурацій системи використовуються поняття «точне співпадіння хвороб» і «неточне співпадіння хвороб», позначаючи точне співпадіння хвороб у сховищі відносно вхідного зобра- ження, чи щоб було хоча б одне співпадіння хвороб відповідно. Ретривер першої конфігурації муль- тимодальної RAG-системи (рис.1) включає класифікатор сторін, модель індексації пе- редніх знімків, модель індексації бічних знімків і класифікатор хвороб. Ретривер ви- користовує неточне співпадіння хвороб. Штучний інтелект 71 Рис. 1. Конфігурація 1 (з класифікатором сторін, з класифікатором хвороб, неточне співпадіння хвороб) Ретривер другої кофігурації мульти- модальної RAG-системи (Рис.2) майже та- кий самий, як у конфігурації 1, але викори- стовує точне співпадіння хвороб. Рис. 2. Конфігурація 2 (з класифікатором сторін, з класифікатором хвороб, точне співпадіння хвороб) Ретривер третьої кофігурації муль- тимодальної RAG-системи (рис.2) схожий на ретривер конфігурації 1 і конфігурації 2, але не використовує класифікатор хвороб. Рис. 3. Конфігурація 3 (з класифікатором сторін, без класифікатора хвороб) Ретривер четвертої конфігурації му- льтимодальної RAG-системи (рис.4) вклю- чає загальну модель індексації та класифі- катор хвороб. Ретривер використовує нето- чне співпадіння хвороб. Рис. 4. Конфігурація 4 (без класифікатора сторін, з класифікатором хвороб, неточне співпадіння хвороб) Ретривер п’ятої кофігурації мульти- модальної RAG-системи (рис.5) майже та- кий самий, як у конфігурації 4, але викори- стовує точне співпадіння хвороб. Рис. 5. Конфігурація 5 (без класифікатора сторін, з класифікатором хвороб, точне співпадіння хвороб) Ретривер шостої кофігурації мульти- модальної RAG-системи (рис.6) схожий на ретривер конфігурації 4 і конфігурації 5, але не використовує класифікатор хвороб. Рис. 6. Конфігурація 6 (без класифікатора сторін, без класифікатора хвороб) Для тестування мультимодальної RAG-системи для відповіді на вхідне запи- тання і зображення до нього були викорис- тані дві вибірки тестових даних, створені дослідниками мультимодального RAG [32]. Кожна вибірка даних містить приблизно 2500 запитань, відповідей і зображень. Одна вибірка містить зображення з набору даних MIMIC-CXR, а інша з набору даних IU-Xray. Дослідники, які створили вибірки даних, використовували велику мовну мо- дель ChatGPT-4 для створення запитань і відповідей до рентгенівських знімків. По- тім дослідники власноруч відфільтрували і перевірили кожне питання і відповідь. Усі запитання створені таким чином, щоб вони мали тільки два варіанта відповіді: «так» або «ні». Для тестування системи відповідати на вхідне запитання і зображення до нього було використано дві метрики: метрика то- чності (англ. accuracy) [12] і метрика F1 (англ. F1-score) [30]. Метрика точності — одна з найпро- стіших і найпоширеніших оцінок якості Штучний інтелект 72 класифікаційних моделей. Вона показує, яка частка всіх передбачень моделі вияви- лася правильною. В нашому випадку вона покаже яка частка відповідей була прави- льно визначена. Точність набуває значень від нуля включно до одиниці включно, де нуль означає, що ніяка відповідь не була ви- значена правильно, а одиниця означає, що всі відповіді були визначені правильно. Для обчислення метрики F1 треба поділити всі відповіді на позитивні і нега- тивні. Позитивні відповіді — це відповіді, які ми оцінюємо, а негативні — всі інші. F1 показує, наскільки добре модель одночасно уникає хибних спрацьовувань (помилкових позитивних відповідей) та пропусків (хиб- них негативних відповідей). Вона обчислю- ється як гармонійне середнє [6] між влучні- стю [31] (англ. precision, доля правильних позитивних передбачень серед усіх позити- вних передбачень) і повнотою [31] (англ. recall, доля правильних позитивних перед- бачень серед усіх позитивних відповідей), тому низьке значення однієї з цих метрик суттєво знижує F1. F1, як і точність, набу- ває значень від нуля включно до одиниці включно. Нуль означає, що модель не змо- гла правильно передбачити жодного пози- тивного випадку, а одиниця означає ідеа- льну відповідність. Для обчислення мет- рики F1 на вибірках даних буде використо- вуватися зважена F1 (англ. F1-weighted). Зважена F1 обчислюється окремо для кож- ного типу відповіді, а потім об’єднується, використовуючи кількісне значення кож- ного типу відповіді. Тестування відбувалося на 1000 ви- падково вибраних запитань з кожної вибі- рки даних. Результати тестування наведені у таблиці 1. Таблиця 1. Результати тестування системи відповідати на питання за зображенням Система MIMIC-CXR IU-Xray Точність Зважена F1 Точність Зважена F1 LLaVA-Med 1.5 0.717 0.668 0.411 0.418 Конфігурація 1 0.840 0.838 0.921 0.924 Конфігурація 2 0.844 0.842 0.909 0.913 Конфігурація 3 0.831 0.830 0.929 0.931 Конфігурація 4 0.766 0.766 0.917 0.919 Конфігурація 5 0.786 0.784 0.918 0.921 Конфігурація 6 0.773 0.773 0.921 0.923 Для тестування можливості мульти- модального RAG генерувати звіт до вхід- ного зображення були використані дві вибі- рки тестових даних, створені дослідниками мультимодального RAG [32]. Перша вибі- рка містить 700 зображень та звітів з набору даних MIMIC-CXR, а друга — 1180 зобра- жень та звітів з набору даних IU-Xray. Ко- жна вибірка сформована так, аби вона міс- тила якнайрізноманітніші звіти. Тесту- вання системи за різними метриками про- водилось на 700 зображень та звітів з на- бору даних MIMIC-CXR (з першої вибірки) та 1000 зображень та звітів з набору даних IU-Xray (з другої вибірки). Для тестування системи генерувати звіт до вхідного зображення було викорис- тано всього чотири метрики: BLEU [23], Штучний інтелект 73 ROUGE [19], F1-CheXbert [28], F1- RadGraph [8]. BLEU (Bilingual Evaluation Understudy) — це метрика для порівняння згенерованого чи перекладеного тексту з одним або кількома еталонними варіан- тами. Для оцінки за метрикою BLEU під- раховують кількість однакових послідов- ностей із n слів (n-грам), що зустрічаються як у згенерованому, так і в еталонному те- ксті. Потім обчислюється влучність як від- ношення числа збігів до загальної кілько- сті n-грам у згенерованому тексті. Зазви- чай влучність обраховують для n-грам від одного до чотирьох слів. Далі ці влучності об'єднують за допомогою геометричного середнього. Оскільки короткий (порівняно з еталонним) згенерований текст часто має вищу частку збігів, під час розрахунку BLEU застосовують штраф за короткість (англ. brevity penalty). BLEU набуває зна- чень від нуля включно до одиниці вклю- чно. Чим більше значення BLEU, тим бі- льше згенерований текст схожий на ета- лонний. Варто зазначити, що ця метрика оцінює лише збіги слів, а не зміст чи стиль тексту. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) — це набір метрик для порівняння згенерованого чи перекла- деного тексту з одним або кількома ета- лонними варіантами. Набір ROUGE скла- дається з трьох метрик: ROUGE-1, ROUGE-2 і ROUGE-L. Для оцінки за ROUGE-1 підраховують збіги окремих слів між згенерованим і еталонним текс- том. Потім обчислюється значення мет- рики F1 на основі кількості таких збігів. ROUGE-2 обчислюється аналогічно до ROUGE-1, але замість окремих слів раху- ють двослівні послідовності. Ця метрика дозволяє оцінити, наскільки модель прави- льно відтворює не лише окремі слова, а й стійкі словосполучення, порядок слів і ко- роткі фрази. Для оцінки за ROUGE-L обра- ховують довжину найдовшої спільної під- послідовності між згенерованим і еталон- ним текстом. Ця метрика відображає не лише точні збіги слів, а й загальну послі- довність, у якій вони з’являються. Усі ме- трики ROUGE набувають значень від нуля включно до одиниці включно. Чим більше значення метрики, тим більше згенерова- ний текст схожий на еталонний. Як і BLEU, набір ROUGE не оцінює зміст чи стиль тексту, а лише лексичну подібність. Результати наведені у таблиці 2 і таб- лиці 3. Таблиця 2. Результати тестування системи генерувати звіт на вхідне зображення за допомогою метрики BLEU Система MIMIC-CXR IU-Xray LLaVA-Med 1.5 0.006204 0.014087 Конфігурація 1 0.025932 0.035426 Конфігурація 2 0.042499 0.036582 Конфігурація 3 0.027740 0.034322 Конфігурація 4 0.018719 0.035311 Конфігурація 5 0.022738 0.037315 Конфігурація 6 0.018848 0.035051 Штучний інтелект 74 Таблиця 3. Результати тестування системи генерувати звіт на вхідне зображення за допомогою метрик ROUGE-1, ROUGE-2, ROUGE-L Система MIMIC-CXR IU-Xray ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L LLaVA- Med 1.5 0.177572 0.017352 0.111342 0.178954 0.024311 0.122759 Конфігу- рація 1 0.255128 0.063660 0.164584 0.258481 0.054633 0.175839 Конфігу- рація 2 0.269676 0.079149 0.178946 0.257788 0.054402 0.176659 Конфігу- рація 3 0.256807 0.067752 0.165909 0.258677 0.053155 0.176821 Конфігу- рація 4 0.233677 0.052150 0.147039 0.267725 0.059491 0.174326 Конфігу- рація 5 0.244741 0.055802 0.157708 0.275352 0.058866 0.182624 Конфігу- рація 6 0.234838 0.053292 0.148318 0.262273 0.055589 0.171794 F1-CheXbert — це метрика, яка оці- нює наскільки точно модель відтворює на- бір клінічних ознак з набору даних CheXpert [14] у радіологічних звітах порі- вняно з еталонними звітами. F1-CheXbert використовує спеціальну модель CheXbert, яка визначає наявність кожної клінічної ознаки в конкретному звіті. Ця модель на- тренована на наборі даних CheXpert. Після цього CheXbert застосовують для вияв- лення клінічних ознак як у згенерованих, так і в еталонних звітах. Для кожної ознаки обчислюється значення метрики F1. Зна- чення F1-CheXbert — це середнє арифме- тичне значення F1 для всіх ознак, щоб рід- кісні, але важливі ознаки мали такий самий вплив на фінальний результат, як і найпо- ширеніші. F1-CheXbert набуває значень від нуля включно до одиниці включно. Чим більше значення F1-CheXbert, тим бі- льше клінічних ознак із еталонного звіту модель правильно відтворила в згенерова- ному тексті. F1-RadGraph — це метрика, яка оці- нює, наскільки вдало згенерований радіо- логічний звіт відтворює структуровану ін- формацію про клінічні ознаки порівняно з еталонним. F1-RadGraph використовує спеціальну модель RadGraph [15], яка ви- являє у звіті клінічні ознаки та зв’язки між ними, формуючи граф. RadGraph застосо- вують для виявлення клінічних ознак та зв’язків між ними, як у згенерованих, так і в еталонних звітах. Значення F1-RadGraph — це значення F1, а саме F1-мікро (англ. F1-micro), що обчислюється для всіх сут- ностей і зв’язків разом. F1-RadGraph набу- ває значень від нуля включно до одиниці включно. Чим більше значення F1- RadGraph, тим більше клінічних ознак і зв’язків між ними з еталонного звіту мо- дель правильно відтворила в згенерова- ному тексті. Результати наведені у таблиці 4. Штучний інтелект 75 Таблиця 4. Результати тестування системи генерувати звіт на вхідне зображення за допомогою метрики F1-RadGraph і F1-CheXpert Система MIMIC-CXR IU-Xray F1-RadGraph F1-CheXpert F1-RadGraph F1-CheXpert LLaVA-Med 1.5 0.020411 0.011978 0.059309 0.120694 Конфігурація 1 0.095536 0.266570 0.120658 0.217418 Конфігурація 2 0.101452 0.289483 0.119638 0.219341 Конфігурація 3 0.097419 0.263669 0.122248 0.226831 Конфігурація 4 0.076431 0.221617 0.118745 0.182259 Конфігурація 5 0.079204 0.235491 0.122624 0.180509 Конфігурація 6 0.078109 0.214062 0.112216 0.179557 За результатами тестування відпові- дати на запитання до вхідного зображення конфігурація 2 (з класифікатором сторін, з класифікатором хвороб, точне співпадіння хвороб) найкраще впоралася на наборі да- них MIMIC-CXR, а конфігурація 3 (з кла- сифікатором сторін, без класифікатора хвороб) найкраще впоралася на наборі да- них IU-Xray. На наборі даних MIMIC-CXR система показала приблизно на 26% кра- щий результат, ніж LLaVA-Med 1.5 без ре- триверу відповідно за зваженою F1 метри- кою, а на наборі даних IU-Xray приблизно на 123% краще. Такий великий розрив у результатах можна пояснити тим, що роз- робники LLaVA-Med 1.5 використовували набір даних MIMIC-CXR для тренування, тому результати LLaVA-Med 1.5 на MIMIC-CXR вищі, ніж на IU-Xray. Низькі результати LLaVA-Med на IU-Xray можна пояснити її використанням у режимі 4-біт. Водночас розроблена система показала найкращі результати саме на IU-Xray. Тестування розробленої системи ге- нерувати звіт за допомогою метрик, які оцінюють збіги слів, а саме BLEU, ROUGE-1, ROUGE-L показало, що конфі- гурація 2 (з класифікатором сторін, з кла- сифікатором хвороб, точне співпадіння хвороб) найкраще впоралася на наборі да- них MIMIC-CXR, а конфігурація 5 (без класифікатора сторін, з класифікатором хвороб, точне співпадіння хвороб) най- краще впоралася на наборі даних IU-Xray. Результати метрики ROUGE-2 відрізня- ються тим, що конфігурація 4 (без класи- фікатора сторін, з класифікатором хвороб, неточне співпадіння хвороб) найкраще управилася на наборі даних IU-Xray. З ре- зультатів цих метрик зрозуміло, що сис- тема генерує більш схожі звіти на ета- лонні, ніж просто LLaVA-Med 1.5. Ймові- рно, це зумовлено тим, що система надає релевантні звіти генератору, і він намага- ється створити звіти схожої структури, тоді як використання LLaVA-Med 1.5 без генератора генерує доволі короткі і неде- талізовані звіти. Конфігурації без викори- стання класифікатора сторін, а з викорис- танням загальної моделі індексації, пока- зали кращі результати на наборі даних IU- Xray ймовірніше за все через те, що в Штучний інтелект 76 цьому наборі даних використовується од- наковий звіт до передніх і бічних знімків на відміну від MIMIC-CXR. Тестування розробленої системи ге- нерувати звіт за допомогою метрики F1- CheXbert, яка оцінює зміст тексту, пока- зало, що конфігурація 2 (з класифікатором сторін, з класифікатором хвороб, точне співпадіння хвороб) найкраще впоралася на наборі даних MIMIC-CXR, а конфігура- ція 3 (з класифікатором сторін, без класи- фікатора хвороб) найкраще впоралася на наборі даних IU-Xray. Конфігурація 2 по- казала більше, ніж вдвічі кращий резуль- тат, аніж LLaVA-Med 1.5 без ретриверу на наборі даних MIMIC-CXR, а конфігурація 3 більше, ніж в 1.8 рази кращий результат на наборі даних IU-Xray. Тестування розробленої системи щодо генерування звіту за допомогою ме- трики F1-RadGraph, яка також оцінює зміст тексту, показало, що конфігурація 2 (з класифікатором сторін, з класифікато- ром хвороб, точне співпадіння хвороб) найкраще впоралася на наборі даних MIMIC-CXR, а конфігурація 5 (без класи- фікатора сторін, з класифікатором хвороб, точне співпадіння хвороб) найкраще упра- вилася на наборі даних IU-Xray. Конфігу- рація 2 показала приблизно в 5 разів кра- щий результат, аніж LlaVA-Med без рет- риверу на наборі даних MIMIC-CXR, а конфігурація 5 більше ніж вдвічі кращий результат на наборі даних IU-Xray. Висновки Загалом результати тестування демон- струють, що використання техніки муль- тимодального RAG суттєво покращує ге- нерацію відповідей і звітів LLaVA-Med 1.5, навіть попри обмеження 4-бітного ре- жиму, за якого без ретривера генерує коро- ткі і недеталізовані відповіді. Релевантні звіти, отримані через ретривер, дозволя- ють генератору створювати кращі за стру- ктурою й змістом відповіді. В більшості випадків кофігурації з використанням кла- сифікатора хвороб, а саме точним співпа- дінням хвороб, показали найкращі резуль- тати. Випадки, коли такі конфігурації да- вали гірші результати, ймовірно пов’язані з неідеальною точністю класифікатора хвороб. Класифікатор сторін також у біль- шості сценаріїв покращував результати си- стеми порівняно з конфігураціями без нього. Враховуючи вище сказане, можна зробити висновок, що конфігурація 2 (з класифікатором сторін, з класифікатором хвороб, точне співпадіння хвороб) є най- кращою серед інших протестованих. Під час роботи було створено муль- тимодальну RAG-систему для аналізу та інтерпретації рентгенівських знімків груд- ної клітки та їхніх звітів. Система викори- стовує новітні технології та програмні за- соби, а саме: PyTorch, LLaVA-Med 1.5, Bi- oMedCLIP, DenseNet121, ChromaDB. Ро- зроблена система здатна відповідати на за- питання до рентгенівського знімку та гене- рувати радіологічний звіт до знімку. Ар- хітектура системи складається з декількох підсистем: різні моделі індексації, кла- сифікатор сторін, класифікатор хвороб, ге- нератор, сховище даних. Було запропоно- вано декілька конфігурацій системи для їхнього тестування. Також проведене тестування шести конфігурацій створеної мультимодальної RAG-системи. Для порівняння була проте- стована LLaVA-Med 1.5 без ретриверу. Ге- нерацію відповідей на запитання до зобра- ження оцінювали за метриками точності та F1, а генерацію звітів — за метриками BLEU, ROUGE, F1-CheXbert, F1- RadGraph. Результати тестування були де- тально проаналізовані та визначено най- кращу конфігурацію системи. За результа- тами встановлено, що використання тех- ніки мультимодального RAG значно пок- ращує можливості LLaVA-Med 1.5 у ро- боті з рентгенівськими знімками і їхніми звітами, навіть за умов обмежених ресур- сів, зокрема, у використанні моделі в 4-бі- тному режимі. Майбутні перспективи розвитку мо- жливі в напрямку використання не тільки тексту та зображень як даних, а й інших ти- пів даних, наприклад: аудіо, відео тощо. Перспективним є також створення мульти- модальних RAG-систем для інших предме- тних сфер та автоматизація процесу їхньої розробки. Штучний інтелект 77 References 1. Belcic, I. and Stryker, C. (n.d.) What is Learn- ing Rate in Machine Learning?. IBM. [online] Available at: https://www.ibm.com/think/top- ics/learning-rate [Accessed 25 May 2025]. 2. Bergmann, D. and Stryker, C. (n.d.) What is Loss Function?. IBM. [online] Available at: https://www.ibm.com/think/topics/loss-func- tion [Accessed 25 May 2025]. 3. Chen, W. et al. (2022) MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text. [online] Available at: https://arxiv.org/abs/2210.02928 [Accessed 10 October 2025]. 4. Coursera (n.d.) What Does Batch Size Mean in Deep Learning? An In-Depth Guide. [online] Available at: https://www.coursera.org/arti- cles/what-does-batch-size-mean-in-deep- learning [Accessed 25 May 2025]. 5. Coursera (n.d.) What Is an Epoch in Machine Learning?. [online] Available at: https://www.coursera.org/articles/epoch-in- machine-learning [Accessed 25 May 2025]. 6. DeepAI (n.d.) Harmonic Mean. [online] Avail- able at: https://deepai.org/machine-learning- glossary-and-terms/harmonic-mean [Accessed 25 May 2025]. 7.DeepAI (n.d.) Hyperparameter. [online] Availa- ble at: https://deepai.org/machine-learning- glossary-and-terms/hyperparameter [Accessed 25 May 2025]. 8. Delbrouck, J.-B. et al. (2022) Improving the Factual Correctness of Radiology Report Gen- eration with Semantic Rewards. [online] Available at: https://arxiv.org/abs/2210.12186 [Accessed 10 October 2025]. 9. Demner-Fushman, D. et al. (2015) 'Preparing a collection of radiology examinations for distri- bution and retrieval', Journal of the American Medical Informatics Association, 23(2), pp. 304–310. doi: 10.1093/jamia/ocv080. 10. Deng, J. et al. (2009) 'ImageNet: A large-scale hierarchical image database', in 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, Florida, 20-25 June. IEEE, pp. 248–255. doi: 10.1109/CVPR.2009.5206848. 11. Hugging Face (n.d.) What is Image Classifica- tion?. [online] Available at: https://hugging- face.co/tasks/image-classification [Accessed 25 May 2025]. 12. IBM (n.d.) IBM Watson Studio and Knowledge Catalog. [online] Available at: https://www.ibm.com/docs/en/ws-and- kc?topic=metrics-accuracy [Accessed 25 May 2025]. 13. IBM (n.d.) What are Convolutional Neural Networks?. [online] Available at: https://www.ibm.com/think/topics/convolu- tional-neural-networks [Accessed 25 May 2025]. 14. Irvin, J. et al. (2019) CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison. [online] Available at: https://arxiv.org/abs/1901.07031 [Accessed 10 October 2025]. 15. Jain, S. et al. (2021) RadGraph: Extracting Clinical Entities and Relations from Radiology Reports. [online] Available at: https://arxiv.org/abs/2106.14463 [Accessed 10 October 2025]. 16. Johnson, A. E. W. et al. (2019) MIMIC-CXR- JPG, a large publicly available database of la- beled chest radiographs. [online] Available at: https://arxiv.org/abs/1901.07042 [Accessed 10 October 2025]. 17. Kingma, D. P. and Ba, J. (2014) Adam: A Method for Stochastic Optimization. [online] Available at: https://arxiv.org/abs/1412.6980 [Accessed 10 October 2025]. 18. Li, C. et al. (2023) LLaVA-Med: Training a Large Language-and-Vision Assistant for Bio- medicine in One Day. [online] Available at: https://arxiv.org/abs/2306.00890 [Accessed 10 October 2025]. 19. Lin, C.-Y. (2004) 'ROUGE: A Package for Au- tomatic Evaluation of Summaries', in Text Summarization Branches Out. Barcelona, Spain, 25-26 July. ACL, pp. 74–81. Available at: https://aclanthology.org/W04-1013/ [Ac- cessed 10 October 2025]. 20. Loshchilov, I. and Hutter, F. (2017) Decoupled Weight Decay Regularization. [online] Availa- ble at: https://arxiv.org/abs/1711.05101 [Ac- cessed 10 October 2025]. 21. Mao, A., Mohri, M. and Zhong, Y. (2023) Cross-Entropy Loss Functions: Theoretical Analysis and Applications. [online] Available at: https://arxiv.org/abs/2304.07288 [Accessed 10 October 2025]. 22. Nagel, M. et al. (2021) A White Paper on Neu- ral Network Quantization. [online] Available Штучний інтелект 78 at: https://arxiv.org/abs/2106.08295 [Accessed 10 October 2025]. 23. Papineni, K. et al. (2002) 'Bleu: a Method for Automatic Evaluation of Machine Translation', in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, 7-12 July. ACL, pp. 311–318. doi: 10.3115/1073083.1073135. 24. PhysioNet (2023) MIMIC-CXR Database. [online] Available at: https://physio- net.org/content/mimic-cxr/2.1.0/ [Accessed 25 May 2025]. 25. Radford, A. et al. (2021) Learning Transfera- ble Visual Models From Natural Language Su- pervision. [online] Available at: https://arxiv.org/abs/2103.00020 [Accessed 10 October 2025]. 26. Read, J. and Perez-Cruz, F. (2015) Deep Learning for Multi-label Classification. [online] Available at: https://arxiv.org/abs/1502.05988 [Accessed 10 October 2025]. 27. Ruder, S. (2016) An overview of gradient de- scent optimization algorithms. [online] Avail- able at: https://arxiv.org/abs/1609.04747 [Ac- cessed 10 October 2025]. 28. Smit, A. et al. (2020) CheXbert: Combining Automatic Labelers and Expert Annotations for Accurate Radiology Report Labeling Using BERT. [online] Available at: https://arxiv.org/abs/2004.09167 [Accessed 10 October 2025]. 29. Sun, S. et al. (2019) A Survey of Optimization Methods from a Machine Learning Perspec- tive. [online] Available at: https://arxiv.org/abs/1906.06821 [Accessed 10 October 2025]. 30. Wood, T. (n.d.) F-Score. DeepAI. [online] Available at: https://deepai.org/machine-learn- ing-glossary-and-terms/f-score [Accessed 25 May 2025]. 31. Wood, T. (n.d.) Precision and Recall. DeepAI. [online] Available at: https://deepai.org/ma- chine-learning-glossary-and-terms/precision- and-recall [Accessed 25 May 2025]. 32. Xia, P. et al. (2024) MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models. [online] Available at: https://arxiv.org/abs/2410.13085 [Accessed 10 October 2025]. 33. Zhang, S. et al. (2023) BiomedCLIP: a multi- modal biomedical foundation model pre- trained from fifteen million scientific image- text pairs. [online] Available at: https://arxiv.org/abs/2303.00915 [Accessed 10 October 2025]. 34. Zhao, R. et al. (2023) Retrieving Multimodal Information for Augmented Generation: A Sur- vey. [online] Available at: https://arxiv.org/abs/2303.10868 [Accessed 10 October 2025]. Одержано: 11.10.2025 Внутрішня рецензія отримана: 20.10.2025 Зовнішня рецензія отримана: 22.10.2025 Про авторів 1Шевченко Михайло Григорович Бакалавр https://orcid.org/0009-0004-5933-2349 1Андрощук Максим Віталійович Здобувач ступеня доктора філософії https://orcid.org/0000-0001-6183-6950 Місце роботи авторів: 1Національний університет «Києво-Могилянська академія» тел. +38-044-425-60-59 E-mail: vkd@ukma.edu.ua https://www.ukma.edu.ua/
id	pp_isofts_kiev_ua-article-859
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-11-21T02:20:01Z
publishDate	2025
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/0c/731321013899e36e805dac7cd2adfa0c.pdf
spelling	pp_isofts_kiev_ua-article-8592025-11-20T15:40:09Z Multimodal RAG using text and visual data Мультимодальний RAG з використанням текстових та візуальних даних Shevchenko, M.H. Androshchuk, M.V. Retrieval-Augmented Generation; multimodality; medical imaging; report generation; deep learning; large language models UDC 004.8 генерація доповнена пошуком; мультимодальність; медичні зображення; генерація звітів; глибинне навчання; великі мовні моделі УДК 004.8 This paper presents the development and investigation of a multimodal Retrieval-Augmented Generation system designed for the analysis and interpretation of medical images. The research focuses on chest X-ray images and their corresponding radiology reports. The primary goal was to create a system capable of performing two key tasks: generating a detailed radiology report for an input image and providing accurate answers to specific ques tions about it. A secondary goal was to demonstrate that employing a multimodal retrieval-augmented approach significantly improves generation quality compared to using large multimodal models without a retrieval com ponent. The system's implementation utilizes a combination of state-of-the-art deep learning models. The Bio medCLIP model, fine-tuned on the target dataset, was used to generate vector embeddings for both text and visual data. The generator component is based on the large language model LLaVA-Med 1.5, which is adapted for the medical domain and quantized to operate under limited computational resources. The system architecture also includes auxiliary classifiers based on DenseNet121 to determine the image projection and identify clinical findings, thereby enhancing retrieval accuracy. The experimental evaluation involved testing six different con figurations of the developed system. The evaluation was conducted using a range of metrics, including accuracy and F1-score for the question-answering task, as well as BLEU, ROUGE, F1-CheXbert, and F1-RadGraph for assessing the quality of the generated reports. The test results demonstrated a significant advantage of all system configurations over the baseline generator model. The best results were achieved by the configuration that uti lizes projection and clinical finding classifiers with an exact match requirement for the identified pathologies. The study confirmed that integrating a relevant data retrieval mechanism significantly enhances both the struc tural and semantic quality of the generated textual descriptions for medical images.Problems in programming 2025; 3: 66-78 Стаття присвячена розробці та дослідженню мультимодальної системи генерації, доповненої пошуком (Retrieval-Augmented Generation), призначеної для аналізу та інтерпретації медичних зображень. Об’єктом дослідження є рентгенівські знімки грудної клітки та відповідні їм радіологічні звіти. Основна мета роботи полягала у створенні системи, здатної виконувати два ключові завдання: генерувати дета льний радіологічний звіт для вхідного зображення та надавати точні відповіді на конкретні запитання щодо нього. Додатковою ціллю було демонстрування того, що застосування мультимодального підходу з пошуком релевантної інформації суттєво покращує якість генерації порівняно з використанням вели ких мультимодальних моделей без компонента пошуку. Для реалізації системи було використано комбі націю сучасних моделей глибокого навчання. За основу для створення векторних представлень тексто вих та візуальних даних було взято модель BiomedCLIP, яку було додатково навчено на цільовому наборі даних. Функції генератора виконувала велика мовна модель LLaVA-Med 1.5, адаптована для медичної галузі та квантизована для роботи в умовах обмежених обчислювальних ресурсів. Архітектура системи також включає допоміжні класифікатори на основі DenseNet121 для визначення проєкції знімка та іден тифікації наявних клінічних ознак, що дозволило підвищити точність пошуку. У процесі експеримента льного дослідження було протестовано шість різних конфігурацій розробленої системи. Оцінювання проводилося з використанням низки метрик, зокрема, точності та F1 для задачі відповіді на питання, а також BLEU, ROUGE, F1-CheXbert та F1-RadGraph для оцінки якості згенерованих звітів. Результати тестування продемонстрували значну перевагу всіх конфігурацій системи над базовою моделлю-генера тором. Найкращі результати показала конфігурація, що використовує класифікатори проєкції та клініч них ознак із вимогою точного збігу знайдених патологій. Дослідження підтвердило, що інтеграція меха нізму пошуку релевантних даних значно підвищує структурну та змістовну якість генерованих текстових описів для медичних зображень.Problems in programming 2025; 3: 66-78 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-11-14 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/859 10.15407/pp2025.03.066 PROBLEMS IN PROGRAMMING; No 3 (2025); 66-78 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 3 (2025); 66-78 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 3 (2025); 66-78 1727-4907 10.15407/pp2025.03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/859/910 Copyright (c) 2025 PROBLEMS IN PROGRAMMING
spellingShingle	Retrieval-Augmented Generation multimodality medical imaging report generation deep learning large language models UDC 004.8 Shevchenko, M.H. Androshchuk, M.V. Multimodal RAG using text and visual data
title	Multimodal RAG using text and visual data
title_alt	Мультимодальний RAG з використанням текстових та візуальних даних
title_full	Multimodal RAG using text and visual data
title_fullStr	Multimodal RAG using text and visual data
title_full_unstemmed	Multimodal RAG using text and visual data
title_short	Multimodal RAG using text and visual data
title_sort	multimodal rag using text and visual data
topic	Retrieval-Augmented Generation multimodality medical imaging report generation deep learning large language models UDC 004.8
topic_facet	Retrieval-Augmented Generation multimodality medical imaging report generation deep learning large language models UDC 004.8 генерація доповнена пошуком мультимодальність медичні зображення генерація звітів глибинне навчання великі мовні моделі УДК 004.8
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/859
work_keys_str_mv	AT shevchenkomh multimodalragusingtextandvisualdata AT androshchukmv multimodalragusingtextandvisualdata AT shevchenkomh mulʹtimodalʹnijragzvikoristannâmtekstovihtavízualʹnihdanih AT androshchukmv mulʹtimodalʹnijragzvikoristannâmtekstovihtavízualʹnihdanih

Multimodal RAG using text and visual data

Institution

Ähnliche Einträge