МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики
Объединение методов позволяет получить хорошие результаты в медицинской диагностике. В частности, при создании классификаторов для дифференциальной диагностики заболеваний, связанных с несвертываемостью крови, трудно распознать диагнозы по клиническим признакам. В этой статье даны результаты работы...
Gespeichert in:
| Veröffentlicht in: | Індуктивне моделювання складних систем |
|---|---|
| Datum: | 2012 |
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Russisch |
| Veröffentlicht: |
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
2012
|
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/45963 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики / Н.В Кондаршова // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2012. — Вип. 4. — С. 102-113. — Бібліогр.: 10 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859841656825577472 |
|---|---|
| author | Кондаршова, Н.В |
| author_facet | Кондаршова, Н.В |
| citation_txt | МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики / Н.В Кондаршова // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2012. — Вип. 4. — С. 102-113. — Бібліогр.: 10 назв. — рос. |
| collection | DSpace DC |
| container_title | Індуктивне моделювання складних систем |
| description | Объединение методов позволяет получить хорошие результаты в медицинской диагностике. В частности, при создании классификаторов для дифференциальной диагностики заболеваний, связанных с несвертываемостью крови, трудно распознать диагнозы по клиническим признакам. В этой статье даны результаты работы классификаторов, построенных на основе МГУА и вероятностных методов. Идеи Байеса, Бордá, Кондорсé наряду с идеей самоорганизации моделей были использованы при построении классификаторов с помощью вероятностных методов и МГУА с целью их применения для формирования правила принятия решений. Предложена блок-схема алгоритма дифференциальной диагностики на основе вышеупомянутых классификаторов.
Інтеґрація методів дозволяє отримати хороші результати в медичній діагностиці. Зокрема, при створенні класифікаторів для диференціальної діагностики захворювань, пов'язаних з незсілістю крові, важко розпізнати діагнози за клінічними ознаками. У цій статті подано результати роботи класифікаторів, побудованих на основі МГУА та імовірнісних методів. Ідеї Байєса, Бордá, Кондорсé поряд з ідеєю самоорганізації моделей були використані при побудові класифікаторів за допомогою імовірнісних методів і МГУА з метою їх застосування для формування правила прийняття рішень. Запропоновано блок-схема алгоритму диференціальної діагностики на основі вищезазначених класифікаторів. українською мовою,
The integration of methods allows obtaining good results in medical diagnosis. Particularly, the creation of classifiers for differential diagnosis of diseases associated with blood incoagulability is difficult to detect diagnosis by clinical symptoms. This article presents the results of the classifiers that are based on GMDH and probabilistic methods. Ideas of Bayes, Bordá, Condorsé along with the idea of self-organizing models were used to create classifiers with help of probabilistic methods and GMDH for application to form a decision rule. A flowchart of the differential diagnosis based on the above classifications is proposed. in English.
|
| first_indexed | 2025-12-07T15:36:55Z |
| format | Article |
| fulltext |
МГУА и вероятностные методыпри построении классификаторов
Індуктивне моделювання складних систем, випуск 4, 2012 102
УДК 681.513.8
МГУА И ВЕРОЯТНОСТНЫЕ МЕТОДЫ ПРИ ПОСТРОЕНИИ
КЛАССИФИКАТОРОВ ДЛЯ МЕДИЦИНСКОЙ ДИФФЕРЕНЦИАЛЬНОЙ
ДИАГНОСТИКИ
Н.В. Кондрашова
Международный научно-учебный центр информационных технологий и систем НАНУ и
МОНМолодежи и спорта Украины,
NKondrashova@ukr.net
Інтеґрація методів дозволяє отримати хороші результати в медичній діагностиці. Зокрема,
при створенні класифікаторів для диференціальної діагностики захворювань, пов'язаних з
незсілістю крові, важко розпізнати діагнози за клінічними ознаками. У цій статті подано
результати роботи класифікаторів, побудованих на основі МГУА та імовірнісних методів.
Ідеї Байєса, Бордá, Кондорсé поряд з ідеєю самоорганізації моделей були використані при
побудові класифікаторів за допомогою імовірнісних методів і МГУА з метою їх
застосування для формування правила прийняття рішень. Запропоновано блок-схема
алгоритму диференціальної діагностики на основі вищезазначених класифікаторів.
українською мовою,
Ключові слова: Легкі випадки патології гемостазу, імовірнісний підхід, оцінки Бордá, метод
парних порівнянь Кондорсé, формула Байєса, класифікація, диференційна діагностика,
алгоритм МГУА, дерево рішень
Abstract. The integration of methods allows obtaining good results in medical diagnosis.
Particularly, the creation of classifiers for differential diagnosis of diseases associated with blood
incoagulability is difficult to detect diagnosis by clinical symptoms. This article presents the results
of the classifiers that are based on GMDH and probabilistic methods. Ideas of Bayes, Bordá,
Condorsé along with the idea of self-organizing models were used to create classifiers with help of
probabilistic methods and GMDH for application to form a decision rule. A flowchart of the
differential diagnosis based on the above classifications is proposed. in English.
Keywords: Mild cases hemostasis, pathology, probabilistic approach, Borda count, Condorcet‘s
paired comparison method, Bayes' formula, classification, differential diagnostics, GMDH
algorithm, decision trees.
Аннотация. Объединение методов позволяет получить хорошие результаты в медицинской
диагностике. В частности, при создании классификаторов для дифференциальной
диагностики заболеваний, связанных с несвертываемостью крови, трудно распознать
диагнозы по клиническим признакам. В этой статье даны результаты работы
классификаторов, построенных на основе МГУА и вероятностных методов. Идеи Байеса,
Бордá, Кондорсé наряду с идеей самоорганизации моделей были использованы при
построении классификаторов с помощью вероятностных методов и МГУА с целью их
применения для формирования правила принятия решений. Предложена блок-схема
алгоритма дифференциальной диагностики на основе вышеупомянутых классификаторов.
Ключевые слова: Легкие случаи патологии гемостаза, вероятностный подход, оценки Бордá,
метод парных сравнений Кондорсé, формула Байеса, классификация, дифференциальная
диагностика, алгоритм МГУА, дерево решений.
Вступление
Проблема принятия решений возникает в медицинских задачах, особенно в
связи с постановкой диагноза, в частности, когда количество наблюдаемых
признаков достаточно велико. Поставить диагноз по клиническим признакам
Кондрашова Н.В.
Індуктивне моделювання складних систем, випуск 4, 2012 103
является трудно разрешимой задачей еще и потому, что не всегда их наличие
связано с болезнью [1]. Особенностью и одновременно трудностью диагности-
ки по значениям выделенных врачами-специалистами симптомов является
трудность различения диагнозов из-за частичного совпадения клинических
признаков. Т.е. один и тот же признак, а также одинаковое их сочетание, может
наблюдаться при различных заболеваниях. Такая ситуация имеет место при за-
болеваниях крови, обусловленных ее плохой свертываемостью. Эти болезни
известны под общим названием “легкие случаи патологии гемостаза” или иначе
– “легкие формы коагулопатии и тромбоцитопатии (КиТ)” [2].
Как правило, у исследователей имеется некоторая статистика наблюдений за
больными. Вероятностный подход используется потому, что исходные данные
представляют собой сведения об априорных частотах проявления различных
симптомов у больных с патологией гемостаза. Эти данные были сгруппированы
в соответствии с принадлежностью к группам с учетом пола, возраста и
диагнозов, поставленных на основании лабораторных исследований и
результатов дорогостоящих тестов. Лишь для одной возрастной группы
пациенток имелись данные о конкретных значениях клинических признаков,
сопутствующих диагнозам.
В [3] на основании таблиц априорных частот решение о предрасположен-
ности больных к тому или иному заболеванию крови принималось на основа-
нии критерия, использующего преобразованные значения этих частот. В [4]
классификаторы по методу группового учета аргументов (МГУА) строились по
многомерным выборкам данных в пространстве значений признаков. Результа-
ты классификации на основе вероятностных методов можно сравнивать с ре-
зультатами классификации по МГУА только на той группе пациенток, для ко-
торой были известны данные в полном объеме.
Исходя из характера данных, в [5] было рассмотрено два основных подхода
получения решения: вероятностный и индуктивный. При этом диагноз для каж-
дой пациентки определялся:
1) полученным ранее алгоритмом преобразования значений относительных
частот (вероятностей) признаков в соответствии с наличием тех или иных
признаков у конкретной больной;
2) с помощью построенных моделей связи признаков с диагнозами (признаки
конкретных пациенток задаются своими значениями).
В первом случае модель будем называть алгоритмической, а классифика-
торы – вероятностными, во втором – модель функциональная, а классификато-
ры носят название в соответствии с методом, с помощью которого они по-
строены. В данной работе в качестве функциональных использовались МГУА-
классификаторы.
При создании вероятностных классификаторов были применены известные
методы: оценок Борда (МОБ) [6], парных сравнений (МПС) Кондорсе [7] и ме-
тод, основанный на идее Байеса (МБ) [8]. По результатам классификации этими
классификаторами, а также МГУА-классификаторами построена преференци-
альная система принятия решений (блок-схема будет представлена ниже).
МГУА и вероятностные методыпри построении классификаторов
Індуктивне моделювання складних систем, випуск 4, 2012 104
Наиболее простой в употреблении – первый из упомянутых – метод на ос-
нове рейтинговых оценок Борда (Borda count method) был выбран как наиболее
часто применяющийся метод именно для подготовки информации лицу, при-
нимающему решение. Этот метод основан на прямом ранжировании. Далее для
обоснования принятия решения используется статистический критерий провер-
ки согласованности. Относительные частоты (далее просто частоты) легко ин-
терпретируются, как ранги. Этот метод допускает наличие пересекающихся
классов в пространстве признаков, что учитывается вычислением показателя
взаимосвязанности рангов. По сравнению с методом Байеса в методе Борда ис-
пользуются «загрубленные» оценки, т.к. интервальные значения частот преоб-
разуются в целочисленные значения рангов. В ряде случаев это позволяет для
пациентов, получив ответ: «не знаю» избежать неправильной постановки диаг-
ноза. На основе ранговых коэффициентов можно ответить на вопрос: следует
ли принять гипотезу Н0 об отсутствии различий и «согласованы» ли эксперты в
своем решении относительно диагноза? При этом не всегда удается ответить на
вопрос, в отношении какого именно диагноза имеется согласие. Это будет про-
демонстрировано на дальнейших примерах.
На самом деле в МОБ нулевой гипотезе Н0 соответствует гипотеза об от-
сутствии отличий от равномерного распределения при голосовании за тот или
иной диагноз. Равномерный закон, соответствует случаю, когда эксперты не
могут совместно отдать предпочтение какому либо диагнозу (классу), т.е. не-
возможно различить классы по результату голосования. При проверке данной
гипотезы используется критерий хи-квадрат Пирсона, поскольку исходные
данные для него могут быть получены в любой шкале.
Недостаток вышеуказанного метода анализа ранжировок иногда устраняет
метод парных сравнений. В этом методе вместо гипотезы равномерного рас-
пределения рассматривается гипотеза однородности, т.е. вместо совпадения
всех распределений с одним фиксированным (равномерным) проверяется лишь
совпадение распределений мнений экспертов между собой, что естественно
трактовать как согласованность их мнений в отношении какого либо диагноза.
Таким образом, удается избавиться от неестественного предположения равно-
мерности. На основе этого метода относительно просто получить подсказку
«советчика» об изменении диагноза больного при изменении его состоянии,
например, при добавлении нового симптома.
1. Формулировка задачи
Пусть в пространстве клинических признаков ix , mi ,...,1= (m=18) заданы
(k=4) классы (диагнозы): D1– болезнь Виллебранда (БВ), D2 – коагулопатия
(КП), D3 – дезагрегационная тромбоцитопатия (ДТ), D4 – комбинированная па-
тология системы гемостаза (КПСГ). Каждый из четырех диагнозов был уста-
новлен пациентам в клинической лаборатории при использовании дорогостоя-
щих реактивов. Клинические признаки ix принимают, как правило, целочислен-
ные значения «да» (+1) или «нет» (-1), но для некоторых больных вводится тре-
Кондрашова Н.В.
Індуктивне моделювання складних систем, випуск 4, 2012 105
тье значение – «не было условий для проявления данного признака» (0). В
скобках, например (+1) или (-1), даются значения признаков, обозначенные в
таблице 1 соответственно «+» или «-».
Экспертами данной предметной области выделены следующие девятна-
дцать геморрагических признаков: 1 – ювенальное маточное кровотечение
(ЮМК); 2 – дисфункциональное маточное кровотечение (ДМК); 3 – носовое
кровотечение (НК); 4 – кровоточивость десен (КД); 5 – кровотечение после экс-
тракции зубов (КПЭЗ); 6 – интра и послеоперационное кровотечение (ПОК); 7 –
послетравматическая гематома (ПТГ); 8 – кровотечение из поверхностных ран
(КПР); 9 – продолжительное не заживление ран (ПНЗ); 10 –
послетравматический гемартроз (ПГ); 11 – послеинъекционная гематома
(ПИГ); 12 – кровотечение из-за травмы уздечка языка; 13 – желудочно-
кишечное кровотечение (ЖКК); 14 – паховая гематома; 15 – кровотечение при
прорезывании зубов; 16 – кефалогематома при рождении (КР); 17 – почечное
кровотечение (ПК); 18 – послеродовое кровотечение (ПРК); 19 – геморрагиче-
ский инсульт. Насколько полон набор из девятнадцати признаков для одно-
значного определения указанных диагнозов в данной работе не обсуждается.
Формулировка задачи заключается в следующем.
Имеется выборка наблюдений. Фрагмент выборки представлен в таблице 1. На-
блюдаемые признаки хi, i= m,1 заболеваний (диагнозов) kjDD j ,1, =∈ прини-
мают целочисленные значения из конечного множества трех значений
{ }1,0,1−∈ix .
В соответствии с данными всей выборки получена таблица 2. Она содержит
числа jip , , kj ,1= , i= m,1 , которые означают вероятности (относительные час-
тоты) наблюдаемости признака ix при наличии диагноза jD ( вычисляется как
частное двух чисел iji nn /, , где jin , - число пациентов, у которых наблюдался
признак ix и был диагностирован jD ; in - объем общей выборки пациентов за-
дачи дифференциальной диагностики (D={БВ, КП, ДТ, КПСГ}), имеющих при-
знак ix ).
Пусть w: DX → означает функцию, которая по наблюдению XX s ⊆ ,
( )ss xxX ,...,1= принимает значение ℜ∈)( sXw . Функция w называется решаю-
щей функцией, т.к. по ее максимальному значению делается предварительное
заключение о наличии того или иного диагноза:
( ) DDDXwD is
ki
∈=
=
*
,1
* ,)(maxarg . (1)
Задача состоит в том, чтобы при заданных множествах Х, D и функции
ℜ→×DXpXD : найти решающее правило f: DX → , которое максимизирует
точность классификации диагнозов на всей выборке, а также на независимой
(экзаменационной) выборке.
Решающее правило будем строить в виде дерева решающих правил [9]. В
качестве «листьев» этого дерева будут вероятностные классификаторы и клас-
сификаторы, полученные по методу группового учета аргументов.
МГУА и вероятностные методыпри построении классификаторов
Індуктивне моделювання складних систем, випуск 4, 2012 106
Если ввести пороговое значение приемлемой вероятности, то тогда появит-
ся вариант: отказ от классификации – “не классифицировано” (значение веро-
ятности ниже порогового). Точность классификации будем вычислять, как от-
ношение числа nr правильно диагностированных пациентов к их общему числу
n. В данной работе п – объем контрольной выборки.
Пусть f* функция решающих правил (решающая функция), которая макси-
мизирует точность классификации
( ) npfnf r
pFf
)(max
]1,0[,
*
∈∈
= (2)
где F - множество функций, реализующих решающие правила рассматри-
ваемого множества классификаторов (вероятностных и МГУА). Решением за-
дачи является построение минимального дерева решающих правил, удовлетво-
ряющего (2). Количество признаков m зависит от исследуемой группы пациен-
тов и изменяется от 5 до 13. В женской группе в возрасте от 19 до 49 лет не все
из перечисленных признаков имеют место, а лишь те, которые представлены в
таблицах 1 и 2 (m =13).
Таблица 1.
Наличие геморрагических проявлений у женщин в возрасте от 19 до 49 лет
с диагнозом (D)
В-т D ЮМК ДМК НК КД КПЭЗ ПОК ПТГ КПР ПНЗ ПГ ПИГЖКК ПК ПРК№
пац лет 1 2 3 4 5 6 7 8 9 10 11 13 16 18
70 38 ДТ +1 +1 +1 +1 +1 +1 -1 -1 -1 -1 -1 -1 -1 0
79 43 ДТ +1 +1 +1 +1 +1 +1 +1 +1 +1 -1 -1 +1 -1 +1
73 21 КП +1 +1 +1 +1 +1 0 +1 -1 -1 -1 -1 -1 -1 0
74 49 БВ +1 +1 +1 +1 +1 +1 +1 +1 +1 -1 -1 -1 -1 0
80 19 БВ +1 +1 +1 -1 -1 -1 +1 +1 +1 -1 -1 -1 -1 -1
63 20 КП +1 +1 +1 +1 -1 0 +1 +1 +1 -1 -1 -1 -1 -1
42 49 ДТ -1 -1 +1 +1 +1 0 +1 -1 -1 -1 -1 -1 -1 -1
113 31 БВ +1 +1 +1 +1 +1 0 +1 -1 -1 -1 -1 -1 -1 -1
68 49 КП +1 +1 +1 -1 +1 -1 +1 +1 +1 -1 -1 -1 -1 0
57 21 ДТ +1 +1 +1 +1 +1 0 +1 -1 -1 -1 -1 -1 -1 0
83 28 ДТ +1 +1 +1 +1 +1 0 +1 +1 +1 -1 -1 -1 -1 +1
… … … … … … … … … … … … … … … … …
Обозначение: (В-т) – возраст
Таблица 2.
Относительная частота возникновения геморрагических проявлений у женщин
в возрасте от 19 до 49 лет с диагнозами легкой формы КиТ
№ при-
знаков 1 2 3 4 5 6 7 8 9 10 11 13 16 18
БВ 1 1 1 0,5 0,82 0,8 0,5 0,63 0,5 0,04 0,04 0 0 0,7
ДТ 0,91 0,91 0,84 0,56 0,67 0,68 0,59 0,56 0,37 0 0 0,03 0 0,5
КП 0,88 0,88 0,71 0,65 0,86 0,75 0,77 0,53 0,29 0,06 0,06 0 0 0,3
КПСГ 0,75 0,75 0,5 0,38 0,8 0,83 0,63 0,75 0,5 0,13 0,13 0 0,1 0,7
Кондрашова Н.В.
Індуктивне моделювання складних систем, випуск 4, 2012 107
Примечание. Автор исходных данных для рассматриваемой задачи– д.м.н.
Томилин В.В., ГУ "Институт гематологии и трансфузиологии" АМН Украины.
Используя данные таблицы 2, необходимо построить алгоритм
предварительной постановки диагноза, и оценить точность работы системы с
помощью данных таблицы 1. Классификаторы, на основе которых будет
работать система принятия решений, должны будут для каждого пациента
определять один правильный из четырех возможных диагнозов.
Анализ данных таблицы 1 выявил наличие пересекающихся наборов при-
знаков с одинаковыми значениями, характеризующих различные диагнозы, а
также «двойников» (№73, №57), т.е. людей с совпадающими значениями оди-
наковых наборов признаков и одинаковым возрастом, различающихся только
названиями диагнозов. Понятно, что «двойников» никакой классификатор раз-
личить не может, но один из этих двух диагнозов классификатор вполне может
идентифицировать, и, естественно, – тот, априорная вероятность у которого бу-
дет выше (в данном случае это диагноз пациента под номером 73). Множества
больных с совпадающими наборами признаков должны быть обособлены и до-
полнительно исследованы (в данной выборке имеется пара таких больных).
2. Классификация по методу на основе оценок Борда
Отличительной особенностью классификатора является то, что признаки
используются в качестве экспертов, которые будут «голосовать» за тот или
иной диагноз в соответствии с мерой, которую они получили в результате об-
следования пациентов в специализированной клинике. Такой мерой является
представленная в таблице 2 относительная частота р присутствия определен-
ного признака при установлении каждого из диагнозов. Одной этой меры не-
достаточно для однозначного определения диагноза в силу пересечения мно-
жеств признаков, поэтому используется коллективное согласованное подтвер-
ждение.
Критика оснований применения статистических методов в экспертных сис-
темах, в частности, догмы согласованности в данном случае не может быть ак-
туальной в части, касающейся реально имеющегося разделения экспертов на
группы. Поскольку геморрагические признаки психологически не воздейству-
ют друг на друга и потому не склонны к конформизму.
Относительная значимость тех или иных диагнозов при вероятностном
подходе устанавливается с помощью коэффициента конкордации Кендалла-
Смита, статистического критерия Пирсона χ2 и результата парного сравнения.
Единственность диагноза обеспечивается максимумом веса предпочтений (1),
где вес wℓ вычисляется на основе вычисления рангов по формулам, приведен-
ным при описании этих методов в [3]. Обозначим функцию, в соответствии с
которой принимается решение о диагнозе каждым из методов, через fℓ . Нижний
индекс ℓ порядковый номер метода, для МГУА ℓ=1, МОБ ℓ=2, МПС ℓ=3,
МБ ℓ=4. Если решающая функция fℓ , полученная каким-либо методом ℓ ,
МГУА и вероятностные методыпри построении классификаторов
Індуктивне моделювання складних систем, випуск 4, 2012 108
имеет одинаковое значение сразу для нескольких диагнозов, то эту ситуацию
назовем «конфликтом диагнозов».
3. Классификация по методу парных сравнений Кондорсе
Среди больных немало таких, для которых критерий χ2=0, т.е. с помощью
МОБ диагноз не выявляется, например, больные 74,75,73,42 в таблице 1.
Методом парных сравнений определим, какой именно диагноз имеет предпоч-
тение. Особенностью применения МПС является переход от вероятностей к це-
лочисленной шкале: 1, 2, 3, 4, и вычисление оценки предпочтений любого из
диагнозов каждым экспертом в соответствии со значением частот. Подробно
метод описан в [3]. Относительная значимость тех или иных диагнозов опреде-
ляется весами wj,ℓ, единственность диагноза определяется по формуле (1).
Если наибольшие веса совпадают ,... ,,, lll vij www === ;jiv ≠≠
4,1, ∈ji , то единственность диагноза обеспечивается максимумом показателя,
который вычисляется, как произведение априорной вероятности и весового ко-
эффициента диагноза:
)(maxarg ,
4,1
ll jj
j
wpD
=
+ = , +
lD ∈{БВ, ДТ, КП, КПСГ}, (3)
где априорная вероятность pj есть доля имеющих диагноз Dj по отношению к
общему количеству больных в данной возрастной группе женщин. Модифика-
ции методов МОБ и МПС, учитывающие априорную вероятность диагноза pj ,
обозначаются как МОБ+ и МПС+. В случае МОБ-классификатора решающая
функция f2 =w2, МОБ+ pwf 22 =+ . Для МПС f3 = w3, МПС+ +
3f = w3p . Для устра-
нения неопределенности, когда классификаторы МОБ и МПС и их модифика-
ции могут не «не дать» однозначного ответа: имеет место отказ от распознава-
ния или оба метода приводят к конфликту диагнозов, либо результат их реше-
ния не согласован ( *
lD =
Di∈
maxarg fℓ,i, *
kD =
Di∈
maxarg fk,i , *
lD ≠ *
kD , k, ℓ – индексы раз-
личных методов), рассмотрим классификатор на основе Байесовской формулы.
4. Байесовская классификация
Для построения решающего правила воспользуемся формулой Байеса-
Лапласа [10]: ( )
∑∑ ==
∪∪
=== k
j jsj
jsj
k
j jsj
jsj
s
js
sj
DXpDp
DxxxpDp
DXpDp
DXpDp
Xp
DXp
XDp
1
21
1 )|()(
)...()(
)|()(
)|()(
)(
),(
)|( , (4)
где si Xx ∈ набор геморрагических признаков конкретного пациента, для
которого оценивается вероятность диагноза s≤m. Объем данных недостаточен,
поэтому учесть взаимозависимость признаков не представляется возможным
(нет возможности подсчитать ),...,,...,( 1 wqv xxxxp ). Апостериорная вероятность
Кондрашова Н.В.
Індуктивне моделювання складних систем, випуск 4, 2012 109
диагноза рассчитывается по формуле наивного Байесовского классификатора
при условии независимости признаков wqv xxxx ,...,,,...,1 и того, что известны
условные вероятности )|( ji Dxp как:
∑ ∏
∏
=
∈∀
∈∀= k
j
Xx
jij
Xx
jij
sj
si
si
DxpDp
DxpDp
XDp
1 )|()(
)|()(
)|( . (5)
Поскольку знаменатель одинаков для всех диагнозов, то для выявления
предпочтительности диагноза при их сравнении есть смысл оценивать только
числитель формулы (4). Наиболее предпочтительный диагноз определяется в
предположении, что известны условные вероятности как
4,14,1
*
4 maxarg)|()(maxarg
==
==
j
sjj
j
XDpDpD ∏
= si
jij pDp
,1
,)( .
Важным является трактовка чисел jip , в таблице 2. В зависимости от
смысла, вкладываемого в значение jip , , содержащихся в таблице 2, формула
(4) при сравнении диагнозов может вычисляться, как с учетом )( jDp , так и без
него. Если jip , - условные вероятности, то )( jDp следует учитывать, и в
формуле (5) вместо )( ji Dxp подставляются вероятности jip , j-го диагноза и i-
го признака. Если jip , - совместная вероятность, то в (5) ),(, jiji Dxpp = и
)( jDp учитывать не нужно. Тогда диагноз определяется как:
4,14,1
4 maxarg),(maxarg
==
− ==
j
sj
j
XDpD ∏
= si
jip
,1
, .
Модификация классификатора, основанного на формуле Байеса, не учиты-
вающая априорную вероятность диагноза pj обозначается как МБ– . Для клас-
сификатора МБ f4 = ∏
= si
jij xpDp
,1
, )()( , для классификатора МБ–
−
4f = ∏
= si
jixp
,1
, )( .
5. Результаты классификации вероятностными методами и МГУА
Проанализируем работу вероятностных классификаторов и МГУА-
классификаторов. Результаты диагностирования группы, объединяющей наугад
выбранных пациентов и пациентов с нераспознанными диагнозами, представ-
лены в таблице 3.
По результатам проверки работы классификаторов на контрольной выбор-
ке видно, что при классификации по методу Борда в 80% имеется отказ от клас-
сификации и только модифицированный метод Борда в этом случае с вероятно-
стью максимального диагноза позволяет независимо от набора признаков все-
гда давать ответ ДТ, который только в 50% случаев оказывается верным.
МГУА и вероятностные методыпри построении классификаторов
Індуктивне моделювання складних систем, випуск 4, 2012 110
Особый интерес представляют результаты работы МОБ, МПС и МБ клас-
сификаторов на тех данных, которые относятся к множеству нераспознанных
МГУА-классификаторами (это данные множества Ω пациенток под номерами
70, 74, 73(57), 79 в таблицах 1 и 3).
Таблица 3.
Результаты работы различных классификаторов
№ п/п 1 2 3 4 5 6 7 8 9 10
№ па-
циентки 70 79 73(57) 74 63 83 68 113 80 42
МОБ - + ?? ?? ?? ?? ?? ?? ?? ??
МОБ+ + + +(-) - - + - - - +
МПС - - - + - - - ? + -
МПС+ + - ? + - - - ? + -
МБ– - - -(+) + - - - - + -
Вероятностные
классификаторы
МБ - - +(-) + - - - - + +
МГУА- классификаторы - - - - + ? + + + +
Обозначения: «?» – конфликт диагнозов, «-» – неправильное решение,
«+» – правильное решение, «??» – хи-квадрат равен нулю (согласованный отказ
от классификации), «+ (-)» – правильный диагноз для пациента №73 и непра-
вильный диагноз для пациента № 57, а также наоборот «-(+)».
Оказалось, что для пациенток №74 ∈ Ω и №73(57) ∈ Ω метод, основанный на
оценках Борда (МОБ) не может определить диагноз, т.к. критерий хи-квадрат
равен нулю (обозначено как «??» в таблице 3). Однако метод парных сравнений
для 74-й пациентки позволяет определить правильный диагноз, а МОБ+ –
правильный диагноз для одного из двойников №73 и еще для двоих (70 и 79) из
числа нераспознанных по МГУА пациенток. Для пациенток 70, 73(57) и 79
метод парных сравнений неправильно определяет результат, но метод МПС+
для 74 и 70 «дает» правильный диагноз. При голосовании по большинству
среди различных классификаторов для №74 пациентки имеется перспектива
избегнуть лабораторной проверки диагноза, если еще один классификатор даст
подтверждение правильного диагноза т. к. это решение поддержано также
классификатором МБ (кроме того имеется большинство при голосовании среди
двух классификаторов и их модификаций). Для пациентки 70 – аналогично
желательно иметь результат классификации еще одним классификатором, т.к.
по двум модификациям МОБ+ и МПС+ уже имеется правильный результат.
По данным пациентки №79 имеется одно правильное решение классифика-
тора на основе оценок Борда (МОБ, МОБ+), а значит, эта ошибка при проверке
согласованности голосования по всем 4-м классификаторам не определяется и
является устранимой только лабораторным тестированием.
Таким образом, классификаторы вероятностного подхода (МОБ, МПС и
МБ) позволяют обнаружить все четыре нераспознанные ошибки из класса не-
распознанных МГУА-классификатором, причем две устранить – по правилу
Кондрашова Н.В.
Індуктивне моделювання складних систем, випуск 4, 2012 111
большинства, одну как результат лабораторного тестирования, а одну с помо-
щью либо дополнительного классификатора, либо лабораторного тестирования.
На рис. 1 представлена блок-схема мажоритарной системы дифференциальной
диагностики. По результатам решений классификаторов МГУА и различных
вероятностных методов стоится дерево принятия решений. Исходя из результа-
тов проверки работы классификаторов на контрольной выборке в соответствии
с такой схемой принятия решений (по большинству) только лабораторное тес-
тирование пациентов 79, 63, 83, 68, 113 сможет устранить ошибки системы.
Схема иллюстрирует предложение по реализации идеи голосования классифи-
каторов (комитет решающих правил) и подлежит дальнейшей корректировке.
МГУА
классификаторы
МОБ МБ
МПС
χ2
=0
?
w3,i=w3,v
?
+
D3,1=D3,2
? МПС+
w2,i=w2,v
?
МОБ+
+
_
_ _
D2,1=D2,2
?
МБ_
D4,1=D4,2
?
+
+ +
Есть
конфликт
?
+
+
_
Правило
большинства
Di =Dv
?
Вывод
+
_
Предобработка выборки
_
_
_
D* D*
Лабораторное
тестирование
Рис. 1 Блок-схема мажоритарной системы дифференциальной
диагностики
D*
Di Dv
Выборка
МГУА и вероятностные методыпри построении классификаторов
Індуктивне моделювання складних систем, випуск 4, 2012 112
Контрольная выборка состояла частично из пациенток с нераспознанными
МГУА-классификаторами диагнозами и пациенток выбранных случайным об-
разом из общей выборки. В целом, на множестве из десяти пациенток кон-
трольной выборки классификаторы вероятностного подхода «имели» 3, а
МГУА-классификаторы – 4 нераспознаваемые ошибки. При этом не было ни
одной пациентки, при диагностике которой все бы «согласованно ошибались».
Все вероятностные классификаторы «ошибались» в случаях диагностики паци-
енток под номерами 63, 68 и 113, для которых МГУА-классификаторы «не
ошибались».
Для всех трех вероятностных классификаторов учет априорной вероятно-
сти диагнозов p(Dj) увеличивает процент правильной классификации.
Различные классификаторы при постановке диагноза десяти пациенткам
контрольной выборки «неустранимо ошибались» в следующих случаях: клас-
сификатор по методу парных сравнений (вместе с МПС+) и Байесовский клас-
сификатор (вместе с МБ–) – 6 раз; классификатор, основанный на оценках Бор-
да (вместе с МОБ+) - 5 раз; МГУА-классификатор – 4 раза.
Метод, основанный на оценках Борда, является самым «осторожным» в
оценках, «дает» больше, чем другие методы «отказов от распознавания» (в 80%
случаев). МОБ и МОБ+ «согласованно определили» один раз правильный диаг-
ноз.
Метод парных сравнений и его модификация в одном случае «не могли от-
дать» предпочтение двум альтернативным диагнозам – (?), и в двух случаях
МПС и МПС+ «согласованно определили» правильный диагноз.
Байесовский классификатор (МБ и МБ−) в трех случаях «согласованно оп-
ределил» правильный диагноз. Довольно низкие показатели байесовского клас-
сификатора объясняются тем, что вычисления производятся в предположении о
взаимной независимости признаков, чего в реальности не бывает, а при по-
строении МГУА-классификатора зависимость признаков не является столь кри-
тичной.
Выводы
1. Ни один классификатор без применения других не следует использовать
для безошибочного диагностирования легких форм патологий гемостаза.
2. На контрольной выборке самый высокий процент правильной классифика-
ции диагнозов у МГУА-классификаторов (не менее 50%).
3. Все классификаторы на выборке 80-ти пациенток ни разу «не ошиблись
согласованно».
4. С учетом несогласованности результатов МГУА-классификаторов с ре-
зультатами мажоритарного голосования классификаторов вероятностного под-
хода можно полностью устранить неопределенность путем лабораторного тес-
тирования для найденной группы пациентов и получить 100% точность.
Дальнейшее развитие системы дифференциальной диагностики на основа-
нии классификаторов диагнозов БВ, КП, ДТ и КПСГ может осуществляться по
двум направлениям:
Кондрашова Н.В.
Індуктивне моделювання складних систем, випуск 4, 2012 113
1.Включение в перечень используемых признаков дополнительных харак-
теристик диагностируемых патологий и на основе нового состава признаков
разработка более надежных классификаторов.
2. Совершенствование диагностической системы принятия решений.
Выражение признательности
Автор благодарен Томилину В. В. за предоставленные данные результатов
лабораторного диагностического тестирования.
Литература
1. Баркаган З.С. Геморрагические заболевания и синдромы - переработанное и
дополненное. – 2-е изд. – М: Медицина. – 1988. – 528 с.
2. Томілін В. В. Етіологія, прогнозування, профілактика та лікування гемо-
рагічних ускладнень при легких формах коагулопатій і тромбоцитопатій
[Текст] : автореф. дис. ... доктора мед. наук : 14.01.31; АМН України, ДУ "Ін-
т гематології та трансфузіології". – К., 2011. – 39 с.
3. Кондрашова Н.В., Томилин В.В. Решение задачи диагностики заболеваний
легкой формой коагулопатии и тромбоцитопатии на основе методов экс-
пертных оценок // Системные технологии. Межвузовский сборник научных
работ. – Дн., – 2010.– Вып. 6. – С.104-114.
4. Павлов А.В. Павлов В.А. Томилин В.В. Синтез классификаторов дифферен-
циальной диагностики заболеваний легких форм гемостазиопатий методом
группового учета аргументов // Восточно-Европейський журнал передовых
технологий. – Харьков, 2011. – № 2/2(50). – С.42-48.
5. Kondrashova N.V. About algorithm of decision-making in the medical differential
diagnosis // Proc. of 5th International Workshop on Inductive Modeling IWIM
2012, Kyiv-Zhukyn, Ukraine. – Kyiv: IRTC ITS NASU, – 2012. – p. 7-14.
6. Jean-Charles de Bordа [Електронний ресурс] — 2011. — Режим доступа:
http://en.wikipedia.org/wiki/Jean-Charles_de_Borda.
7. Condorcet M. J. A. N. Essai sur l’application de l’analyse à la probabilité des
décisions rendues à la pluralité des voix. — 1785.
8. Bayes Th. An essay towards solving a Problem in the Doctrine of Chances. –
Philosophical Transactions of the Royal Society of London 53. –1763.
9. Breiman L., Fiedman J.H., Olshen R.A. & Stone C.J. Classification and regression
trees. Monterey. CA: Wadswort & Books/Cole Advanced Books & Software.
1984. ISBN 978-0-412-04841-8.
10. Гнеденко Б.В. Очерки истории вероятностей 69с. (Гнеденко Б. B. Курс тео-
рии вероятностей: Учебник – переработанное и дополненное – 6-е изд. – М:
Наука. Гл. ред. физ-мат. лит. – 1988. – 448 с.)
|
| id | nasplib_isofts_kiev_ua-123456789-45963 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | XXXX-0044 |
| language | Russian |
| last_indexed | 2025-12-07T15:36:55Z |
| publishDate | 2012 |
| publisher | Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України |
| record_format | dspace |
| spelling | Кондаршова, Н.В 2013-06-21T08:50:51Z 2013-06-21T08:50:51Z 2012 МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики / Н.В Кондаршова // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2012. — Вип. 4. — С. 102-113. — Бібліогр.: 10 назв. — рос. XXXX-0044 https://nasplib.isofts.kiev.ua/handle/123456789/45963 681.513.8 Объединение методов позволяет получить хорошие результаты в медицинской диагностике. В частности, при создании классификаторов для дифференциальной диагностики заболеваний, связанных с несвертываемостью крови, трудно распознать диагнозы по клиническим признакам. В этой статье даны результаты работы классификаторов, построенных на основе МГУА и вероятностных методов. Идеи Байеса, Бордá, Кондорсé наряду с идеей самоорганизации моделей были использованы при построении классификаторов с помощью вероятностных методов и МГУА с целью их применения для формирования правила принятия решений. Предложена блок-схема алгоритма дифференциальной диагностики на основе вышеупомянутых классификаторов. Інтеґрація методів дозволяє отримати хороші результати в медичній діагностиці. Зокрема, при створенні класифікаторів для диференціальної діагностики захворювань, пов'язаних з незсілістю крові, важко розпізнати діагнози за клінічними ознаками. У цій статті подано результати роботи класифікаторів, побудованих на основі МГУА та імовірнісних методів. Ідеї Байєса, Бордá, Кондорсé поряд з ідеєю самоорганізації моделей були використані при побудові класифікаторів за допомогою імовірнісних методів і МГУА з метою їх застосування для формування правила прийняття рішень. Запропоновано блок-схема алгоритму диференціальної діагностики на основі вищезазначених класифікаторів. українською мовою, The integration of methods allows obtaining good results in medical diagnosis. Particularly, the creation of classifiers for differential diagnosis of diseases associated with blood incoagulability is difficult to detect diagnosis by clinical symptoms. This article presents the results of the classifiers that are based on GMDH and probabilistic methods. Ideas of Bayes, Bordá, Condorsé along with the idea of self-organizing models were used to create classifiers with help of probabilistic methods and GMDH for application to form a decision rule. A flowchart of the differential diagnosis based on the above classifications is proposed. in English. ru Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України Індуктивне моделювання складних систем МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики Article published earlier |
| spellingShingle | МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики Кондаршова, Н.В |
| title | МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики |
| title_full | МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики |
| title_fullStr | МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики |
| title_full_unstemmed | МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики |
| title_short | МГУА и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики |
| title_sort | мгуа и вероятностные методы при построении классификаторов для медицинской дифференциальной диагностики |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/45963 |
| work_keys_str_mv | AT kondaršovanv mguaiveroâtnostnyemetodypripostroeniiklassifikatorovdlâmedicinskoidifferencialʹnoidiagnostiki |