Загальний розв’язок задачі класифікації у просторі ймовірностей

Розвинуто ймовірнісний підхід до класифікації множин. Отримані порогове і трійкове вирішувані правила у просторі ймовірностей на основі зв’язку між теорією множин і булевою алгеброю....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2010
Hauptverfasser: Закорчений, О.В., Будник, М.М.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2010
Schriftenreihe:Комп’ютерні засоби, мережі та системи
Online Zugang:http://dspace.nbuv.gov.ua/handle/123456789/46360
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Загальний розв’язок задачі класифікації у просторі ймовірностей / О.В. Закорчений, М.М. Будник // Комп’ютерні засоби, мережі та системи. — 2010. — № 9. — С. 27-36. — Бібліогр.: 12 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-46360
record_format dspace
spelling irk-123456789-463602013-06-30T03:50:37Z Загальний розв’язок задачі класифікації у просторі ймовірностей Закорчений, О.В. Будник, М.М. Розвинуто ймовірнісний підхід до класифікації множин. Отримані порогове і трійкове вирішувані правила у просторі ймовірностей на основі зв’язку між теорією множин і булевою алгеброю. Развит вероятностный подход к классификации множеств. Получены пороговое и троичное решающие правила в пространстве вероятностей на основе связи между теорией множеств и булевой алгеброй. The probability approach for set classifying is developed. Threshold and triple decision rules are determined in probability space based on link between set theory and Boolean algebra. 2010 Article Загальний розв’язок задачі класифікації у просторі ймовірностей / О.В. Закорчений, М.М. Будник // Комп’ютерні засоби, мережі та системи. — 2010. — № 9. — С. 27-36. — Бібліогр.: 12 назв. — укр. 1817-9908 http://dspace.nbuv.gov.ua/handle/123456789/46360 519.226:519.816 uk Комп’ютерні засоби, мережі та системи Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
description Розвинуто ймовірнісний підхід до класифікації множин. Отримані порогове і трійкове вирішувані правила у просторі ймовірностей на основі зв’язку між теорією множин і булевою алгеброю.
format Article
author Закорчений, О.В.
Будник, М.М.
spellingShingle Закорчений, О.В.
Будник, М.М.
Загальний розв’язок задачі класифікації у просторі ймовірностей
Комп’ютерні засоби, мережі та системи
author_facet Закорчений, О.В.
Будник, М.М.
author_sort Закорчений, О.В.
title Загальний розв’язок задачі класифікації у просторі ймовірностей
title_short Загальний розв’язок задачі класифікації у просторі ймовірностей
title_full Загальний розв’язок задачі класифікації у просторі ймовірностей
title_fullStr Загальний розв’язок задачі класифікації у просторі ймовірностей
title_full_unstemmed Загальний розв’язок задачі класифікації у просторі ймовірностей
title_sort загальний розв’язок задачі класифікації у просторі ймовірностей
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2010
url http://dspace.nbuv.gov.ua/handle/123456789/46360
citation_txt Загальний розв’язок задачі класифікації у просторі ймовірностей / О.В. Закорчений, М.М. Будник // Комп’ютерні засоби, мережі та системи. — 2010. — № 9. — С. 27-36. — Бібліогр.: 12 назв. — укр.
series Комп’ютерні засоби, мережі та системи
work_keys_str_mv AT zakorčenijov zagalʹnijrozvâzokzadačíklasifíkacííuprostoríjmovírnostej
AT budnikmm zagalʹnijrozvâzokzadačíklasifíkacííuprostoríjmovírnostej
first_indexed 2025-07-04T05:35:40Z
last_indexed 2025-07-04T05:35:40Z
_version_ 1836693419657789440
fulltext Комп’ютерні засоби, мережі та системи. 2010, № 9 27 O.V. Zakorchenyi, M.M. Budnyk GENERAL SOLUTION OF CLASSIFICATION PROBLEM AT PROBABILITY SPACE The probability approach for set clas- sifying is developed. Threshold and triple decision rules are determined in probability space based on link be- tween set theory and Boolean algebra. Key words: classification, decision rule, probability. Развит вероятностный подход к классификации множеств. Получе- ны пороговое и троичное решающие правила в пространстве вероятно- стей на основе связи между теори- ей множеств и булевой алгеброй. Ключеые слова: классификация, ре- шающее правило, вероятность. Розвинуто ймовірнісний підхід до класифікації множин. Отримані по- рогове і трійкове вирішувані прави- ла у просторі ймовірностей на ос- нові зв’язку між теорією множин і булевою алгеброю. Ключові слова: класифікація, вирі- шуване правило, ймовірність.  О.В. Закорчений, М.М. Будник, 2010 УДК 519.226:519.816 О.В. ЗАКОРЧЕНИЙ, М.М. БУДНИК ЗАГАЛЬНИЙ РОЗВ’ЯЗОК ЗАДАЧІ КЛАСИФІКАЦІЇ У ПРОСТОРІ ЙМОВІРНОСТЕЙ Вступ. Автори дотримуються угоди згідно якої класи – це множини, що не вміщують підмножин і тому не можуть перекриватися з іншими множинами, тобто поняття «кла- си» і «класи, що не перекриваються» тото- жні [1]. У медичній інформатиці проблема класифікації чи дискримінації полягає у розбитті множини (групи осіб) на декілька класів (патологій, діагнозів). При цьому, якщо кількість класів апріорі відома, то за- дача розбиття зводиться до задачі дискри- мінації, якщо невідома – до задачі класи- фікації [2]. Далі, якщо це не буде оговорено окремо, під класифікацією розуміємо зада- чу дискримінації. Обидві задачі по суті є оберненими і вимагають синтезу простору ознак та прикладного алгоритму розбиття – вирішуваного правила (ВП). Відмінність методів дискримінації поля- гає у тому, що вони використовують апрі- орну інформацію про класи, а тому за допо- могою процедури навчання їх можна опти- мізувати, водночас як методи класифікації ґрунтуються на самонавчанні (кластерний аналіз) [1]. Оптимізація здійснюється на ос- нові функціоналів (критеріїв) якості, які в найбільш простому двокритеріальному ви- падку мають сенс максимум ефекту при однакових затратах, мінімум затрат при однаковому ефекті або узагальнених крите- ріїв типу “ефект/затрати” [3]. Найпростіше порогове правило дає змогу розбити групу на два класи. При цьому ма- ють місце помилки 1-го (пропуску цілі) та 2-го (хибної тривоги) роду. Цю задачу роз- глядає статистична теорія рішень (СТР), О.В. ЗАКОРЧЕНИЙ, М.М. БУДНИК Комп’ютерні засоби, мережі та системи. 2010, № 9 28 де оптимальне (найбільш потужне) правило згідно критерію Неймана − Пірсона [4] при заданому рівню помилок 1-го роду мінімізує помилки 2-го роду. В теоре- тичному плані зазначений критерій дає можливість розрахувати поріг (критичне значення параметра, що розділяє класи) у наближенні нормального розподілу. Однак цей підхід мало корисний на практиці, бо величини помилок і поріг зале- жать від емпіричних диференційних функцій розподілу (ФР), які, як правило, є негаусовими. Іншим широко розповсюдженим методом вирішення задачі дискримінації є баєсівський підхід, який дозволяє визначити поріг та мінімізувати втрати від помилкової класифікації [5]. Проте його недолік полягає у необхідності знання повної апріорної інформації – ФР, апріорних та умовних ймовірностей, що вимагає досить великих затрат на отримання вхідної інформації [6]. Іншим недоліком СТР на основі порогового ВП є відсутність зони сумніву (ЗС), яка існує у загальному підході [2] та еквівалентна переходу від бінарної до трійкової логіки. Наприклад, людина – дуже складна біологічна система, тому застосування порогового ВП є великою примітивізацією і не може бути прийняте як адекватна модель організму людини. Причина в наявності «фізіо- логічного коридору», який приводить до градацій типу «дефіцит – норма – над- лишок» (тиск крові) або «норма – слабкий ризик – суттєвий ризик» (холесте- рин) [7]. Постановка задачі. Отже, актуальним є розробка ВП на основі ЗС та бага- тозначних логік, що надасть змогу сформулювати детальні висновки про стан людини. При цьому, на думку авторів, при збільшенні “N-значності” логіки вона своєю континуальною границею має нечітку логіку (НЛ). Отже шлях вдос- коналення ВП полягає в імплементацію у СТР методів НЛ (функції належності (ФН) замість ФР), особливо для малих вибірок [8]. Надалі класифікацію на ос- нові порогового ВП назвемо чітким діагнозом, на основі більш складного трій- кового ВП – напівчітким діагнозом, а на основі НЛ – нечітким діагнозом. Теоретичним підґрунтям до введення ЗС автори вважають класичну теорію ймовірностей (ТЙ) [9]. Шлях до вдосконалення ВП полягає у строгому визна- ченні класів, які мають складатися з подій, що взаємно виключають одна одну – тобто кожний елемент множини може належати до негативного, позитивного чи проміжного класу. Згідно геометричної інтерпретації ТЙ класам відповідають несумісні події. Отже завдання полягає у тому, щоб знайти несумісні події, які в принципі мають місце при розділенні множини на класи. У разі якщо ця множина склада- ється з двох підмножин А та В, такий підхід має дати значення класів, на які можна розділити множину, а також ймовірності цих класів для оцінки конкрет- них алгоритмів класифікації. З іншого боку, проблема класифікації є частковим випадком розпізнавання образів (РО). Відомо, що ефективність алгоритмів РО в першу чергу залежить від структури простору, в якому воно здійснюється [10]. Тому конструктивний підхід до розв’язання проблеми класифікації автори вбачають у першу чергу не на шляху розробки найбільш потужних ВП, а на шляху синтезу відповідного ЗАГАЛЬНИЙ РОЗВ’ЯЗОК ЗАДАЧІ КЛАСИФІКАЦІЇ У ПРОСТОРІ ЙМОВІРНОСТЕЙ Комп’ютерні засоби, мережі та системи. 2010, № 9 29 вибіркового (параметричного) простору. Проте, спершу потрібно побудувати загальний розв’язок задачі класифікації в абстрактному просторі ймовірностей, іншими словами – надати теоретико-множинну інтерпретацію порогового ВП в рамках класичної ТЙ та булевої алгебри, що на сьогодні невідомо з літератури. Зв’язок між двома сумісними подіями. З точки зору ТЙ випадкова подія по- лягає у віднесенні елемента множини до певного класу – A чи В. Відомо, що ймовірності суми ( )P A B+ сумісних подій ( )P A та ( )P B зв’язані згідно [9] ( ) ( ) ( ) ( )P A B P A P B P AB+ = + − . (1) Водночас, геометрична інтерпретація добутку подій ( )P AB діаграмами Ейлера (рис. 1) дає таку залежність від площ областей подій AS , BS та їх перетину 0S : 0( ) A B SP AB S S = + . (2) РИС. 1. Діаграма Ейлера для двох сумісних подій Легко встановити, що мінімум 0S залежить від співвідношення між площа- ми областей подій A та B і має вигляд { }0 min , .A BS S S= (3) Порівнюючи (2, 3) встановимо, що ймовірність добутку подій обмежена зверху ( ) 1/2P AB ≤ . (4) З іншого боку відомі рівняння ( ) ( ) ( )P AB P A B P B= ∗ , ( ) ( )* ( )P BA P B A P A= , (5) з яких не слідує ніяких обмежень на ( )P AB , бо формально ( ) 1P AB ≤ ; ( ) 1P BA ≤ ; ( ) 1P A ≤ ; ( ) 1P B ≤ . Виявлене протиріччя дозволяє припустити, що існують невідомі зв’язки між ( ),P AB ( ),P A B ( ),P B A ( )P A та ( )P B , які забезпечують виконання умови (4). Для їх встановлення відмітимо, що при перекритті областей подій A та B , як частина площі області 0AA S перекривається з областю B , так і частина області 0BBS перекривається з областю A . 0 0 0A BS S S= = , що і забезпечує рівність О.В. ЗАКОРЧЕНИЙ, М.М. БУДНИК Комп’ютерні засоби, мережі та системи. 2010, № 9 30 ( ) ( )P AB P BA= . Однак перекриваються дві області, отже площа перекриття вдві- чі більша за 0S Σ 0 0 02 .A BS S S S= + = (6) Отже, сумарна ймовірність одночасного настання подій А та В має вигляд Σ ( ) ( ) ( ) 2 ( ) 2 ( ).P AB P AB P BA P AB P BA= + = = (7) Водночас в (1) входить тільки половина зазначеної ймовірності, причому немає значення – це ( )P AB чи ( )P BA . Тому (1) не рівна ймовірності «настання події A чи B , виключаючи можливість їх одночасного настання». Іншими словами, виразу (1) фактично відповідає диз’юнкція (функція АБО) ( )P A B∨ (при цьому згідно Уїттлу [9] позначення ( )P A B+ залишимо тільки для несумісних подій). Водночас згідно відомого підходу до аксіоматики ТЙ на основі нормованої булевої алгебри [11] диз’юнкція має виражатися через функ- цію «Виключне АБО» (симетрична різниця). Останню для забезпечення відмін- ності від ( )P A B∨ позначимо, як ( ) ( ) ( ),P A B P A B P BA⊕ = ∨ − (8) де ⊕ – взятий по аналогії знак операції «Сума по модулю 2». Комбінуючи (1) та (7) отримаємо кінцевий вираз для ймовірності ⊕ двох сумісних подій: Σ( ) ( ) ( ) ( ).P A B P A P B P AB⊕ = + − (9) Продовжуючи далі аналогію з булевою алгеброю ймовірність (7) необхідно розуміти як ймовірність логічного добутку подій A та В, тобто кон’юнкції Σ ( ).P P A B= ∧ Тоді вираз (9) можна подати у вигляді ( ) ( ) ( ) ( ),P A P B P A B P A B+ = ⊕ + ∧ (10) який формально відповідає булевому виразу ( ) ( ).A B A B A B∨ = ⊕ ∨ ∧ (11) У теоретичному плані вирази (10), (11) приводять у відповідність значення функцій булевої алгебри та їх розуміння в ТЙ на основі геометричної (теорети- ко-множинної) інтерпретації. Принципова відмінність (9), (10), (11) від (1) поля- гає у тому, що здійснено перехід від двох сумісних подій A та B до двох несу- місних подій BA⊕ та BA ∧ , еквівалентних згідно сумарної ймовірності. При- кладне значення (10), (11) полягає у тому, що несумісним подіям в абстрактно- му просторі відповідають області (класи) у вибірковому просторі, які не перек- риваються. Задача дискримінації полягає у розбитті множини подій BA∨ на два кла- си, тобто на множини, що не перетинаються. З точки зору (10) множини BA⊕ та BA ∧ і тільки вони є такими класами, а отже моделюють результат задачі дискримінації в теоретико-множинному просторі. Для теорії дискримінації вираз (10) дає вирішення задачі класифікації у просторі ймовірностей, що вказує на: 1) які класи необхідно розбивати множину BA∨ , 2) метод оцінки алгоритму дискримінації, а саме – чим ближче ймовірність належності до класів наближається до величин апріорних ймовірностей ЗАГАЛЬНИЙ РОЗВ’ЯЗОК ЗАДАЧІ КЛАСИФІКАЦІЇ У ПРОСТОРІ ЙМОВІРНОСТЕЙ Комп’ютерні засоби, мережі та системи. 2010, № 9 31 ( )P A B⊕ та ( )P A B∧ – тим ближче даний алгоритм до ідеального. Звичайно, (10) не може дати прикладного методу для синтезу «ідеального» алгоритму, – він, як і медичне значення введених класів, буде поданий далі. Проте, в прикладному аспекті не менш важливим є також встановлення ймо- вірності різниці двох подій, що відповідають різницям площ ( 0\ S SAA B ↔ − та 0\ S SBB A↔ − ). Враховуючи співвідношення ( ) ( ) ( ),P A B P A B P B A⊕ = + (12) а також (1), (7), (8), отримаємо вирази для різниці двох сумісних подій: ( \ ) ( ) ( );P A B P A P AB= − ( \ ) ( ) ( ).P B A P B P BA= − (13) Враховуючи також, що ABABA \\ = , та BABAB \\ = , з (13) отримає- мо вирази ( \ ) ( ) ( );P A AB P A P AB= − ( \ ) ( ) ( ),P B BA P B P BA= − (14) які показують, що ( )P AB та ( )P BA не є тотожними (операція добутку некомута- тивна) і замінювати їх в (14) одна на одну принципово не можна. Це видно також з умови, що ймовірності не можуть бути від’ємні ( \ ) 0,P A B > ( \ ) 0,P B A > звідки отримаємо крім (4) ще обмеження зверху (14): ( ) ( )P AB P A< (бо 0S SA A< ); ( ) ( )P BA P B< (бо 0S SB B< ). (15) Вирази (14) є важливими для теорії класифікації, де актуальним є встанов- лення ймовірності «настання однієї події, виключаючи можливість одночасного настання двох подій», або, що еквівалентно, «настання однієї події, виключаючи іншу подію». Таким чином вирази (13) дають «чисті» ймовірності однієї події без «домішок» іншої. Розглянемо ще «сумарну» ймовірність, що описується виразом ( ) ( ) ( ).P P A P B P A B+ = + + ∧ (16) Враховуючи, що (1) фактично описує ймовірність диз’юнкції подій, тоді як (16) – «арифметичної» суми P+ подій BA + , яку можна формально записати як ( ) (1) (2),P A B P P+ + = + П(1) ( ) ( ) ( )P P A B P A P AB= + = + , Л(2) ( ) ( ) ( ),P P A B P B P BA= + = + (17) де Р1(2) – «права» («ліва») сума подій. Визначимо операцію, яку можна назвати «симетричною сумою» як ( ) ( ) ( )( ) . 2 2 2C P P A P B P A BP A B + + ∧ + = = + (18) Враховуючи (8), вираз (18) можна подати також у вигляді [ ]( ) ( ) (1 2) ( \ ) ( \ ) .CP A B P A B P A B P B A+ = ∧ + + (19) Зазначимо, що аналогічно можна ввести «симетричну різницю» згідно ( ) ( ) ( )( ) . 2 2C P A P B P A BP A B + ∧ − = − (20) О.В. ЗАКОРЧЕНИЙ, М.М. БУДНИК Комп’ютерні засоби, мережі та системи. 2010, № 9 32 Тоді обидві симетричні операції алгебри подій можна записати у вигляді [ ]( ) 1 2 ( ) ( ) ( )CP A B P A P B P AB± = + ± (21) звідки ( ) ( ) / 2;CP A B P A B− = ⊕ ( ) ( ) ( ).C CP A B P A B P A B+ = − + ∧ (22) Значення назв симетричних операцій видно з рис. 3, бо при Р(А) = Р(В) = = 1/2 ймовірність «симетричної суми» рівна сумі відповідних ймовірностей, а ймовірність «симетричної різниці» – їх різниці. При несиметрії апріорних ймо- вірностей обидві симетричні операції алгебри подій збігаються до півсуми ймо- вірностей обох подій [ ]( ) ( ) 2.P A P B+ Медична інтерпретація цих ймовірностей буде приведено в останньому пункті. Наочне зображення операцій алгебри сумісних подій. Згідно геометрич- ної інтерпретації на рис. 1, для апріорних та умовних ймовірностей маємо ,( , ) ;A B A B S P A B S S = + ;0( / ) / BP A B S S= 0( / ) / AP B A S S= (23) звідки з урахуванням (3) { }( ) min ( ), ( ) .P AB P A P B= (24) Тоді маємо { }( ) max ( ), ( ) ,P A B P A P B∨ = ( ) ( ) 1 .P A P B+ = (25) Залежності ймовірностей різних складних подій (24 – 27) від апріорної ймо- вірності настання події ( )P B в нормованому просторі подій наглядно показано на рис. 2, а (28 – 30) – на рис. 3 (для повного простору нормування непотрібне). РИС. 2. Залежність добутку, диз’юнкції та різниці двох випадкових подій, а також умовних ймовірностей від апріорної ймовірності події В ЗАГАЛЬНИЙ РОЗВ’ЯЗОК ЗАДАЧІ КЛАСИФІКАЦІЇ У ПРОСТОРІ ЙМОВІРНОСТЕЙ Комп’ютерні засоби, мережі та системи. 2010, № 9 33 РИС. 3. Залежність правої та лівої сум, симетричної суми та різниці, кон’юнкції та суми по mod 2 двох випадкових подій від ймовірності події B ( \ )P A B = 0, ( ) ( )P A P B< , ( \ )P B A = ( ) ( )P B P A− ; ( ) ( )P A P B< , (26) ( ) ( )P A P B− , ( ) ( )P A P B> , 0, ( ) ( ),P A P B> ( / )P B A = ( ) / ( )P B P A , ( ) ( )P A P B< , 1, ( ) ( )P A P B> , ( / )P A B = 1, ( ) ( )P A P B< , ( ) / ( )P A P B , ( ) ( )P A P B> , (27) ( )P A B∧ = 2 ( )P B , ( ) ( )P B P A< , ( )P A B⊕ = ( ) ( )P A P B− ; ( ) ( )P B P A< , (28) 2 ( )P A , ( ) ( )P B P A> , ( ) ( )P B P A− ; ( ) ( )P B P A> . (1)P = ( ) ( )P A P B+ , ( ) ( ),P B P A< 2 ( )P A , ( ) ( )P B P A> , (2)P = 2 ( )P B , ( ) ( )P B P A< , ( ) ( )P A P B+ , ( ) ( )P B P A> , (29) ( )CP A B+ = [ ]3 ( ) ( ) / 2P A P B+ , ( ) ( ),P B P A< [ ]( ) 3 ( ) / 2P A P B+ , ( ) ( ),P B P A> ( )CP A B− = [ ]( ) ( ) / 2P A P B− , ( ) ( )P B P A< , [ ]( ) ( ) / 2P B P A− , ( ) ( )P B P A> . (30) Медична інтерпретація на прикладі двох груп пацієнтів. Нехай ( )P B – це апріорна ймовірність класифікації особи до групи хворих, а ( )P A – до групи здорових. Тоді ( )P B = Π , де Π − преваленс хворих у групі, а відповідні ймовір- ності мають наступне значення: ( ) ( \ );HP B P B A= ( ) ( \ );HP A P A B= γ ( );CP P A B= − (31) ( );V CP P A B= + СУМНІВ ( )P P A B= ∧ (32) та подані на рис. 4, де враховано, що простір подій повний, отже О.В. ЗАКОРЧЕНИЙ, М.М. БУДНИК Комп’ютерні засоби, мережі та системи. 2010, № 9 34 ( ) ( ) 1;P A P B+ = ( ) 1 .P A = −Π (33) РИС. 4. Залежність операцій алгебри подій від преваленсу груп З рис. 4 видно, що ( )HP A – це ймовірність належності тільки до групи хво- рих, а ( )HP B – до групи здорових. СУМНІВP означає ймовірність того, що особа належить одночасно обом групам, тобто це ймовірність належності до групи (зони) сумніву. Для узагальнення введено ймовірності похибок 1-го ( )Pα та 2-го роду ( )Pβ як (таке визначення узгоджується із загальним визначенням (24)) ( )P AB = ( )P P Bα = , якщо ( ) ( );P B P A< (34) ( )P P Aβ = , якщо ( ) ( ).P B P A> Тоді ймовірності належності «чистим» групам (тобто класам) рівні ( ) ( ) ;HP A P A Pα= − ( ) ( ) .HP B P B Pβ= − (35) Таким чином дві групи, що перекриваються, еквівалентні 3-м класам: 1) BA \ – клас негативних, тобто «чистих» здорових – здорових за виклю- ченням хворих; 2) AB \ – клас позитивних, тобто «чистих» хворих – хворих за виключен- ням здорових; 3) проміжний клас, тобто осіб із сумнівним станом A B∧ , що включає осіб, які належать до обох груп одночасно. Величини ( ),HP A ( )HP B та СУМНІВP належать проміжку [ ]0,1 . Отже їх мож- на вважати функціями належності (ФН). Тоді, використовуючи прийняте у НЛ правило, згідно якого елемент належить до того нечіткого поняття, ФН якого ЗАГАЛЬНИЙ РОЗВ’ЯЗОК ЗАДАЧІ КЛАСИФІКАЦІЇ У ПРОСТОРІ ЙМОВІРНОСТЕЙ Комп’ютерні засоби, мережі та системи. 2010, № 9 35 при даному значенні нечіткого параметра (тут параметром є преваленс Π ) мак- симальна, можна вказати таке ВП для розділення груп ТРИЗНАЧНЕ ПРАВИЛО )(Π = здоровий, якщо 410 <Π< , проміжний, якщо 4341 <Π< , (36) хворий, якщо 143 <Π< . Введення зони сумніву (3С) [ ]1 4, 3 4Π∈ зменшує ймовірності похибок 1-го та 2-го роду, теоретично у 2 рази, за рахунок того, що частина осіб нале- жить до 3С. Також з рис. 4 видно, що при 21=Π ймовірності похибок обох родів рівні P Pα β= . Цьому оптимальному значенню преваленсу відповідає най- краща якість розділення груп. Якість класифікації описується величиною VP , яка лежить в діапазоні 50 % 100 %VP< < і є загальним показником достовірнос- ті діагностичного тесту. Так для порогового ВП, що зазвичай застосовується в СТР ПОРОГОВЕ ПРАВИЛО =Π)( здоровий, якщо 21<Π , хворий, якщо 21>Π (37) показник РV досягає максимуму. Це значить, що при відсутності інформації про апріорні ймовірності ( )P A і ( )P B у даній групі (сліпий тест) найбільш ефектив- не розділення буде досягнуто, якщо прийняти ( ) ( ) 0,5P B P A= = . Тобто ми має- мо половину осіб віднести до здорових, а половину – до хворих. Якщо ж )0(1=Π , тобто всі особи в групі хворі (здорові), то зазначене пра- вило приведе до того, що кожна друга особа буде класифікована невірно. Тому при 21≠Π показник достовірності тесту спадає і в крайніх точках 0Π = та 1=Π становить тільки 50 % . Звідси випливає, що довільний алгоритм класифі- кації (вирішуване правило) математично коректне, якщо забезпечується досто- вірність тесту (наприклад, специфічність чи чутливість) не менша, ніж 50 % . Також зазначимо, що в оптимальній точці ОПТ 1 2Π = , ймовірності похибок обох родів рівні .P P=α β Це значить, що в ТЙ немає ніяких спеціальних підстав для того, щоб вони не дорівнювали один одному при класифікації у вибірковому просторі. Іншими словами, якщо ,P P≠α β то це означає, що критичне значення ,KPΠ застосоване у правилі (35) неоптимальне (у даному випадку KP 1 2Π ≠ ). З огляду на це постає завдання розробити спосіб класифікації, що забезпечував би відшукання оптимального значення, яке задовольняло умову .P P=α β Висновок. У стандартній процедурі класифікації поріг обчислюють за допо- могою диференціальної ФР. Це призводить до: О.В. ЗАКОРЧЕНИЙ, М.М. БУДНИК Комп’ютерні засоби, мережі та системи. 2010, № 9 36 а) збільшення кількості показників тесту (специфічність ( C ), чутливість ( Ч ), негативна ( НП ) і позитивна ( ПП ) прогностичність); б) нерівності помилок 1-го і 2-го роду; в) погіршення достовірності. При цьому два показники достовірності залежать від асиметрії помилок β−α=γ∆ ; )(CC γ∆= ; )(ЧЧ γ∆= , а прогностичності – додатково ще й від аси- метрії кількості осіб у групах (або що те саме – преваленсу). Це утруднює як об- робку, так і, що більш важливо, – інтерпретацію даних. Основний практичний результат роботи полягає у встановленні того факту, що залежність від зазначе- них факторів є паразитною, вона не випливає з ТЙ, а є недоліком саме способу обробки даних на основі традиційних методів класифікації СТР. Алгоритм, ві- льний від зазначених недоліків, раніше розроблено і описано в [12]. 1. Глушков В.М. Основы безбумажной информатики. Изд. 2-е, испр. – М.: Наука, 1987. – 552 с. 2. Математическая энциклопедия. Гл. ред. И.М. Виноградов, 2. – М: Советская энцикло- педия, 1979. – 1104 с. 3. Кветный Р.Н., Маликов В.Т. Информационная теория измерений: от модели к изделию. – М.: Знание, 1998. – 32 с. 4. Чистяков В.П. Курс теории вероятностей. – М.: Наука, 1982. – 256 с. 5. Файнзильберг Л.С. Байесова схема принятия коллективных решений в условиях протии- воречий // Проблемы управления и информатики. – 2002. – № 3. – С. 112–122. 6. Продеус А.Н., Захрабова Е.Н. Экспертные системы в медицине. – Киев: ТОВ «ВЕК+», 1998. – 320 с. 7. Эпидемиология и факторы риска ишемической болезни сердца / Под ред. А.Н. Климо- ва. – Л.: Медицина, 1989. − 176 с. 8. Елисеев П.И., Гусаченко Р.П. Алгоритм обработки результатов анализа данных по малым выборкам // УСиМ. – 2002. – № 6. – С. 18–20. 9. Уиттл П. Вероятность. – М.: Мир, 1984. – 640 с. 10. Джордж Ф. Основы кибернетики: Пер. с англ. / Под ред. А.Л. Горелика. – М.: Радио и связь, 1984. – 272 с. 11. Математическая энциклопедия. Гл. ред. И.М. Виноградов, 5. – М.: Советская энцик- лопедия, 1984. – 1248 с. 12. Будник М.М., Закорчений О.В. Спосіб класифікації групи пацієнтів. Патент UA 84884, заявл. 14.04.2006, опубл. 10.12.2008, Бюлетень «Промислова власність» № 23, 2008. Отримано 20.10.2010 Зв’язок між двома сумісними подіями. З точки зору ТЙ випадкова подія полягає у віднесенні елемента множини до певного класу – чи В. Відомо, що ймовірності суми сумісних подій та зв’язані згідно [9]