Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных

Рассмотрены существующие подходы расчета эффектов совместного действия факторов, использующиеся в медико-экологических исследованиях. Оценены недостатки этих подходов, реализованных в теории вероятностей и математической статистике. Предложена оригинальная методика расчета совместного действия факто...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Кибернетика и вычислительная техника
Datum:2015
1. Verfasser: Антомонов, М.Ю.
Format: Artikel
Sprache:Russian
Veröffentlicht: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України 2015
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/110302
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных / М.Ю. Антомонов // Кибернетика и вычислительная техника. — 2015. — Вип. 182. — С. 59-69. — Бібліогр.: 12 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-110302
record_format dspace
spelling Антомонов, М.Ю.
2017-01-03T10:35:13Z
2017-01-03T10:35:13Z
2015
Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных / М.Ю. Антомонов // Кибернетика и вычислительная техника. — 2015. — Вип. 182. — С. 59-69. — Бібліогр.: 12 назв. — рос.
0452-9910
https://nasplib.isofts.kiev.ua/handle/123456789/110302
519.254:616-036.22
Рассмотрены существующие подходы расчета эффектов совместного действия факторов, использующиеся в медико-экологических исследованиях. Оценены недостатки этих подходов, реализованных в теории вероятностей и математической статистике. Предложена оригинальная методика расчета совместного действия факторов, которая позволяет оперировать с качественной информацией, выраженной в бинарном виде. При конструировании итогового выражения использованы подходы формальной логики и теории вероятностей. Полученная функция представляет собой обобщение формулы расчета вероятности независимых событий с учетом их возможной взаимозависимости. Представлен пример использования этого метода.
Розглянуто сучасні підходи розрахунку ефектів сумісної дії факторів, які використовуються в медико-екологічних дослідженнях. Оцінено недоліки цих підходів, реалізованих в теорії ймовірностей і математичній статистиці. Запропоновано оригінальну методику розрахунку спільної дії факторів, яка дозволяє оперувати з якісною інформацією, що виражена у бінарному вигляді. При конструюванні остаточного виразу використано підходи формальної логіки і теорії ймовірностей. Одержана функція є узагальненням формули розрахунку ймовірності незалежних подій з урахуванням їх можливої взаємозалежності. Надано приклад використання цього методу.
A careful analysis was carried out for the existing approaches in the medical and environmental studies for calculating the effect of the joint action of the factors. It was evaluated disadvantages of these approaches that implemented in the theory of probability and mathematical statistics. The article proposes an original method of calculating the combined effect of the factors that allows you to work with the information expressed in binary form. The final expression was designed by using approach of formal logic and probability theory.
ru
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України
Кибернетика и вычислительная техника
Медицинская и биологическая кибернетика
Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных
Метод визначення ефектів сумісної дії факторів навколишнього середовища в епідеміологічних дослідженнях для бінарних змінних
Methods of Determination of Environmental Factors Joint Impact in Epidemiological Studies for Binary Data
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных
spellingShingle Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных
Антомонов, М.Ю.
Медицинская и биологическая кибернетика
title_short Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных
title_full Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных
title_fullStr Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных
title_full_unstemmed Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных
title_sort метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных
author Антомонов, М.Ю.
author_facet Антомонов, М.Ю.
topic Медицинская и биологическая кибернетика
topic_facet Медицинская и биологическая кибернетика
publishDate 2015
language Russian
container_title Кибернетика и вычислительная техника
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України
format Article
title_alt Метод визначення ефектів сумісної дії факторів навколишнього середовища в епідеміологічних дослідженнях для бінарних змінних
Methods of Determination of Environmental Factors Joint Impact in Epidemiological Studies for Binary Data
description Рассмотрены существующие подходы расчета эффектов совместного действия факторов, использующиеся в медико-экологических исследованиях. Оценены недостатки этих подходов, реализованных в теории вероятностей и математической статистике. Предложена оригинальная методика расчета совместного действия факторов, которая позволяет оперировать с качественной информацией, выраженной в бинарном виде. При конструировании итогового выражения использованы подходы формальной логики и теории вероятностей. Полученная функция представляет собой обобщение формулы расчета вероятности независимых событий с учетом их возможной взаимозависимости. Представлен пример использования этого метода. Розглянуто сучасні підходи розрахунку ефектів сумісної дії факторів, які використовуються в медико-екологічних дослідженнях. Оцінено недоліки цих підходів, реалізованих в теорії ймовірностей і математичній статистиці. Запропоновано оригінальну методику розрахунку спільної дії факторів, яка дозволяє оперувати з якісною інформацією, що виражена у бінарному вигляді. При конструюванні остаточного виразу використано підходи формальної логіки і теорії ймовірностей. Одержана функція є узагальненням формули розрахунку ймовірності незалежних подій з урахуванням їх можливої взаємозалежності. Надано приклад використання цього методу. A careful analysis was carried out for the existing approaches in the medical and environmental studies for calculating the effect of the joint action of the factors. It was evaluated disadvantages of these approaches that implemented in the theory of probability and mathematical statistics. The article proposes an original method of calculating the combined effect of the factors that allows you to work with the information expressed in binary form. The final expression was designed by using approach of formal logic and probability theory.
issn 0452-9910
url https://nasplib.isofts.kiev.ua/handle/123456789/110302
citation_txt Метод определения эффектов совместного действия факторов среды в эпидемиологических исследованиях для бинарных переменных / М.Ю. Антомонов // Кибернетика и вычислительная техника. — 2015. — Вип. 182. — С. 59-69. — Бібліогр.: 12 назв. — рос.
work_keys_str_mv AT antomonovmû metodopredeleniâéffektovsovmestnogodeistviâfaktorovsredyvépidemiologičeskihissledovaniâhdlâbinarnyhperemennyh
AT antomonovmû metodviznačennâefektívsumísnoídíífaktorívnavkolišnʹogoseredoviŝavepídemíologíčnihdoslídžennâhdlâbínarnihzmínnih
AT antomonovmû methodsofdeterminationofenvironmentalfactorsjointimpactinepidemiologicalstudiesforbinarydata
first_indexed 2025-11-26T21:16:47Z
last_indexed 2025-11-26T21:16:47Z
_version_ 1850776616974680064
fulltext 59 Медицинская и биологическая кибернетика УДК 519.254:616-036.22 МЕТОД ОПРЕДЕЛЕНИЯ ЭФФЕКТОВ СОВМЕСТНОГО ДЕЙСТВИЯ ФАКТОРОВ СРЕДЫ В ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ ДЛЯ БИНАРНЫХ ПЕРЕМЕННЫХ М.Ю. Антомонов ГУ «Институт гигиены и медицинской экологии им. А.Н Марзеева НАМН Украины» Рассмотрены существующие подходы расчета эффектов совместного действия факторов, использующиеся в медико-экологических исследованиях. Оценены недостатки этих подходов, реализованных в теории вероятностей и математической статистике. Предложена оригинальная методика расчета совместного действия факторов, которая позволяет оперировать с качественной информацией, выраженной в бинарном виде. При конструировании итогового выражения использованы подходы формальной логики и теории вероятностей. Полученная функция представляет собой обобщение формулы расчета вероятности независимых событий с учетом их возможной взаимозависимости. Представлен пример использования этого метода. Ключевые слова: совместное действие факторов, вероятности независимых и взаимозависимых событий, качественные данные, бинарные переменные. Розглянуто сучасні підходи розрахунку ефектів сумісної дії факторів, які використовуються в медико-екологічних дослідженнях. Оцінено недоліки цих підходів, реалізованих в теорії ймовірностей і математичній статистиці. Запропоновано оригінальну методику розрахунку спільної дії факторів, яка дозволяє оперувати з якісною інформацією, що виражена у бінарному вигляді. При конструюванні остаточного виразу використано підходи формальної логіки і теорії ймовірностей. Одержана функція є узагальненням формули розрахунку ймовірності незалежних подій з урахуванням їх можливої взаємозалежності. Надано приклад використання цього методу. Ключові слова: сумісна дія факторів, ймовірності незалежних і взаємозалежних подій, якісні дані, бінарні змінні. ВВЕДЕНИЕ В последнее время в прикладных направлениях математического анализа данных все больший приоритет приобретает практическая направленность методов. Например, такое мощное течение как Data Mining гораздо в большей степени ориентировано на практическое приложение полученных результатов, чем на следование математическим канонам [1]. Технология Data Mining не зависит от строгого соответствия массивов данных  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 60 статистическим критериям или математическому описанию функциональных связей между переменными. Объединяя количественный и качественный анализ данных, технология нацелена на получение новых знаний и принятие решений в условиях многомерности данных и неопределенности их структуры. В дополнение к классическому регрессионному анализу, предполагающему количественный характер переменных и «нормальность» их распределений, в прикладных исследованиях активно применяются логистические регрессионные модели, являющиеся синтезом функционального и вероятностного описания. Для этих моделей могут использоваться переменные любой шкалы измерения: количественные, ранговые, бинарные и даже оцифрованные метки [2, 3]. Корреспондентский анализ, являющийся развитием корреляционного анализа, позволяет устанавливать связи между неколичественными переменными [4]. Метод Multifactor Dimensionality Reduction (MDR) позволяет описывать связи и оценивать тип взаимодействия для бинарных переменных и строить диаграммы по аналогии с кластерным анализом (для которого, как известно, переменные должны быть только количественными) [5, 6]. Таким образом, вполне оправданным и соответствующим современным тенденциям в математической статистике является разработка таких подходов для анализа данных, которые не столько отличались бы строгостью математического описания, сколько являлись бы синтезом классических приемов и были бы направлены на их практическое использование. ПОСТАНОВКА ЗАДАЧИ В медико-экологических исследованиях традиционной является задача оценки действия совместного действия совокупности неблагоприятных факторов окружающей среды на те или иные показатели здоровья. Особенно часто такая проблема возникает в эпидемиологических исследованиях при натурной регистрации выраженности тех или иных экологических и социальных характеристик. Результаты таких исследований в значительной мере основываются на соответствующей математической (статистической) обработке. В свою очередь, математическая обработка определяется типом полученных данных. В прикладной математике данные разграничиваются на четыре основных типа: количественные, ранговые, бинарные и качественные. От принадлежности к этим типам зависит выбор адекватного математического аппарата [7]. Если и воздействующие факторы {xi} и показатели здоровья {yj} относятся к количественным переменным, наиболее популярными математическими методами являются корреляционный и (или) регрессионный анализ. В рамках корреляционного анализа, как правило, рассчитываются коэффициенты парной корреляции r(xiyj). Их достоверные значения  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 61 свидетельствуют в пользу причинно-следственных связей для некоторой (устраивающей исследователя) совокупности пар: отдельный i-ый фактор среды — отдельный j-ый показатель здоровья. Значительно реже применяется расчет множественных коэффициентов корреляции, что более правильно для выявления эффектов совместного действия факторов. Но, в любом случае, выделение с помощью корреляционного анализа в результирующей реакции биосистемы составляющих, связанных именно с совместным действием факторов, крайне затруднено. Более адекватным приемом является построение регрессионных функций, описывающих зависимость исследуемых характеристик здоровья от совокупности всех учитываемых (регистрируемых) факторов окружающей среды. Эффекты совместного действия в уравнениях множественной регрессии, как правило, связываются с коэффициентами при некоторых искусственных свертках исходных переменных (чаще всего для свертки используется произведение переменных). При этом появляется возможность расчета прогнозных значений здоровья и относительного вклада каждого из исследуемых факторов. В том случае, если и воздействующие факторы, и показатели здоровья получены в ранговой шкале, адекватными методами являются ранговый корреляционный анализ или составление таблиц сопряженности. Если среда оценивается в бинарном виде, например, как «опытный» («загрязненный») и «контрольный» («условно чистый») районы, а показатели здоровья относятся к количественной шкале измерений, то традиционно применяется критерий Стьюдента. С его помощью устанавливаются различия между «чистой» и «грязной» территорией для показателей здоровья, на основании чего делается вывод о влиянии на здоровье одного фактора, обуславливающего «загрязнение», или их совокупности. Часто эффект изменения (ухудшения) здоровья регистрируется в бинарном виде («изменение есть / изменения нет»), а воздействующие факторы — в количественной шкале. В таком случае целесообразно применение дискриминантного анализа, с помощью которого строятся классификационные функции и рассчитывается вероятность ухудшения здоровья [8, 9]. Однако в практике медико-экологических исследований не всегда есть возможность получения количественной информации о загрязнении окружающей среды. Иногда информация носит качественный характер констатации самого факта загрязнения объекта исследования типа «да» — «нет». Кроме того, в ходе математического анализа данных часто возникает потребность преобразования количественных данных (если они есть) в бинарную качественную шкалу. Бинарные переменные легко преобразуются в вероятности (проценты). Иногда и сами показатели статистической отчетности также фиксируются в процентах фактов загрязнения («процент проб, превышающих гигиенический норматив»). Таким образом, задача описания результатов очень часто попадает в область применения теории вероятностей.  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 62 Цель — разработка методики определения совместного действия факторов, позволяющей оперировать с качественной (бинарной) информацией и использующей подходы и методы теории вероятностей. СОСТОЯНИЕ ПРОБЛЕМЫ Рассмотрим ситуацию, когда данные и о среде, и о здоровье получены либо в качественном виде («чистый» и «грязный» район и «хорошее» и «плохое» здоровье), либо преобразованы к такому виду, исходя из целей исследования. Традиционным и широко используемым приемом обработки такого типа данных является составление четырехпольных таблиц сопряженности с последующим подсчетом соответствующих статистических критериев различия (связности), например, χ2 Пирсона. В последнее время популярным методом обработки четырехпольных таблиц в эпидемиологии становится расчет относительного риска (RR), позволяющий оценивать «степень вредности воздействия» в относительных единицах. Однако и в первом, и во втором варианте корректно рассчитываются характеристики связности только для пар «воздействие – эффект». Для оценки совместного действия совокупности факторов приходится прибегать к вспомогательным расчетам, являющимся не всегда корректными. МЕТОД ОПРЕДЕЛЕНИЯ СОВМЕСТНОГО ДЕЙСТВИЯ ФАКТОРОВ Рассмотрим возможность использования имеющихся в классической теории вероятностей методов и формул, с помощью которых можно рассчитать совместные эффекты действия [10]. Для согласования строгих подходов теории вероятностей и предлагаемых прикладных приемов сделаем следующие допущения. Во-первых, мы не всегда будем соблюдать аксиоматику этой математической дисциплины, делая упор на утилитарном использовании основных математических формул. Во-вторых, определимся с понятием «событие» — ключевым понятием для расчета соответствующих вероятностей. Будем считать, что событием xjiy является факт одновременного наличия и действующего i-го фактора, и эффекта от его действия (т.е. заболевания –y) при j-ом измерении (регистрации медико-экологической ситуации в j-ом пункте). Если такое событие происходит, xjiy = 1, в противном случае xjiy = 0. Тогда вероятность действия i–го фактора на показатель здоровья y будет равна: ∑ = = m j jiyiy x m p 1 1 , где m — число точек регистрации.  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 63 Рассмотрим несколько вариантов расчета вероятности совместного действия разных факторов. 1. Наиболее простой для нашей цели в теории вероятностей является формула расчета вероятности совместного действия независимых событий. В соответствии с ней вероятность XyP совместного действия независимых событий {xi} = X на произвольную характеристику здоровья (y) будет выглядеть следующим образом: XyP =1- (1-p1y) (1-p2y) … (1-pny)= )1(1 ,1 ∏ = −− n i iyp , (1) где n — количество действующих факторов. Главные недостатки применения этой формулы в медико-экологических исследованиях следующие. Само предположение о независимости действующих факторов вряд ли оправдано, поскольку, как правило, объекты исследования, значительно «загрязненные» одним из факторов, оказываются «загрязненными» и другими факторами. Это приводит к их достоверной множественной корреляции, что неоднократно выявлялось на анализируемых массивах данных. Формула очень чувствительна к количеству факторов. Если имеются незначительные частные вероятности возникновения эффектов, только слегка (и недостоверно) превышающие неопределенность (например, 51%), то уже для n = 3 итоговая вероятность приближается к 90%, а при n = 5 достигает 97%. При больших частных вероятностях, даже при учете двух-трех факторов, вероятность эффекта становится практически стопроцентной. 2. Другим вариантом расчета совместного действия является привлечение понятия «условной вероятности». В таком случае событием — причиной, можно считать одновременное действие всех n факторов, а возникновение результата (например, заболевания) считать зависимым от этой причины. Вероятность одновременного действия n факторов подсчитывается как отношение суммы событий наличия всех действующих факторов xn к числу измерений m: )(XP = m xx m n m j n i ji =∑∑ = =1 1 1 . При этом суммарное xn = 1, если все xi = 1 (логическое перемножение). Вероятность совместного проявления и совокупности факторов, и наступления эффекта (результата) запишется аналогичным образом: )(XyP = m x x m ny m j n i jiy =∑∑ = =1 1 1 . В этой формуле также xny = 1, если все xiy = 1.  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 64 Тогда условная вероятность P(yX) в соответствии с известной формулой теории вероятностей будет равна: ( ) )( )( XP XyPXyP = . (2) Недостаток использования такого подхода тот же, что и для предложенного ранее варианта, а именно — предположение независимости действия факторов, т.е. отсутствие в формулах эффектов взаимодействия факторов. Следовательно, можно предположить, что рассчитанная таким образом условная вероятность будет меньше, чем гипотетическая «правильная» вероятность, которая должна быть дополнена добавкой, вызванной эффектами взаимодействия. 3. Если изначально предположить взаимозависимость (совместность) эффектов действия различных факторов, то можно воспользоваться формулами произведения событий. При действии двух факторов формула будет иметь вид: yPΣ =p1y+p2y –p1y+2y, (3) где p1y+2y — означает вероятность либо события p1y, либо события p2y (вероятность суммы двух событий или логическое сложение). Для трех факторов имеем: yPΣ =p1y+p2y+ p3y –p1y+2y–p1y+3y–p2y+3y+p1y+2y+3y. (4) Недостатком использования такого подхода является значительное усложнение формулы для большего количества факторов, поскольку в нее входят вероятности сумм двух, трех и т.д. событий. Таким образом, приходим к выводу, что использовать непосредственно формулы (1), (2) или (3) либо некорректно, либо слишком сложно. В связи с этим нами была предпринята попытка модернизации этих формул. При этом будем основываться на формуле (1), но дополним ее, используя следующие соображения (постулаты). 1. Увеличение вероятности yPΣ при увеличении количества сомножителей (факторов) n должно происходить более инерционно, чем в исходной формуле. 2. В формуле должна учитываться возможная связь факторов между собой. При наличии такой связи yPΣ , рассчитанная по классической формуле, должна уменьшаться, поскольку совместное действие «выбирает на себя» часть от совокупности эффектов независимого действия. При отсутствии совместных взаимодействий факторов формула должна приобретать традиционный вид. 3. Поскольку мы предположили, что исходные данные имеют бинарный вид, мерой такой связности могут быть условные межфакторные вероятности pik наличия i-го фактора в присутствии k-го фактора (где i ≠ k).  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 65 4. Общая вероятность не должна быть меньше максимальной частной вероятности. То есть, если «наиболее вредный» k-ый фактор вызывает ухудшение здоровья с вероятностью pk = pmax то yPΣ > pmax. При конструировании итоговой формулы будем использовать подходы формальной логики и теории вероятностей [11, 12]. А именно, если piy — вероятность действия i-го фактора на показатель здоровья y, то его дополнение (1 - piy) — вероятность «недействия». Произведение вероятностей событий означает вероятность их совместного наступления. Например, в «классической» формуле )1(1 ,1 ∏ = Σ −−= n i iyy pP каждый из сомножителей (1 - piy) означает «недействие» i-го фактора, их произведение — совместное «недействие», а дополнение к произведению — вероятность совместного действия. Вероятность совместного наличия любого из факторов i и максимально действующего k запишется как pik, где i=1,…,k,…, n. Его дополнение (1 - pik.) имеет смысл вероятности «отсутствия совместного наличия этих факторов». Произведение этой скобки на piy , т.е piy(1 - pik), означает одновременное действие i-го фактора на показатели здоровья (заболеваемость) и независимость любого из i-ых факторов от k-го фактора. Соответственно, дополнение к этому произведению (1 - piy(1 - pik)) имеет смысл «недействия» i-го фактора с учетом его связности с k–ым фактором, т.е. «совместного зависимого недействия» факторов i и k. Далее, перемножая эти скобки для всех факторов, получаем вероятность «совместного зависимого недействия» для некоторой совокупности воздействующих факторов. Выделим максимально действующий фактор, и скобку с его «недействием» вынесем за знак произведения. Тогда совместное недействие всех факторов, включая максимально «вредный», запишется в следующем виде: ))1(1()1( 1 ,1 ik n kii iyky ppp ∏ − ≠= −−− . Соответственно, дополнение к этому выражению будет иметь смысл вероятности совместного действия всех факторов с учетом их связи с наиболее действующим, то есть в предположении их зависимого действия. Итак, получаем итоговую формулу: ))1(1()1(1 1 ,1 ik n kii iykyy pppP ∏ − ≠= Σ −−−−= . (5)  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 66 Очевидно, что при наличии полной независимости всех факторов от ведущего, т.е. при pik = 0, формула приобретает «классический» вид (1). Если хоть одна из вероятностей pik ≠ 0, итоговая вероятность по (5) будет меньше вероятности, рассчитанной по (1). При условии полной зависимости всех остальных факторов от «ведущего» (pik =1), вероятность их «совместного действия» определяется только одним «ведущим» фактором ( kyy pP =Σ ). ПРИМЕР РАСЧЕТА СОВМЕСТНОГО ДЕЙСТВИЯ НЕСКОЛЬКИХ ФАКТОРОВ Пусть в девяти пунктах наблюдения регистрировалось наличие трех (n = 3) вредных факторов среды (x1, x2, x3) и одного показателя здоровья (y). Выраженность переменных кодировалась в бинарном виде: «1» — значимая вредность факторов (например, превышение нормативного значения) или достоверное ухудшение здоровья (например, по сравнению со среднестатистическими значениями); 0 — отсутствие вредности факторов и ухудшения здоровья (табл. 1). Таблица 1. Бинарное представление медико-экологической информации Факторы среды N пункта наблюдения x1 x2 x3 Показатель здоровья (y) 1 1 1 1 1 2 0 1 1 0 3 1 1 1 1 4 1 1 1 1 5 1 0 1 1 6 1 1 0 1 7 1 0 1 1 8 1 0 1 0 9 1 1 1 0 Событием для расчета вероятностей будем считать совпадения «1» для каждой переменной в сравниваемых столбцах. Вероятность рассчитывается как отношение сумм этих совпадений к количеству замеров (в данном случае, пунктов наблюдения). Тогда, в соответствии с таблицей число совпадений «1» для факторов x1 и x2 равно 5. Соответственно, p12 = 5/9 = 0,56. Вероятности связи наличия факторов и ухудшения здоровья будут равны: p1y = 0,67, p2y = 0,44, p3y = 0,56. Максимальной будет вероятность действия первого фактора p1y = pmax =0,67, поэтому назовем его «ведущим» фактором (pky). Вероятности одновременного наличия в пунктах наблюдения этого фактора и двух других равны соответственно: p12 = 0,56, p13 = 0,78. Вероятность совместного действия всех трех факторов на здоровье по предлагаемой формуле (5) будет равна: ΣP = 1 - (1 - 0,67)[1 - (1 - 0,56) * 0,44] * [1 - (1 - 0,78) * 0,56] = = 1 - 0,33 * (1 - 0,44 * 0,44) * (1 - 0,22 * 0,56) = 1 - 0,33 * 0,81 * 0,88 = = 1 - 0,14 = 0,76.  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 67 Для сравнения: по формуле для независимых событий (1) вероятность равна yPΣ = 0,92, по формуле для условной вероятности (2) — yPΣ = 0,75, по формуле (3) — yPΣ =0,33. Видно, что вероятность, рассчитанная по формуле (5), находится в интервале между вероятностью изолированного действия наиболее существенного из факторов (нижняя граница) и совместной вероятностью независимого действия (1) всех факторов (верхняя граница), что отвечает сформулированным изначально условиям. Формулы (2) и (3) дают неправильные и явно заниженные результаты, поскольку вероятности, рассчитанные по ним, меньше, чем вероятность изолированного действия наиболее вредного фактора. ВЫВОДЫ Показана неадекватность применения методов оценки вероятности совместного действия факторов, используемых в теории вероятностей и математической статистике. Предложена оригинальная формула расчета вероятности совместного действия факторов, учитывающая их возможную взаимосвязь. При наличии полной независимости всех факторов от ведущего, формула приобретает «классический» вид для расчета совместной вероятности независимых событий. Если имеется хоть одна взаимосвязь, вероятность, рассчитанная по предлагаемой формуле, будет меньше «классической». При условии полной зависимости всех остальных факторов от ведущего, вероятность их совместного действия определяется только максимальной вероятностью эффекта. 1. Дюк В. А., Самойленко А. П. Data Mining. Учебный курс — СПб, 2001. — 368 с. 2. David W. Hosmer, Stanley Lemeshow Applied Logistic Regression, 2nd ed. — New York, Chichester, Wiley, 2002. — 383p. 3. Наследов А. Н. SPSS 19: Профессиональный статистический анализ данных — СПб, 2011. — 400 с. 4. Greenacre M. Correspondence Analysis in Practice, 2nd ed. — London: Chapman & Hall/CRC, — 2007. — 280 p. 5. Multifactor-dimensionality reduction reveals high-order interactions among estrogen- metabolism genes in sporadic breast cancer. / M.D. Ritchie, L.W. Hahn, N. Roodi & others // Am J Hum Genet. — 2001 Jul;69(1):138-47. 6. Hahn L.W., Ritchie M.D., Moore J.H. Multifactor dimensionality reduction software for detecting gene-gene and gene-environment interactions//Bioinformatics. — 2003 Feb 12;19(3):376-82 7. Орлов А. И. Прикладная статистика — М.: Изд-во «Экзамен» — 2004. — 656 с. 8. Антомонов М.Ю. Математическая обработка и анализ медико-биологических данных – К.: Изд-во „Малий друк”, — 2006. — 558с. 9. Гайдышев И. Анализ и обработка данных — Спб. — 2001. — 750 с. 10. Вентцель Е. С. Теория вероятностей. 10-е изд., стер.. — М.: «Академия», — 2005. — 576 с. 11. Гнеденко Б. В., Хинчин А. Я. Элементарное введение в теорию вероятностей — 1970. — 168с.  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 68 12. Новиков П. С. Элементы математической логики. 2-ое изд. — М.: Наука, 1973. — 400 с. UDC 519,254: 616-036.22 THE METHOD OF DETERMINATION OF ENVIRONMENTAL FACTORS JOINT IMPACT IN EPIDEMIOLOGICAL STUDIES FOR BINARY DATA M.Yu. Antomonov State Institution "O.N. Marzeev Institute for Hygiene and Medical Ecology of NAMS of Ukraine" (Kiev) Introduction. Modern approaches for data analysis combine classical methods and focused on their practical application. Sometimes the information is presented in the form of qualitative characteristics that are characterize the contamination of the research object. Such binary variables are easily transformed into a probability (in percent), so the task description of results performed using probability theory. The purpose of the article is to develop such a common method for calculation joint action of the factors that would allow to operate with qualitative (binary) information and would use techniques and formulas of probability theory Results. A careful analysis was carried out for the existing approaches in the medical and environmental studies for calculating the effect of the joint action of the factors. It was evaluated disadvantages of these approaches that implemented in the theory of probability and mathematical statistics. The article proposes an original method of calculating the combined effect of the factors that allows you to work with the information expressed in binary form. The final expression was designed by using approach of formal logic and probability theory. Conclusions. It is shown that the known methods of probability theory cannot be adequately used to evaluate the combined effect of the factors. The original method of calculating the probability of the joint action of factors that take into account their possible connection is described. Keywords: qualitative data, binary variables, joint effect of the factors, the probability of independent and interdependent events. 1. Duke V. A. Samoilenko A. P. Data Mining. Training — SPb, 2001. — 368p. 2. David W. Hosmer, Stanley Lemeshow Applied Logistic Regression, 2nd ed. — New York, Chichester, Wiley. 2002. — 383p. 3. Nasledov A. N. SPSS 19: Professional statistical analysis. — SPb, 2011. — 400 p. 4. Greenacre M. Correspondence Analysis in Practice, 2nd ed. — London: Chapman & Hall / CRC — 2007. — 280 p. 5. Ritchie M. D., Hahn L. W., Roodi N., Bailey L. R., Dupont W. D., Parl F. F., Moore J. H. Multifactor-dimensionality reduction reveals high-order interactions among estrogen- metabolism genes in sporadic breast cancer. Am. J. Hum. Genet. 2001 Jul; 69 (1): 138-47. 6. Hahn L. W., Ritchie M. D., Moore J. H. Multifactor dimensionality reduction software for detecting gene-gene and gene-environment interactions//Bioinformatics. 2003 Feb 12; 19 (3): 376-82 7. Orlov A. I. Applied Statistics — M .: Publisher "Exam", 2004. — 656 p. 8. Antomonov M. Y. Mathematical processing and analysis of medical-biological data. — Kiev: Publishing house "Malii Druk", 2006. — 558p.  М.Ю. Антомонов, 2015 ISSN 0452-9910. Кибернетика и вычисл. техника. 2015. Вып. 182 69 9. Gaydyshev I. Analysis and data processing — St. Petersburg, 2001. — 750p. 10. Wentzel E. S. Probability 10th ed., Sr — M.: "Academy", 2005. — 576 p. 11. Gnedenko B. V., Khinchin A. Y. An elementary introduction to the theory of probability, 1970. — 168p. 12. Novikov P. S. Elements of mathematical logic. 2nd ed. — M .: Nauka, 1973 — 400 p. Получено 02.06.2015