Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження

The article tries to prove heuristic potential of the Decision Tree Method in analyzing data of the comparative sociologic research “The Ukrainians and Russians: Looking at Each Other”, which was done on the initiative of the Institute of Russian Studies, in Russia by the company GfK RUS from June 2...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Социология: теория, методы, маркетинг
Datum:2009
Hauptverfasser: Боровський, О., Літвінов, С.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Iнститут соціології НАН України 2009
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/89988
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження / О. Боровський, С. Літвінов // Социология: теория, методы, маркетинг. — 2009. — № 4. — С. 115–127. — Бібліогр.: 12 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-89988
record_format dspace
spelling Боровський, О.
Літвінов, С.
2015-12-20T18:40:11Z
2015-12-20T18:40:11Z
2009
Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження / О. Боровський, С. Літвінов // Социология: теория, методы, маркетинг. — 2009. — № 4. — С. 115–127. — Бібліогр.: 12 назв. — укр.
1563-4426
https://nasplib.isofts.kiev.ua/handle/123456789/89988
The article tries to prove heuristic potential of the Decision Tree Method in analyzing data of the comparative sociologic research “The Ukrainians and Russians: Looking at Each Other”, which was done on the initiative of the Institute of Russian Studies, in Russia by the company GfK RUS from June 27 until July 11, 2008, in Ukraine — by the company GfK Ukraine from June 19 until July 7, 2008. The main task of the Decision Tree is to display and visualize a covered categorical data structure, as if it were peculiar to them, to analytical separation of empirical data by statistical methods. By the use of the Decision Tree Method the authors have succeeded to build portraits of the respondents and discover from the structure of massifs the most dependent variables. Thus the authors conclude that in Ukraine regional and socio-cultural factors are the most important determinant when evaluating relations with Russia and in Russia socio-demographical characteristics of respondents are more significant.
uk
Iнститут соціології НАН України
Социология: теория, методы, маркетинг
Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження
Специфика применения метода деревьев решений в анализе массива данных на примере сравнительного исследования
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження
spellingShingle Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження
Боровський, О.
Літвінов, С.
title_short Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження
title_full Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження
title_fullStr Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження
title_full_unstemmed Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження
title_sort специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження
author Боровський, О.
Літвінов, С.
author_facet Боровський, О.
Літвінов, С.
publishDate 2009
language Ukrainian
container_title Социология: теория, методы, маркетинг
publisher Iнститут соціології НАН України
format Article
title_alt Специфика применения метода деревьев решений в анализе массива данных на примере сравнительного исследования
description The article tries to prove heuristic potential of the Decision Tree Method in analyzing data of the comparative sociologic research “The Ukrainians and Russians: Looking at Each Other”, which was done on the initiative of the Institute of Russian Studies, in Russia by the company GfK RUS from June 27 until July 11, 2008, in Ukraine — by the company GfK Ukraine from June 19 until July 7, 2008. The main task of the Decision Tree is to display and visualize a covered categorical data structure, as if it were peculiar to them, to analytical separation of empirical data by statistical methods. By the use of the Decision Tree Method the authors have succeeded to build portraits of the respondents and discover from the structure of massifs the most dependent variables. Thus the authors conclude that in Ukraine regional and socio-cultural factors are the most important determinant when evaluating relations with Russia and in Russia socio-demographical characteristics of respondents are more significant.
issn 1563-4426
url https://nasplib.isofts.kiev.ua/handle/123456789/89988
citation_txt Специфіка застосування методу дерев рішень в аналізі масиву даних на прикладі порівняльного дослідження / О. Боровський, С. Літвінов // Социология: теория, методы, маркетинг. — 2009. — № 4. — С. 115–127. — Бібліогр.: 12 назв. — укр.
work_keys_str_mv AT borovsʹkiio specifíkazastosuvannâmetoduderevríšenʹvanalízímasivudanihnaprikladíporívnâlʹnogodoslídžennâ
AT lítvínovs specifíkazastosuvannâmetoduderevríšenʹvanalízímasivudanihnaprikladíporívnâlʹnogodoslídžennâ
AT borovsʹkiio specifikaprimeneniâmetodaderevʹevrešeniivanalizemassivadannyhnaprimeresravnitelʹnogoissledovaniâ
AT lítvínovs specifikaprimeneniâmetodaderevʹevrešeniivanalizemassivadannyhnaprimeresravnitelʹnogoissledovaniâ
first_indexed 2025-11-24T08:41:30Z
last_indexed 2025-11-24T08:41:30Z
_version_ 1850843919658516480
fulltext Олексій Бо ро вський, Сергій Літвінов Спе цифіка за сто су ван ня ме то ду де рев рішень в аналізі ма си ву да них ОЛЕКСІЙ БОРОВСЬКИЙ, êàí äè äàò ñîö³îëîã³÷íèõ íàóê, àñèñ òåíò êà - ôåä ðè ãà ëó çå âî¿ ñîö³îëî㳿 Êè¿âñüêî ãî íàö³î - íàëüíîãî óí³âåð ñè òå òó ³ìåí³ Òà ðà ñà Øåâ ÷åí êà СЕРГІЙ ЛІТВІНОВ, êàí äè äàò ñîö³îëîã³÷íèõ íàóê, àñèñ òåíò êà - ôåä ðè ãà ëó çå âî¿ ñîö³îëî㳿 Êè¿âñüêî ãî íàö³î íà - ëü íî ãî óí³âåð ñè òå òó ³ìåí³ Òà ðà ñà Øåâ ÷åí êà Спе цифіка за сто су ван ня ме то ду де рев рішень в аналізі ма си ву да них на при кладі порівняль но го досліджен ня Abstract The article tries to prove heuristic potential of the Decision Tree Method in analyzing data of the comparative sociologic research “The Ukrainians and Russians: Looking at Each Other”, which was done on the initiative of the Institute of Russian Studies, in Russia by the company GfK RUS from June 27 until July 11, 2008, in Ukraine — by the company GfK Ukraine from June 19 until July 7, 2008. The main task of the Decision Tree is to display and visualize a covered categorical data structure, as if it were peculiar to them, to analytical separation of empirical data by statistical methods. By the use of the Decision Tree Method the authors have succeeded to build portraits of the respondents and discover from the structure of massifs the most dependent variables. Thus the authors conclude that in Ukraine regional and socio-cultural factors are the most important determinant when evaluating relations with Russia and in Russia socio-demographical characteristics of respondents are more significant. Вступ Останнім ча сом в інфор маційно му про сторі Украї ни та Росії спос те - рігається суттєве зрос тан ня інте ре су до про блем міждер жав ної взаємодії Соціологія: теорія, ме то ди, мар ке тинг, 2009, 4 115 двох країн і ролі гро ма дської дум ки в цих відно си нах. Актуалізація цьо го яви ща зу мов ле на як по си лен ням політич них су перечнос тей, так і низ кою соціаль них при чин. У книжці, при свя ченій досліджен ню національ но-гро - ма дя нських іден тич нос тей і то ле ран тності в Росії й Україні, се ред соціаль - них чин ників на зва но де далі більші міжетнічні су перечності і соціаль ну дезорієнтацію лю дей за умов ціннісно-нор ма тив ної не виз на че ності й ано - мійної де мо ралізо ва ності знач ної час ти ни на се лен ня [На ци ональ но-граж - дан ские иден тич нос ти, 2007: с. 25]. Таке ста но ви ще більшості на се лен ня, безумовно, має впли ва ти на оцінку в ма совій свідо мості місця і ролі мі ж - державних відно син. Прак тич ний інте рес для нас ста но вить аналіз гро - мадської дум ки у двох краї нах, а та кож ме то до логічні особ ли вості аналізу да них порівняль но го соціологічно го досліджен ня, реалізо ва но го ав то ра ми цієї публікації. Гро ма дська дум ка пев ною мірою де терміно ва на постійни ми повідом - лен ня ми укр аїнських і російських соціологічних центрів, котрі, як пра ви ло, под а ють кількісний аналіз од но вимірних і дво вимірних роз поділів від по - відей рес пон дентів на за пи тан ня. Такі ре зуль та ти, втім, не да ють цілісної кар ти ни співвідно шен ня між дво ма об’єкта ми порівнян ня. Не поміче ною за - ли шається безліч соціаль них чин ників, пер шою чер гою соціокуль тур них відміннос тей і національ них особ ли вос тей фор му ван ня гро ма дської думки. За та ких умов прак тич но го зна чен ня на бу ває ме тод аналізу, за сто со ву - ва ний у про цесі кла сифікації ве ли кої кількості не однорідних соціаль них да - них. У про по но ваній статті здійсне но спро бу обґрун ту ван ня ев рис тич но го по тенціалу ме то ду “де рев кла сифікації” (або “де рев рішень”) в аналізі ма си ву да них порівняль но го соціологічно го досліджен ня “Українці і ро - сіяни: по гляд один на од но го”, про ве де но го у 2008 році за ініціати ви Інсти - ту ту вив чен ня Росії. Що таке “де ре ва кла сифікації”? “Де ре ва кла сифікації” (classification trees) — порівня но мо ло дий ме тод data meaning, одна із ев рис тич них про це дур гли бин но го аналізу да них. Перші кро ки в цьо му на прямі були зроб лені на прикінці 50-х років XX століття Гов лен дом і Ган том. За са до вою сто сов но ме то ду де рев вва жається пізніша пра ця Ган та, Меріна і Сто у на “Індук тивні ек спе ри мен ти” (Experi - ments in Induction), опубліко ва на 1966 року. Уже в 1980-х і особ ли во у 1990-х ал го рит ми де рев кла сифікації ста ли по пу ляр ним інстру мен том біо - ло гічних і ме дич них досліджень, а та кож мо вою мо де лю ван ня про це су при - й нят тя рішень у на уках про управління (див.: [Де ревья клас си фи ка ции, s. a.]). Прог рамні про дук ти, що реалізу ють цей ме тод, у наш час закріпи ли ся в на борі за собів “до бу ван ня даних”. Іноді classification trees відно сять до ал го ритмів так зва но го інте лек ту - аль но го аналізу, що пе ре дба чає діало го вий ре жим і ав то ма ти зацію про це су по шу ку опти маль но го рішен ня (див.: [Classification, s. a.]). У ком пе тенції ко рис ту ва ча за ли шається ко рек тне фор му лю ван ня за вдан ня, вибір най - адекватніших ста тис тич них кри теріїв, кон троль про це су ав то ма ти зо ва но го опра цю ван ня й інтер пре тація от ри ма них ре зуль татів. 116 Соціологія: теорія, методи, маркетинг, 2009, 4 Олексій Бо ро вський, Сергій Літвінов Ме тод “де рев кла сифікації” поєднує пе ре ва ги ал го ритмів, реалізо ву ва - них на су часній об чис лю вальній техніці, з твор чою учас тю лю ди ни у підго - товці вихідних да них, фор му лю ванні гіпо тез, у те о ре тич но му осмис ленні про дук ту ав то ма ти зо ва ної кла сифікації — ґрафа (“де ре ва”) рішен ня. Ця особ ливість має як плю си, так і мінуси. До пер ших слід віднес ти гнучкість ме то ду сто сов но вихідних да них, мож ливість ви ко рис тан ня різних ста тис - тич них кри теріїв для кла сифікації, на очність і доб ру інтер пре товуваність де ре ва рішень. До дру гих — ста тис тич ну “слабість” ре зуль та ту, відсутність кри теріїв надійності кла сифікації да них, функцію роз поділу яких було б вив че но і та буль о ва но. Відтак, ме тод де рев кла сифікації слід вва жа ти розвідниць ким. Його не мож на ви ко рис то ву ва ти у тра диційно му конфірма - тор но му підході щодо до ве ден ня ста тис тич них гіпо тез. Нав па ки, ре зуль та - ти ав то ма тич ної кла сифікації по лег шу ють фор му лю ван ня їх. Одна че коло за вдань цьо го ме то ду на ба га то шир ше за його суто тех но логічне за сто су ван - ня. Го лов не за вдан ня де ре ва рішен ня — ви я ви ти й візуалізу ва ти при хо ва ну ка те горіаль ну струк ту ру да них, влас ти ву їм, так би мо ви ти, са мим по собі, до аналітич но го роз чле ну ван ня ста тис тич ним скаль пе лем. Тому ко рек тне ви - ко рис тан ня classification trees дає змо гу не лише за оща ди ти масу часу і ре - сурсів, а й до сяг ти якісно іншо го рівня по яс нен ня емпірич них за леж нос тей (див.: [Бе рес тне ва, Му ра то ва, 2004]). По щаб ле ва кла сифікація об’єктів за ба гать ма змінни ми-пред ик то ра ми, реґресія за леж ної змінної, фор му лю ван - ня кількісних умов до бо ру об’єкта в одну із за зда легідь ви ок рем ле них груп за спос те ре жу ва ни ми зна чен ня ми тес то вих змінних — це да ле ко не по вний пе релік за сто су вань ме то ду де рев. Що сто сується сут ності й різно видів ме - то ду, то ми відси лаємо чи та ча до відповідної ме то до логічної літе ра ту ри (див., напр.: [Эффек тив ная сег мен та ция, s.a.; Classification, s.a.; Tsien, Fraser et al., s.a.]). Основ на ідея ме то ду Спинімося ко рот ко на го ловній ідеї де рев рішень. Вона по ля гає в та ко - му. Не хай за да но мно жи ну з ознак, кван тифіко ва них чис ло ви ми змінни - ми — інтер валь ни ми, по ряд ко ви ми чи номіна льни ми. Одну із цих ознак (вона має бути ка те горіаль ною) ми роз гля даємо як за леж ну, а реш ту n – 1 — як пред ик то ри варіації її зна чень. Взаємний вплив не за леж них змінних одна на одну нас не ціка вить. Ми маємо намір ви ок ре ми ти змінну, яка дає змо - гу що най кра ще згру пу ва ти об’єкти, які різнять ся за за леж ною змінною (за цільо вим па ра мет ром). Інши ми сло ва ми, знай ти змінну, гру пу ван ня за якою вмож лив лює вирізнен ня підмно жин об’єктів, котрі мак си маль но різ - ни ти муть ся за варіацією цільо во го па ра мет ра все ре дині підмно жин. Знай - шов ши таку змінну, ми роз гля даємо от ри мані k1 підмно жин як цільові па ра - мет ри дру го го рівня, а реш ту n – 2 не за леж них змінних — як пред ик то ри цільо вих па ра метрів. Потім про це ду ра по вто рюється в кож но му із k1 ви - падків. Ми от ри муємо k2 цільо вих па ра метрів треть о го рівня тощо ki па ра - метрів i + 1-го рівня. Ґраф підмно жин роз га лу жується доти, доки гру пи виокремлюваних об’єктів ста нуть за над то ма ли ми чи бу дуть ви чер пані всі n – 1 вихідних пред ик торів. При цьо му на де реві відоб ра жа ють ся лише ті Соціологія: теорія, ме то ди, мар ке тинг, 2009, 4 117 Спе цифіка за сто су ван ня ме то ду де рев рішень в аналізі ма си ву да них гру пи об’єктів (і кла сифікаційні змінні), котрі зна чи мо різнять ся за ва - ріацією за леж ної озна ки. Відповідно, ті “гілки” i-го рівня, які не вда сться розділити на зна чи мо відмінні підмно жи ни жод ним із n – i пред ик торів, ури ва ють ся. Рис. 1. Умов ний при клад де ре ва рішен ня, по бу до ва но го за ме то дом CHAID На на ве де но му ґрафі за леж на змінна A — ди хо томічна. У теорії де рев рішень вона має на зву цільо вої змінної (па ра мет ра) або мітки кла су. Цільо - ва змінна є вер ши ною роз га лу жен ня. Ви ок рем лю вані ал го рит мом підгру пи утво рю ють вуз ли ґрафа. Вуз ли ви ок рем лю ють ся на підставі умо ви (пра ви - ла) до бо ру зна чень не за леж ної змінної ат ри бу та. Так, у де реві рішен ня на рис. 1 вуз ли пер шо го по ряд ку ви ок рем лю ють ся ат ри бу том B за пра ви лом: якщо B(j) = 1, то об’єкт j на ле жить підмно жині G11; якщо B(j) = 2 — підмно - жині G12; якщо B(j) = 3, об’єкт на ле жить до підмно жи ни G13. Підмно жи ни пер шо го вуз ла цілко ви то ви чер пу ють со бою вихідну мно жи ну (вибірку) G(A) = G11 ∪ G12 ∪ G13, а пра ви ло опи сує всі зна чен ня ат ри бу та B. Номіна - льна змінна B на бу ває зна чен ня 1, 2, 3; по ряд ко ва С — цілі зна чен ня від 1 до 5; інтер валь на змінна D змінюється в меж ах від 0 до 10. Підібра не ал го рит мом пра ви ло роз поділяє об ласть зна чень D на три інтер ва ли, що не пе ре ти на ють - ся. Відга лу жен ня вузлів пер шо го рівня утво рю ють вуз ли дру го го рівня, тож дочірні підмно жи ни, утво рені за спе цифічним для кож но го вуз ла пер шо го по ряд ку пра ви лом, цілком ви чер пу ють со бою вихідну мно жи ну. На ри сун - ку 1 гілка ури вається, а вуз ли G11 і G12 роз щеп лю ють ся на вуз ли дру го го 118 Соціологія: теорія, методи, маркетинг, 2009, 4 Олексій Бо ро вський, Сергій Літвінов рівня за пра ви лом для ат ри бу та C (G11) та ат ри бу та D (G12). Кінцеві вуз ли де ре ва G13, G21, G22, G23, G24, G25 на зи ва ють ся вуз ла ми рішен ня, або по е - тичніше — лис та ми. Інтер пре тація де ре ва рішен ня у цьо му умов но му при - кладі та кож до волі про ста. Найбільшу “поділову силу” сто сов но час тки озна ки А має ат ри бут B, що утво рює вуз ли пер шо го по ряд ку. Тому його мож на вва жа ти найбільш зна чи мим для варіації A. Іна кше ка жу чи, роз поділ A більше за ле жить від В, ніж від С чи D, точніше, за ле жить від В пер шою чер - гою (про “вплив” тут мож на го во ри ти лише в не стро го му й дуже ши ро ко му смислі сло ва). Крім того, за ґра фом лег ко ви ок ре ми ти різно манітні пі д - групи із відмінними се редніми час тка ми цільо во го па ра мет ра. Мак си мум p(A) = 0,99 мож на спос терігати в підгрупі G25, що виділяється за пра ви лом “B = 2 і D > 7,5”. Абсолютний мінімум p(A) = 0,99 до ся гається в підгрупі (пра ви ло “B = 2 і 4,5 ≤ D ≤ 7,5”). Слід та кож звер ну ти ува гу на мінімум p(A) = 0,1 у листі G22 (“B = 1 і С < 5”). Інші лис ти мож на впо ряд ку ва ти за міткою кла су між мініму мом і мак си му мом. Що сто сується якості от ри ма но го де ре ва рішен ня, то воно має дві скла - дові — точність і надійність. Точність кла сифікації при род ним чи ном мож на оцінити за відсот ком пра виль но кла сифіко ва них об’єктів. В окре мих ви пад - ках, на прик лад при аналізі ме дич них да них, важ ливість пра виль ної кла - сифікації не одна ко ва для різних вузлів. Для вра ху ван ня цих відміннос тей ви ко рис то ву ють по нят тя апріорної ймовірності й ціни по мил ки кла си фіка - ції [Де ревья клас си фи ка ции, s. a.]). Ми не бу де мо їх роз гля да ти; за ува жи мо лише: якщо об ра ти про порційні ве ли чині класів апріорні ймовірності, а ціну по мил ки для всіх класів вва жа ти одна ко вою, то мірою якості кла сифікації буде час тка пра виль но кла сифіко ва них об’єктів. Дру гу скла до ву якості рішен ня, надійність, оцінити куди складніше. Ста тис тич них кри теріїв для цьо го про сто не існує. У праці [Рос тов цев, s. a.] про по нується ви ко рис то ву - ва ти бут среп, ме то ди ки роз мно жен ня вихідної вибірки, щоби на підставі об - чис лю валь них про це дур, а не гра нич них ап рок си мацій пе ревірити сталість де ре во подібної кла сифікації, а отже – її надійність. Сфе ра за сто су ван ня, ви мо ги і мож ли вості “де ре ва кла сифікації” Як ви ко рис то ву ва ти ре зуль та ти аналізу де ре ва рішен ня? Основ них за - сто су вань три. 1. Опис да них. Отри ма ний ґраф зруч но ви ко рис то ву ва ти замість ба гать ох таб лиць для уна оч нен ня струк ту ри да них. 2. Кла сифікація об’єктів і по бу до ва ієрархії змінних-кри теріїв кла си фіка - ції. Зручність де ре ва рішен ня для цієї мети оче вид на. 3. Якщо мітка кла су кон ти ну у маль на, де ре ва рішень да ють змо гу вста но - ви ти за лежність цільо вої змінної від не за леж них пред ик торів. До цьо го кла су на ле жать за вдан ня чи сель но го за вба чен ня зна чень цільо вої змін - ної (реґресія). Соціологія: теорія, ме то ди, мар ке тинг, 2009, 4 119 Спе цифіка за сто су ван ня ме то ду де рев рішень в аналізі ма си ву да них Мож на ба чи ти, що сфе ра за сто су ван ня ме то ду “де рев кла сифікації” пе - ре ти нається із ме то да ми дис криміна нтно го аналізу (якщо цільо ва змінна ди хо томічна), клас тер но го аналізу, дис персійно го і по ряд ко во го реґре сій - но го аналізу. Але його пе ре ва га крім більшої на очності по ля гає ще й у мож - ли вості од но час но го роз в’я зан ня кількох за дач на підставі од но го де ре ва. Крім того, ме тод пе ре дба чає мен шу фор малізацію й кон кре ти зацію по чат - ко вих умов, що ро бить його гнучкішим і при ваб ливішим для прак тич но - го ви ко рис тан ня. Ті самі пе ре ва ги за без пе чу ють пер спек тивність “де рев рішень” як інстру мен ту соціологічно го аналізу ан кет них да них [Рос тов цев, s. a. ; Тол сто ва, 2000; Укра ин ское об щес тво, 2007]. Стис лий опис да них, як і по бу до ва емпірич ної кла сифікації, на ле жить до на й важ ливіших про блем опра цю ван ня да них, якщо дані яв ля ють со бою набір мно жи ни змінних різно го рівня кван тифікації, за леж ності і відно шен - ня між ними a priori не виз на чені. Тому на пер шо му етапі опра цю ван ня — до ви су ван ня ста тис тич них гіпо тез — до реч на розвіду валь на стра тегія аналізу. Однією з можливих її реалізацій є за сто су ван ня гру пи ме тодів classification tree. Деякі ав то ри ре ко мен ду ють ви ко рис то ву ва ти “де ре ва рішень” там, де не обхідно от ри ма ти од но значні ре ко мен дації на підставі емпірич но об чис - ле них пра вил, на прик лад для ви дачі кре дитів, опе ра тив ної діаг нос ти ки хво - рих тощо [На ци о наль но-граж дан ские иден тич нос ти, 2007; Classification, s.a.]. Ба зові ал го рит ми Нині вже за про по но ва но низ ку кри теріїв, за яки ми мож на оцінити значимість відміннос тей, а та кож ал го ритмів по бу до ви ґрафа кла сифіка - ції. Існує чи ма ло ал го ритмів, які реалізу ють “де ре ва рішень”, на прик лад, NewId, ITrule, CN2 тощо. Але на й по ши ренішими є такі ал го рит ми (див.: [Де ревья клас си фи ка ции, s. a.; Де ревья ре ше ний, s.a.; Эффек тив ная сег мен - та ция, s.a.]): • CHAID (CHi-squared Automatic Interaction Detector). Роз роб ник — Ґ.В.Кас (1980). “Ме тод по бу до ви де рев рішень, в яко му для от ри ман ня опти маль ної роз бив ки ви ко рис то ву ють кри терій зв’яз ку між ка те го - ріаль ни ми змінни ми χ2 (у разі, якщо цільо ва змінна є кількісною, ви ко - рис то ву ють F-кри терій). По чат ко во цільо ва змінна і змінні-пред ик то ри мо жуть бути як кількісни ми, так і ка те горіаль ни ми, про те кількісні пред ик то ри при по бу дові де ре ва пе ре тво рю ють ся на ка те горіальні (кіль кістю ка те горій мож на управ ля ти)” [Тол сто ва, 2000]. Рідше ви - користовують ал го рит ми FACT (Loh & Vanichestakul, 1988), THAID (Mor gan & Messenger, 1973) або AID (Morgan & Sonquist, 1963). • Exhaustive CHAID (Ви чер пний CHAID). Мо дифікація ме то ду CHAID. “Його пе ре ва гою є те, що в про цесі по бу до ви де ре ва ана лізу - ється більша кількість мож ли вих роз би вок, а ва дою — повільніша швидкість ро бо ти. Цей ме тод на кла дає на типи цільо вої змінної та пре - дикторів такі само об ме жен ня, що й ме тод CHAID” [Эффек тив ная сег - мен та ция, s.a.]. 120 Соціологія: теорія, методи, маркетинг, 2009, 4 Олексій Бо ро вський, Сергій Літвінов • C&RT (Classification And Regression Trees), дослівно — ме тод кла - сифікації і по бу до ви де рев реґресії, за про по но ва ний Л.Брей ма ном та ін. (1984). На відміну від двох опи са них вище ме тодів ґрун тується не на ста тис тич них кри теріях, а на змен шенні не однорідності підгруп (вуз - лів). Для аналізу мож на ви ко рис то ву ва ти як кількісні, так і ка те го - ріальні цільові змінні і змінні-пред ик то ри. Найліпший ре зуль тат до ся - гається тоді, коли всі змінні в аналізі є кількісни ми. • QUEST (Quick, Unbiased, Efficient Statistical Trees), тоб то “швидкі, незміщені, ефек тивні ста тис тичні де ре ва” (Loh & Shih, 1997). У цьо му ме тоді для ви бо ру пред ик торів за сто со ву ють різно манітні кри терії за - леж но від типу по тенційно го пред ик то ра. Ме тод дає змо гу уни ка ти зміщень, по в’я за них із ви бо ром пред ик торів із ве ли кою кількістю ка - тегорій. Цільо ва змінна в цьо му разі має бути ка те горіаль ною. Змін - ні-пред ик то ри мо жуть бути як кількісни ми, так і ка те горіаль ни ми. • C4.5. Роз роб ник — Р. Квінлан (1993). Алгоритм по бу до ви де ре ва рішень, в яко му кількість роз га лу жень вуз ла не об ме же на. Не при зна че - ний до ро бо ти з без пе рер вним цільо вим по лем, тому роз в’я зує лише за - вдан ня кла сифікації. Особ ливість усіх на зва них ал го ритмів, що виз на чає спе цифіку ме то ду де рев рішень, по ля гає в тому, що коли один раз об ра но ат ри бут, за яким було зроб ле но роз бив ку на підмно жи ни, то ал го ритм не дає змо ги по вер ну ти ся на зад і виб ра ти інший ат ри бут, який би да вав ліпшу роз бив ку. Тому на етапі по бу до ви не мож на ска за ти, чи вмож ли вить об ра ний ат ри бут опти маль ну роз бив ку. Прик лад за сто су ван ня аналізу де рев до ви ок рем лен ня кри теріїв емпірич ної кла сифікації рес пон дентів Наш досвід за сто су ван ня ал го рит му Tree Analysys у SPSS 13.0 по ка зує ви со ку ефек тивність ме то ду де рев кла сифікації в опра цю ванні склад них ма сивів да них соціологічних досліджень. Ме тод був реалізо ва ний нами в пе ребігу опра цю ван ня да них дру гої хвилі порівняль но го досліджен ня “Україн ці і росіяни: по гляд один на од но го”, про ве де но го на за мов лен ня Інсти ту ту вив чен ня Росії. У Росії опи ту ван ня про во ди ла ком панія “GfK RUS” від 27 чер вня до 11 лип ня 2008 року, в Україні — ком панія “GfK Ukraine” від 19 чер вня до 7 лип ня 2008 року. Опи ту ван ня рес пон дентів про во ди ли ме то дом осо бис то го інтер в’ю за місцем про жи ван ня. Ме тою опи ту ван ня було ви яв лен ня найбільш на бли - же них оцінок ста ну міждер жав них відно син між дво ма краї на ми. Вибірко - ва су купність по бу до ва на за схе мою ба га тос ту пе не вої вибірки, от ри ма ної методом ви пад ко во го до бо ру (в Росії — 2196 інтер в’ю, в Україні — 1313). Те - о ре тич на ста тис тич на по хиб ка вибірко во го оціню ван ня час тки бі но мi наль - ної озна ки із роз поділом 50% : 50% за довірчої ймовірності p = 0,95 для Украї ни не пе ре ви щує 2,7%, для Росії — 2,1%. Соціологія: теорія, ме то ди, мар ке тинг, 2009, 4 121 Спе цифіка за сто су ван ня ме то ду де рев рішень в аналізі ма си ву да них Одним із го лов них за вдань було об чис лен ня інтеґраль но го індек су добросусідства (ІД). ІД бу ду ва ли на основі ще 6 індексів: трьох про стих — ба зо во го індек су відно син (БІВ), індек су ди наміки відно син між краї на ми (ІДВК), індек су ди наміки відно син між на ро да ми (ІДВН) і од но го склад но - го — індек су інте ре су до іншої країни, її політич но го, еко номічно го і куль - тур но го жит тя (ІІІ). При цьо му нам було важ ли во зро зуміти: 1) від яких саме чин ників найбільшою мірою за ле жить ІД і 2) які гру пи рес пон дентів ха рак те ри зу ють ся по ляр ни ми зна чен ня ми індек су. Ви ко рис то ву ва ти для цьо го опи со ву ста тис тику і пе ревірку гіпо тез для по бу до ви кла сифікації було б не е фек тив но, адже у ма сиві одних лише соціаль но-демоґрафічних змінних налічу ва ло ся 9. Якщо навіть згру пу ва ти дані, то на базі 9 змінних утво рюється не мен ше 29 = 512 ґра дацій. До того ж пе ре важ на час ти на цих гра дацій за реалізо ва них об сягів вибірки була б не дос тат ньо на пов не ною. Що сто сується гіпо тез про вплив, то ми не вва жа ли себе дос тат ньо ком пе - тен тни ми для ви чер пно го фор му лю ван ня їх. Пер шу час ти ну за дачі мож на було роз в’я за ти шля хом логістич ної реґресії. Але в ма сиві були як ка те - горіальні, так і кількісні змінні, котрі мож на роз гля да ти як по тенційні пред - ик то ри індек су доб ро сусідства. Крім того, па ра лель но не обхідно було ви ко - на ти за вдан ня по бу до ви кла сифікації, ви ок рем лен ня кри теріїв, за яки ми різнять ся гру пи рес пон дентів із ви со ким і з низ ь ким по каз ни ком ІД. Заз на - че ним ви мо гам за до воль ня ла ме то ди ка CHAID ал го рит му де рев рішень у SPSS 13.0. Перш ніж за сто су ва ти ме то ди ку до на ших да них, ми по бу ду ва ли за леж ну змінну, зна чен ня якої були об чис лені як фак торні зна чен ня (factor scores). Як інди ка то ри для фак тор но го аналізу ми відібра ли змінні індексів БІВ, ІДВК, ІДВН та ІІІ. Ви я ви ло ся, що найліпшим чи ном варіацію інди ка - торів опи сує дво фак тор на мо дель, у якій до пер шо го фак то ра ввійшли БІВ, ІДІК і ІДВН, а до дру го го — три змінні-ком по нен ти ІІІ. Оціню ван ня індек су доб ро сусідства здійсню ва ли на основі пер шо го фак то ра, що відоб ра жає ба - зо вий рівень оціню ван ня рес пон ден та ми украї но-російських відно син. Від - повідно до ме то ди ки об чис лен ня фак тор них зна чень шля хом реґресії бу - ло роз ра хо ва но підсум ко ву без пе рер вну змінну з нор маль ним роз поділом значень від –3 до 3. Пе ред по бу до вою де ре ва кла сифікації вона була пе ре - тво ре на на ка те горіаль ну шля хом роз бив ки на тер цильні інтер ва ли. Зна - чення “1” шка ли відповідає ни жньо му тер ци лю (по гані відно си ни між дер - жа ва ми), “2” — се ред ньо му тер ци лю (не й тральні відно си ни), а “3” — ве - рхньо му тер ци лю (добрі відно си ни). Саме цю ско нстру йо ва ну змінну було взя то як за леж ну в Tree Analysis. Мно жи на за леж них змінних місти ла всі соціаль но-демоґрафічні озна ки та змінні, на підставі яких ми роз ра хо ву ва ли індек си ІІІ і ІІК (си мет рич ний ІІІ індекс інте ре су до влас ної краї ни, див. додаток). Оскільки по тенційні пред ик то ри яв ля ли со бою змінні різних типів і нам була потрібна кла сифікація, де б усі ґра дації од но го пред ик то ра роз та шо ву ва ли ся на од но му рівні роз га лу жен ня де ре ва рішен ня, було об ра - но ме то ди ку CHAID. Мінімаль на на пов неність підгруп була визначена у 50 одиниць. Отри мані нами де ре ва є по ка зо ви ми і за укр аїнською, і за російською вибірка ми. Кла сифікаційне де ре во за російською вибіркою (див. рис. 2) дають змо гу пра виль но кла сифіку ва ти 71% рес пон дентів, за укр аїнською 122 Соціологія: теорія, методи, маркетинг, 2009, 4 Олексій Бо ро вський, Сергій Літвінов Соціологія: теорія, ме то ди, мар ке тинг, 2009, 4 123 Спе цифіка за сто су ван ня ме то ду де рев рішень в аналізі ма си ву да них 1 – 34 ,5 % 2 – 26 ,5 % 3 – 39 ,1 % 1 – 36 ,4 % 2 – 27 ,0 % 3 – 39 ,1 % 1 – 29 ,4 % 2 – 21 ,2 % 3 – 49 ,5 % 1 – 26 ,4 % 2 – 27 ,3 % 3 – 46 ,3 % 1 – 31 ,7 % 2 – 13 ,4 % 3 – 54 ,9 % 1 – 36 ,2 % 2 – 29 ,6 % 3 – 34 ,2 % 1 – 47 ,3 % 2 – 23 ,7 % 3 – 29 ,0 % 1 – 30 ,7 % 2 – 30 7% 3 – 38 ,7 % 1 – 56 ,8 % 2 – 19 ,7 % 3 – 23 ,5 % 1 – 46 ,0 % 2 – 28 ,6 % 3 – 25 ,4 % 1 – 24 ,8 % 2 – 19 ,1 % 3 – 56 ,1 % 1 – 30 ,3 % 2 – 31 ,0 % 3 – 38 ,7 % 1 – 52 ,1 % 2 – 30 ,3 % 3 – 17 ,6 % 1 – 41 ,7 % 2 – 26 ,3 % 3 – 32 ,0 % 1 – 31 ,7 % 2 – 26 ,7 % 3 – 41 ,7 % 1 – 11 ,0 % 2 – 29 ,3 % 3 – 59 ,8 % 1 – 27 ,5 % 2 – 24 ,5 % 3 – 48 ,0 % 12 8 3 1 2 4 5 6 7 13 14 9 15 16 10 17 18 19 11 20 сі м ей ни й ст ан ре ґі он ос ві та 124 Соціологія: теорія, методи, маркетинг, 2009, 4 Олексій Бо ро вський, Сергій Літвінов 1 – 43 ,4 % 2 – 28 ,2 % 3 – 28 ,4 % 1 – 29 ,9 % 2 – 31 ,1 % 3 – 39 ,0 % 1 – 46 ,0 % 2 – 28 ,2 % 3 – 25 ,8 % 1 – 43 ,9 % 2 – 28 ,4 % 3 – 27 ,7 % 1 – 46 ,8 % 2 – 22 ,6 % 3 – 30 ,6 % 1 – 69 ,7 % 2 – 22 ,2 % 3 – 8, 1% 0 1 – 36 ,7 % 2 – 28 ,6 % 3 – 34 ,7 % 1 – 67 ,2 % 2 – 25 ,9 % 3 – 6, 9% 0 1 – 19 ,7 % 2 – 34 ,8 % 3 – 45 ,5 % 1 – 60 ,9 % 2 – 22 ,4 % 3 – 16 ,8 % 4 1 3 2 5 6 7 8 9 1 – 45 ,7 % 2 – 28 ,5 % 3 – 25 ,7 % 1 – 29 ,2 % 2 – 27 ,7 % 3 – 43 ,1 % 10 11 ти п на се ле но го пу нк та ти п на се ле но го пу нк та ре ґі он м ат ер іа ль не ст ан ов ищ е ро ди ни ін те ре с до су сп іл ьн о- по лі ти чн их по ді й у Ро сі ї (див. рис. 3) — 74%. Клю чо вою ди фе ренціювальною озна кою російських рес пон дентів є сімей ний стан, точніше на лежність до гру пи не одру же них (дру гий ву зол ґрафа, Node 2). Оцінка не одру же ни ми рес пон ден та ми украї - но- ро сійських відно син вища, ніж за га лом за вибіркою: фак торні зна чен ня з верхнього тер ци ля зустріча ють ся се ред них на 9% частіше — у 48% рес пон - дентів про ти 39,1% за га лом за ма си вом. Аналізу ю чи соціаль но-демо ґра - фічні ха рак те рис ти ки гру пи не одру же них, мож на дійти вис нов ку, що на - справді ця озна ка мар кує вікові відмінності: 82% не одру же них ста нов лять люди, мо лодші за 30 років. Найбільш оптимістичні се ред них дві підгру пи: люди із ви щою освітою (доб ри ми вва жа ють відно си ни між Росією й Украї - ною 55%, а по га ни ми — 32%) і жи телі села або се ли ща без ви щої освіти (60% і 11% відповідно). Більшість рес пон дентів роз ша ро вується за інши ми озна - ка ми, реґіональ ною і по се ле нською. “Оптимісти” меш ка ють у Москві й у містах із на се лен ням до 100 тис. Півден но-Західно го реґіону, “пе симісти” — у Півден но му реґіоні й на Да ле ко му Сході. Відтак, мож на зро би ти вис но вок, що віднос но вище украї но-російські відно си ни оціню ють рес пон ден ти, які на ле жать до заможних і соціаль но оптимістич них груп, а та кож так звані “про сті” люди з низ ь ким по каз ни ком соціаль но го цинізму. Якщо звер ну ти ся до аналізу укр аїнської вибірки, то там си ту ація дещо інша. По-пер ше, реґіоналізм в Україні не лише є го лов ним чин ни ком роз ша - ру ван ня оцінок відно син між краї на ми, а й вирізняє кількісно більш ди фе - ренційо вані гру пи, ніж це мож на спос терігати на російській вибірці. При чо - му ви хо дить па ра док саль на річ: різні за всіма соціокуль тур ни ми па ра мет - рами Західний і Східний реґіони опи ни ли ся в де реві рішень в од но му вузлі (Node 2). Обид ва реґіони де мо нстру ють “нор маль но по га ну” оцінку ві д - носин між краї на ми. Найбільше “пе симістів” у містах із на се лен ням 51– 100 тис. жи телів, що яв ля ють со бою соціаль но-деп ре сивні соціуми (“пе си - містів” на 60% більше, ніж “оптимістів”). “Оптимісти” ло калізо вані в се лах, се ли щах і містах із на се лен ням до 50 тис. жи телів і в містах із на се лен ням по - над 100 тис. До “оптимістів” на ле жать рес пон ден ти з ви со ким фіна нсо вим доб ро бу том, які не відчу ва ють усклад нень у за до во ленні на й важ ливіших ма теріаль них по треб. Найбільша різни ця в меж ах Украї ни спос терігається між оцін ка ми рес пон дентів із Півден но го реґіону, з од но го боку, і Києва, Північно го і Цен траль но го реґіонів — з іншо го. У пер шо му ви пад ку чис ло “оптимістів” відно сить ся до чис ла “пе симістів” як 1 : 3,6, у дру го му “пе - симістів” більше за “оптимістів” у 1,35 раза. “Оптимісти” тут — це меш канці ма лих міст або Києва, які помірко ва но цікав лять ся куль тур но-спор тив ним жит тям в Ук раїні. Ра зом із тим до чис ла крайніх “пе симістів” у Півден но му реґіоні на ле жать ті, хто ви яв ляє підви ще ний інте рес до суспільно-політич - но го жит тя в Росії. На наш по гляд, це дає підста ви го во ри ти про соціокуль - тур ну де термінацію оцінок укр аїнськи ми рес пон ден та ми відно син між Ук - раї ною і Росією. Пог ляд “пе симістів” Півдня Украї ни ніби звер не ний у бік Росії як ре фе рен тно го (ба навіть “сво го”) політич но го про сто ру. “Опти - місти” із Цен траль ної та Півден ної Украї ни, на впа ки, звер нені у бік влас но - го куль тур но го про сто ру. Мож ли во, оптимістич не сприй нят тя відно син між краї на ми по в’я за не саме з аполітичністю пред став ників цієї гру пи. Та - ким чи ном, мож на ствер джу ва ти, що для Украї ни на й важ ливішими де - Соціологія: теорія, ме то ди, мар ке тинг, 2009, 4 125 Спе цифіка за сто су ван ня ме то ду де рев рішень в аналізі ма си ву да них терміна нта ми оцінки відно син із Росією є реґіональ ний і соціокуль тур ний чин ни ки, а в Росії більш зна чи ми ми є соціаль но-демоґрафічні ха рак те рис - ти ки рес пон дентів. Реґіоналізм в Україні озна чає на ба га то більше, ніж у Росії. Ці вис нов ки, як і емпірич ний по ртрет “оптимістів” і “пе симістів”, куди складніше було б от ри ма ти, за сто со ву ю чи тра диційні ме то ди аналізу дво - вимірних роз поділів. На нашу дум ку, ев рис тич ний по тенціал ме то ду ана - лізу де рев ви яв ляється саме на етапі уза галь нен ня та гру пу ван ня да них, у пе ребігу по бу до ви емпірич них ти по логій. Хоча, бе зу мов но, цей підхід мож - на ви ко рис то ву ва ти й для того, щоби спро бу ва ти “по ба чи ти” при хо ва ну струк ту ру да них на етапі ви су ван ня по пе редніх гіпо тез, тоб то як до по - міжний експлора тор ний інстру мент. Соціоло гам до ве деть ся ще чи ма ло зро - би ти в плані аналізу ефек тив ності за сто су ван ня ме то ду кла сифік а цій них де рев і його кон крет них ал го ритмів щодо да них соціологічних до сліджень, а та кож зі з’я су ван ня опти маль них умов цьо го ціка во го ме то ду. ДОДАТОК Змінні-пред ик то ри, за сто со ву вані при по бу дові кла сифікаційних де рев для озна ки “Оцінка відно син між Украї ною і Росією” 1. ЧИ ЦІКАВИТЕСЯ ВИ ПОДІЯМИ, ЩО ВІДБУВАЮТЬСЯ В УКРАЇНІ? (суспільно-політичні події) 2. ЧИ ЦІКАВИТЕСЯ ВИ ПОДІЯМИ, ЩО ВІДБУВАЮТЬСЯ В УКРАЇНІ? (еко номічні події) 3. ЧИ ЦІКАВИТЕСЯ ВИ ПОДІЯМИ, ЩО ВІДБУВАЮТЬСЯ В УКРАЇНІ? (куль тур но-спор тив не жит тя) 4. ЧИ ЦІКАВИТЕСЯ ВИ ПОДІЯМИ, ЩО ВІДБУВАЮТЬСЯ В РОСІЇ? (суспільно-політичні події) 5. ЧИ ЦІКАВИТЕСЯ ВИ ПОДІЯМИ, ЩО ВІДБУВАЮТЬСЯ В РОСІЇ? (еко номічні події) 6. ЧИ ЦІКАВИТЕСЯ ВИ ПОДІЯМИ, ЩО ВІДБУВАЮТЬСЯ В РОСІЇ? (куль тур но-спор тив не жит тя) 7. СТАТЬ 8. ВІК 9. ЯКИЙ НАВЧАЛЬНИЙ ЗАКЛАД ВИ ЗАКІНЧИЛИ ОСТАННІМ? 10. ЯКЕ ВИСЛОВЛЕННЯ НА ЦІЙ КАРТЦІ НАЙЛІПШЕ ОПИСУЄ ВАС І ВАШУ СІМ’Ю? 11. КИМ ВИ ПРАЦЮЄТЕ ЗАРАЗ? 12. ЯКИМ БУВ ДОХІД ВАШОЇ СІМ’Ї МИНУЛОГО МІСЯЦЯ У РОЗ РА - ХУНКУ НА ОДНОГО ЧЛЕНА СІМ’Ї 13. СІМЕЙНИЙ СТАН У ДАНИЙ ЧАС 126 Соціологія: теорія, методи, маркетинг, 2009, 4 Олексій Бо ро вський, Сергій Літвінов 14. РЕҐІОН 15. РОЗМІР І ТИП НАСЕЛЕНОГО ПУНКТУ 16. КЛАСИФІКАЦІЯ ESOMAR Лiте ра ту ра Бе рес тне ва О.Г., Му ра то ва Е.А. Пос тро е ние ло ги чес ких мо де лей с ис поль зо ва ни ем де ревь ев ре ше ний // Извес тия Том ско го по ли тех ни чес ко го уни вер си те та. — 2004. — Т. 307. — № 2. — С.154–160. Де ревья клас си фи ка ции. — <http://www.statsoft.ru/home/textbook/modules/stclatre.html> (s.a.). Де ревья ре ше ний — об щие при нци пы ра бо ты. — <http://www.basegroup.ru/library/analysis/tree/description/> (s.a.). На ци о наль но-граж дан ские иден тич нос ти и то ле ран тность. Опыт Ро ссии и Укра и - ны в пе ри од транс фор ма ции / Под ред. Л.М.Дро би же вой, Е.И.Го ло ва хи. — К., 2007. Елма но ва Н. Пос тро е ние де ревь ев ре ше ний // Вве де ние в Data Mining. Ч.3. — <http://www.interface.ru/fset.asp?Url = /misc/vvdm_p3.htm&anchor = 2> (s.a.). Отли чия ал го рит ма де ре ва ре ше ний от ас со ци а тив ных пра вил в за да чах клас си фи - ка ции. — <http://www.spellabs.ru/DecisionTreesVsAssociationAlgorithm.htm> (s.a.). Рос тов цев П.С. Автоматизация ана ли за ан кет ных дан ных. — <http://nesch.ieie.nsc.ru/13ROST8.html> (s.a.). Тол сто ва Ю.Н. Анализ со ци о ло ги чес ких дан ных: Ме то до ло гия, дес крип тив ная ста - тис ти ка, из уче ние свя зей меж ду но ми наль ны ми при зна ка ми. — М., 2000. Укра ин ское об щес тво в ев ро пей ском про стра нстве / Под ред. Е.Го ло ва хи, С.Ма ке е - ва. — К., 2007. Эффек тив ная сег мен та ция при по мо щи де ревь ев ре ше ний. — <http://www.spss.com.ua/products/answertree/> (s.a.). Сlassification: Basic Concepts, Decision Trees and Model Evaluation. — http://www-users.cs.umn.edu/~kumar/dmbook/ch4.pdf (s.a.). Tsien L.C., Fraser S.F.H., Long J.W., Kennedy L.R. Using Classification Tree and Logistic Regression Methods to Diagnose Myocardial Infarction. — <http://groups.csail.mit.edu/medg/people/hamish/medinfo-chris.pdf> (s.a.). Соціологія: теорія, ме то ди, мар ке тинг, 2009, 4 127 Спе цифіка за сто су ван ня ме то ду де рев рішень в аналізі ма си ву да них