Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності

Розглядаються переваги застосування методу кластерного аналізу «Distance-Ranked Sorting Assembling» (DRSA) для класифікації рослинності. Використання рангів при визначенні відстаней між об'єктами забезпечує робастність і ефективність при обробці зашумованих, різнорідних фітоценотичних даних....

Full description

Saved in:
Bibliographic Details
Published in:Український ботанічний журнал
Date:2016
Main Author: Гончаренко, І.В.
Format: Article
Language:Ukrainian
Published: Інститут ботаніки ім. М.Г. Холодного НАН України 2016
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/178486
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності / І.В. Гончаренко // Український ботанічний журнал. — 2016. — Т. 73, № 6. — С. 568-578. — Бібліогр.: 27 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859618443597185024
author Гончаренко, І.В.
author_facet Гончаренко, І.В.
citation_txt Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності / І.В. Гончаренко // Український ботанічний журнал. — 2016. — Т. 73, № 6. — С. 568-578. — Бібліогр.: 27 назв. — укр.
collection DSpace DC
container_title Український ботанічний журнал
description Розглядаються переваги застосування методу кластерного аналізу «Distance-Ranked Sorting Assembling» (DRSA) для класифікації рослинності. Використання рангів при визначенні відстаней між об'єктами забезпечує робастність і ефективність при обробці зашумованих, різнорідних фітоценотичних даних. Алгоритм групування об'єктів базується на ранжуванні об'єктів за індексами вільності та зв'язаності і виділенні кластерів у структурі k-NN графа. Нарощування кластерів припиняється по досягненню максимуму зв'язаності кластерів. Детально розглядаються підходи до оцінки якості класифікації фітоценотичних даних – за показниками щільності та відмежованості кластерів (фітоценонів), за кількістю диференціюючих видів. Для оцінки кореляції фітоценотичних класифікацій пропонується використовувати коефіцієнти кореляції номінальних ознак та таблиці спряженості альтернативних класифікацій. Оцінювати щільність та відмежованість фітоценонів пропонується з використанням внутрішніх індексів валідації кластерів, зокрема статистики силуетів. Запропоновано індекс CDR (compactness / distinctness ratio), який враховує співвідношення подібності описів за видовим складом всередині фітоценонів та між фітоценонами. Загальна кількість диференціюючих видів та їхня середня кількість на фітоценон використані як флористичний критерій для оцінки якості класифікації. Виділення диференціюючих видів проведено на статистичній основі з використанням індексів вірності видів. На модельних фітоценотичних наборах даних показано, що бракування перехідних описів покращує і внутрішні, і флористичні критерії якості класифікації. Рассматриваются преимущества использования метода кластерного анализа «Distance-Ranked Sorting Assembling» (DRSA) в классификации растительности. Использование рангов при определении расстояний между объектами обеспечивает робастность и эффективность при обработке зашумленых, разнородных фитоценотических данных. Алгоритм группировки объектов базируется на ранжировании объектов по индексам свободности-связанности и выделении кластеров в структуре k-NN графа. Наращивание кластеров прекращается при достижении максимума связности кластеров. Подробно рассматриваются подходы к оценке качества классификации фитоценотических данных – с использованием индексов плотности-обособленности кластеров (фитоценонов) и по количеству дифференцирующих видов. Для оценки корреляции фитоценотических классификаций предлагается использовать коэффициенты корреляции номинальных признаков и таблицы сопряженности альтернативных классификаций. Оценить плотность и обособленность фитоценонов предлагается с использованием внутренних индексов валидации кластеров, в частности статистики силуэтов. Предложен индекс CDR (compactness / distinctness ratio), учитывающий соотношение сходства описаний по видовому составу внутри фитоценонов и между фитоценонами. Общее количество дифференцирующих видов и их среднее количество на фитоценон используются как флористический критерий оценки качества классификации. Выделение дифференцирующих видов проведено на статистической основе с использованием индексов верности видов. На модельных фитоценотических наборах данных показано, что браковка переходных описаний улучшает и внутренние, и флористические критерии качества классификации. Advantages of the original clustering method of DRSA, or Distance-Ranked Sorting Assembling, for vegetation classification are discussed. Using ranks in determining distances between objects provides robust clustering in case of noisy and heterogeneous phytocoenotic data. Algorithm of objects agglomeration is based on ranking objects by the indices of freeness and connectedness as well as on assessing clusters within k-NN graph’s framework. Clusters are assembled iteratively for some time to be finalized at the maximum of cluster’s connectivity. We also consider in detail approaches to assess classification quality of phytocoenotic dataset including degree of cluster’s (phytocoenon) compactess-distinctness and amount of differential species. We propose using nominal correlation coefficients to evaluate concordance of phytocoenotic classifications and contingency tables to compare frequencies of common releves between different classifications. Phytocoenon’s compactness and distinctness are evaluated using well-known internal cluster validation indices, e.g. silhouette statistics. We introduced CDR-index (compactness / distinctness ratio) which is calculated from the score of average similarity of within-phytocoenon and between-phytocoenons releves. Total amount of faithful (differential) species and average amount of them per phytocoenon as floristic index of partitioning quality were used. We classified differential species on a statistical basis calculating specied-to-cluster fidelity index and selecting species with fidelity above defined fidelity’s threshold. Using the sample phytocoenotic datasets we proved that both internal and floristic indices of classification quality improve after the exclusion of transient releves with ecotonic species composition. In the DRSA method, noise detection is carried out during cluster agglomeration; this objectifies rejecting ecotonic releves according to Braun-Blanquet approach as well as increases amount of differential species and thus improves phytocoenons interpretability.
first_indexed 2025-11-29T00:30:48Z
format Article
fulltext 568 ISSN 0372-4123. Ukr. Bot. J., 2016, 73(6) doi: 10.15407/ukrbotj73.06.568 І.В. ГОНЧАРЕНКО Інститут еволюційної екології НАН України вул. акад. Лебедєва, 37, м. Київ, 03143, Україна 3604749@gmail.сom ЗАСТОСУВАННЯ МЕТОДУ DRSA – НЕПАРАМЕТРИЧНОГО КЛАСТЕРНОГО АНАЛІЗУ В КЛАСИФІКАЦІЇ РОСЛИННОСТІ Goncharenko I.V. Application of the DRSA technique, a non-parametric cluster analysis, in vegetation classification. Ukr. Bot. J., 2016, 73(6): 568–578. Institute for Evolutionary Ecology, National Academy of Sciences of Ukraine 37, Acad. Lebedeva Str., Kyiv, 03143, Ukraine Abstract. Advantages of the original clustering method of DRSA, or Distance-Ranked Sorting Assembling, for vegetation classification are discussed. Using ranks in determining distances between objects provides robust clustering in case of noisy and heterogeneous phytocoenotic data. Algorithm of objects agglomeration is based on ranking objects by the indices of freeness and connectedness as well as on assessing clusters within k-NN graph’s framework. Clusters are assembled iteratively for some time to be finalized at the maximum of cluster’s connectivity. We also consider in detail approaches to assess classification quality of phytocoenotic dataset including degree of cluster’s (phytocoenon) compactess-distinctness and amount of differential species. We propose using nominal correlation coefficients to evaluate concordance of phytocoenotic classifications and contingency tables to compare frequencies of common releves between different classifications. Phytocoenon’s compactness and distinctness are evaluated using well-known internal cluster validation indices, e.g. silhouette statistics. We introduced CDR-index (compactness / distinctness ratio) which is calculated from the score of average similarity of within-phytocoenon and between-phytocoenons releves. Total amount of faithful (differential) species and average amount of them per phytocoenon as floristic index of partitioning quality were used. We classified differential species on a statistical basis calculating specied-to-cluster fidelity index and selecting species with fidelity above defined fidelity’s threshold. Using the sample phytocoenotic datasets we proved that both internal and floristic indices of classification quality improve after the exclusion of transient releves with ecotonic species composition. In the DRSA method, noise detection is carried out during cluster agglomeration; this objectifies rejecting ecotonic releves according to Braun-Blanquet approach as well as increases amount of differential species and thus improves phytocoenons interpretability. Keywords: DRSA, cluster analysis, Braun-Blanquet approach, phytocoenon, quality of classification Вступ Кла си фі ка ція таб лиць фі то це но тич них да них є по чат ко вим, ана лі тич ним ета пом кла си фі ка ції рос лин ності. Ви ко ристан ня ме то дів ав то ма тич- ної кла си фі ка ції (кластер но го ана лі зу) сти ка єть ся з низ кою труд но щів і об ме жень. Тому до 80-х рр. ми ну ло го сто річ чя у єв ро пейській фі то це но ло гії па ну вав під хід «руч но го сор ту ван ня» таб лиць гео- бо та ніч них опи сів за ме то ди кою Бра ун-Блан ке. З впро ва джен ням комп'ютерних тех но ло гій для на- ко пи чен ня та об роб ки фі то це но тич них да них ін- те рес до ме то дів ав то ма тич ної кла си фі ка ції у фі то- це но ло гії по чав зроста ти. В су час них до слі джен нях ав то ма тич на кла си фі ка ція фі то це но тич них да них, най час ті ше з ви ко ристан ням ді ля чо го по лі те тич но- го ал го рит му TWINSPAN (Hill, 1979; Hill, Šmilauer, 2005) пе ре дує руч но му сор ту ван ню. Ав то ма тич на кла си фі ка ція по кли ка на ка на лі зу ва ти про цес по- даль шо го руч но го сор ту ван ня, на мі ти ти «пер вин- © І.В. ГОНЧАРЕНКО, 2016 ні» фі то це но тич ні класте ри, які по тім «до во дять- ся» шля хом руч но го сор ту ван ня з ви ко ристан ням спе ці аль них гео бо та ніч них комп'ютерних про грам: Megatab (Hennekens, 1996), Ficen2 (Kosman et al., 1996) та ін. Як зов ніш ній мо дуль TWINSPAN ви- ко ристо ву єть ся у про гра мі Juice (Tichý, 2002). Але слід пам'ятати, що TWINSPAN – це перш за все ор ди на ція, тому він чут ли вий до «шу му», а ре зуль- тат по ді лу на кож но му кро ці ді ля чо го ал го рит му істотно за ле жить від опи сів на про ти леж ній час ти- ні гра ді єн ту: вар то змі ни ти спів від но шен ня кіль- кості різ них опи сів і ре зуль тат вия вить ся ін шим. Не об хід ність роз роб ки но во го ме то ду ви кли ка- на не мож ли вістю чи не ефек тив ністю засто су ван ня до фі то це но тич них да них строгих ма те ма тич них ме то дів, не об хід ністю об роб ки ве ли ких ма си вів да- них ши ро ко го еко ло го-фі то це но тич но го діа па зо ну з ура ху ван ням їхньої неодно рід ності, не пов но ти та за шу мо ва ності. На яв ність ви пад ко вих ви дів, не- пов но член ність фі то це но зів, не од но рід ність фі то- це но тич них да них та їхня не пов но та – все це ро- mailto:3604749@gmail.сom 569ISSN 0372-4123. Укр. ботан. журн., 2016, 73(6) бить фі то це но тич ні дані «про блем ни ми» і ви ма гає засто су ван ня не па ра мет рич них ме то дів. Іє рар хіч ні аг ло ме ра тив ні ме то ди кластер но го ана лі зу – не- ефек тив ні для ве ли ких ма си вів да них, а та кож чут- ли ві до ви бо ру мет ри ки чи ал го рит му гру пу ван ня. Іте ра тив ні ме то ди кластер но го ана лі зу, зок ре ма ме тод К-се ред ніх, пот ре бу ють ап рі ор них знань про кіль кість класте рів у да них, а у фі то це но ло га така ін фор ма ція най час ті ше від сут ня. Для кла си фі ка ції рос лин ності нами бу ло роз роб- ле но ал го ритм не па ра мет рич но го кластер но го ана- лі зу «Distance-Ranked Sorting Assembling» (DRSA), ме тод «сор тую чої збор ки» з ви ко ристан ням ран гів відста ней (Goncharenko, 2015a). Ме тод DRSA – аг- ло ме ра тив ний, не іє рар хіч ний ме тод кластер но го ана лі зу. Ма те ма тич на ос но ва його де таль но роз гля- ну та в ок ре мих пуб лі ка ці ях (Goncharenko, 2015b, с). Особ ли вості ме то ду DRSA такі: • відстань між об'єктами ви зна ча єть ся ран га ми; • ре зуль тат гру пу ван ня мало за ле жить від об ра ної мет ри ки чи кое фі ці єн та по діб ності; • ав то ма тич не ви зна чен ня кіль кості класте рів у да них (не має не об хід ності за да ва ти кіль кість класте рів, як у ме то ді К-се ред ніх, чи «роз рі за ти» ден д ро грам му, як у аг ло ме ра тив них ал го рит мах); • щіль ні класте ри (опи си все ре ди ні фі то це но нів знач ною мі рою по діб ні за ви до вим скла дом); • фільт ра ція шуму – ви зна чен ня пе ре хід них фі то- це но зів та їхнє ви клю чен ня із класте рів; • на яв ність па ра мет ру k (кіль кість най ближ чих су сі дів, що вра хо ву ють ся у кож но го об'єкта), яка до зво ляє впли ва ти на роз мі ри та кіль кість класте рів. Оцін­ка­відста­ней­між­об'єктами Спо чат ку роз ра хо ву ють ся кое фі ці єн ти по діб ності опи сів за ви до вим скла дом. Мож ли ве ви ко ристан- ня будь-яких з ві до мих кое фі ці єн тів фло ристич- ної по діб ності (Sokal, Sneath, 1963; Vasilevich, 1969; Goodall, 1973; Legendre P., Legendre L., 1998). У по- даль шо му в кож но го об'єкта ви зна ча єть ся k най- ближ чих су сі дів. Якщо впо ряд ку ва ти об'єкти за по діб ністю щодо пев но го об'єкта Х і при сво ї ти їм ран ги, то об'єкт, що має k-й ранг су сідст ва, є k-най- ближ чим су сі дом об'єкта Х. Ви ко ристан ня ран гів за мість відста ней дає, з точ- ки зору фі то це но ло га, важ ли ві пе ре ва ги. По-пер- ше, у разі за мі ни кое фі ці єн та по діб ності на ін ший зна чен ня відста ней між об'єктами змі нять ся, але час то це не по зна ча єть ся на по ряд ку роз та шу ван- ня об'єктів (ран гах) А, В, С, що за без пе чує від нос- ну стій кість класте рів. По-дру ге, при ви ко ристан ні ек ві ва лент них кое фі ці єн тів (Semkіn, 1979) ми от ри- має мо іден тич ні кла си фі ка ції. По-тре тє, на яв ність ви ки дів (ано маль них об'єктів) май же не впли ває на ре зуль тат. Крім того, ви ко ристан ня ран гів до зво ляє засто со ву ва ти ме тод DRSA у ви пад ку знач но го ва- рію ван ня бета-різ но ма ніт тя (щіль ності класте рів), а та кож щодо да них ши ро ко го еко ло го-фі то це но- тич но го діа па зо ну, коли ін ші ме то ди, що спи ра- ють ся на аб со лют ні зна чен ня відста ней, ма ло ефек- тив ні. Усе це ро бить ме тод DRSA ро баст ним (англ. robust – міц ний). Не па ра мет рич ні ме то ди при йня- то вва жа ти менш по туж ни ми, ніж па ра мет рич ні, але у ви пад ку різ но рід них, не пов них, за шу мо ва них фі то це но тич них да них, втра та по туж ності за ра ху- нок ви гра шу у ро баст ності є ціл ком ви прав да ною. На рис. 1 показано відбір найближчих сусідів при k = 5 у об'єктів 2 та 8. При k = 5 для об'єкта 2 най ближ чи ми су сі да ми є об'єкти 1, 3, 4, 5, 6, а для об'єкта 8 – 5, 9, 10, 11, 12. Об'єкт 7 є най ближ чим су сі дом об'єкта 3 при k = 5, але не для об'єкта 2. При k = 6 об'єкт 7 ста не k-най- ближ чим су сі дом та кож і для об'єкта 2. В об'єктів 1 та 2, об'єкт 2 є най ближ чим су сі дом об'єкта 1 та на- впа ки, що по ка за но под вій ною стріл кою. Відстань від цен траль но го об'єкта до най від да ле ні шо го су сі- да в об'єктів 2 та 8 різ на, хоча k = 5 в обох ви пад ках. Гру­пу­ван­ня­об'єктів Ал го ритм гру пу ван ня у ме то ді DRSA роз роб ляв- ся ви хо дя чи з уяв лень про «при род ну класте ри за- цію», тоб то таку, яку б ін ту ї тив но по бу ду ва ла лю- ди на, якби мог ла ба чи ти роз по діл то чок у просто- 1 2 3 4 4 5 6 4 7 8 9 10 11 12 Рис. 1. Визначення k-найближчих сусідів Fig. 1. Selection of k-nearest neighbors 570 ISSN 0372-4123. Ukr. Bot. J., 2016, 73(6) рі. Комп'ютерний ал го ритм від тво рює цей про цес шля хом сор ту ван ня (ран жу ван ня) об'єктів (опи сів) і «зби ран ня» з них класте рів (фі то це но нів). Тому ми на зва ли ме тод DRSA «сор тую чою збор кою» (англ. sorting assembling). Сор ту ван ня і від бір об'єктів спи ра єть ся на ін дек- си, які пе ре да ють відста ні «об'єкт–об'єкт» (ін декс віль ності) та «об'єкт–кластер» (ін декс зв'язаності) у струк ту рі k-NN гра фа (Goncharenko, 2015с). У струк ту рі k-NN гра фа класте ри DRSA­ на га ду- ють ко ре ля цій ні плея ди з од но ймен но го ме то ду П.В. Те ренть є ва, але плея ди ви ді ля ють при фік- со ва но му зна чен ні відста ні, а у ви пад ку DRSA це ви зна ча єть ся по ро гом па ра мет ру k. Від не сен ня об'єкта до най ближ чо го класте ру ба зу єть ся на тому ж прин ци пі, що і у ме то ді k-най ближ чих су сі дів (Cover, Hart, 1967). Якщо пев ний об'єкт близький до класте ру, то се ред його k-най ближ чих су сі дів пе- ре ва жа ють об'єкти цьо го класте ру. Пі сля ран жу ван- ня від би ра єть ся чер го вий об'єкт, кластер на ро щу- єть ся і про цес по вто рю єть ся. Мо мент зу пин ки на- ро щу ван ня класте рів ви зна ча єть ся мак си мі за ці єю по каз ни ка зв'язаності класте рів (пле яд) (Q-ін декс). Пос ту по во під ви щую чи па ра метр k у ме то ді DRSA, мож на от ри ма ти се рію кластер них рі шень, що є «зрі за ми» кластер ної струк ту ри на різ них рів нях. Па ра метр k за да єть ся до по чат ку гру пу ван ня: при біль ших зна чен нях k утво рю єть ся мен ше класте- рів, але вони круп ні ші. Ут во рен ня класте рів від бу- ва єть ся по чер го во (пос лі дов но): кластер про хо дить ета пи іні ціа ції, на ро щу ван ня і фі на лі за ції, пі сля чого не змі ню єть ся. Наступ ний кластер іні цію єть- ся пі сля фі на лі за ції по пе редньо го. У на ро щу ван ні класте рів бе руть участь лише віль ні об'єкти, отже класте ри не об'єднується, тому DRSA на ле жить до не іє рар хіч них ме то дів кластер но го ана лі зу. На рис. 2 представ ле ні ос нов ні ета пи гру пу ван ня згід но до ал го рит му DRSA. Етап I. Іні ціа ція класте ру. Ут во рен ня пер шо го і чер го во го класте ру по чи на єть ся з од но го об'єкта. Його ви бір здій сню єть ся за мак си маль ним зна чен- ням ін дек су віль ності (freeness index, FI) (Гон ча рен- ко, 2015b). Цей ін декс – ев ристич ний по каз ник, що на бу ває мак си маль но го зна чен ня у об'єктів, роз та- шо ва них да ле ко від ут во ре них ра ні ше класте рів, у цен трі скуп чень ін ших віль них об'єктів. Це до зво- ляє мак си мі зу ва ти від ме жо ва ність класте рів. Якщо в пев ний мо мент гру пу ван ня віль них об'єктів, що ма ють FI ви щий за вста нов ле ний по ріг, не має, іні- цію ва ти но вий кластер не мож ли во (стоп-пра ви ло І), гру пу ван ня при пи ня єть ся. Кіль кість ут во ре них до цьо го мо мен ту класте рів стає ос та точ ною, а усі об'єкти поза класте ра ми ви зна ють ся шу мом (пе ре- хід ні опи си). Етап IІ. На ро щу ван ня класте ру. Пі сля іні ціа ції класте ру, він на ро щу єть ся. На кож но му кро ці від- би ра єть ся і при єд ну єть ся один об'єкт з мак си маль- ним зна чен ням ін дек су зв'язаності (connectedness index, CI) (Гон ча рен ко, 2015b). Цей по каз ник, що за ле жить від відста ні між об'єктом і класте- ром, на бу ває мак си маль них зна чень у най ближ чих об'єктів. При єд нан ня на кож но му кро ці гру пу ван- ня об'єктів з мак си маль ним зна чен ням CI мак си- мі зує щіль ність класте рів. Якщо об'єктів зі зна чен- ням CI, ви щим за по ріг, не має (стоп-пра ви ло ІІ), на ро щу ван ня класте ру при пи ня єть ся (фі на лі за- ція). Етап IІІ. Кон троль якості класте ру. Під час на- ро щу ван ня класте ру роз ра хо ву єть ся по каз ник, що оці нює «якість» класте ру, Q-ін декс (Goncharenko, 2015c). Оцін ка класте рів (англ. cluster validation) тра ди цій но про во дить ся по за вер шен ню кластер- но го ана лі зу (Halkidi et al., 2001), тоб то оці нює ре зуль тат пост-фак тум. У ме то ді DRSA оцін ка класте рів здій сню єть ся під час гру пу ван ня. Її ме- тою є ви зна чен ня «оп ти маль но го» мо мен ту для фік са ції (фі на лі за ції) класте ру. Initializing cluster Expanding cluster Q-controlling cluster Stop-rule I Stop-rule II Stop-rule III Exit Verifying cluster Finalized cluster «Noise» Рис. 2. Блок-схема алгоритму DRSA Fig. 2. DRSA algorithm flowchart 571ISSN 0372-4123. Укр. ботан. журн., 2016, 73(6) Q-index за ле жить від пов но ти, зв'язаності та від- ме жо ва ності класте ру, роз ра ху нок яких ба зу єть ся на ана лі зі струк ту ри класте рів у k-NN гра фі. На по чат ку рос ту кластер має низьку пов но ту (англ. integrity), ос кіль ки біль ша час ти на об'єктів май- бутньо го класте ру віль на. Під час на ро щу ван ня класте ру пов но та зростає, але од но час но змен шу- єть ся від ме жо ва ність (англ. separability) класте ру. Її мож на оці ни ти кіль кістю зв'язків між вер ши на- ми k-NN гра фа з різ них класте рів. Під час на ро- щу ван ня класте ру зростає його зв'язаність (англ. connectivity) – кіль кість зв'язків між вер ши на- ми k-NN гра фа од но го класте ру. Мак си мі за ція Q-index (стоп-пра ви ло ІІІ) ви зна чає мо мент фі на- лі за ції класте ру. Оцін­ка­якості­кла­си­фі­ка­ції­фі­то­це­но­тич­них­да­них­ за­кіль­кіс­ни­ми­кри­те­рія­ми Пі сля об роб ки фі то це но тич но го на бо ру да них вкрай важ ли во оці ни ти якість кла си фі ка ції (якість фі то це но нів). Це дає мож ли вість оці ни ти ефек тив- ність того чи ін шо го ме то ду кластеризації, а також вибрати оптимальний поділ, якщо їх декілька. Оцін ка якості про ве де ної кла си фі ка ції фі то це но- тич них да них мож ли ва: • че рез ві зу аль ний ана ліз меж класте рів (у пло щи- ні ор ди на ції чи просто рі оз нак); • за ве ли чи ною ко ре ля ції з ін шою, ета лон ною, кла си фі ка ці єю. • за по каз ни ка ми щіль ності та від ме жо ва ності класте рів (фі то це но нів); • за кіль кістю ди фе рен цію ю чих ви дів. Ві­зу­аль­ний­ана­ліз­класте­рів­у­ор­ди­на­цій­ній­пло­щи­ні Ап ро ба цію ме то дів кластер но го ана лі зу тра ди цій но при йня то пе ре ві ря ти кла си фі ка ці єю штуч но го на- бо ру да них «іри си Фі ше ра». Ці дані (http://archive. ics.uci.edu/ml/datasets/Iris) міс тять ін фор ма цію про чо ти ри оз на ки бу до ви квіт ки для 150 ек зем п- ля рів трьох ви дів роду Iris L. Кла си фі кує мо їх ме- то дом DRSA та співста ви мо роз по діл об'єктів між класте ра ми та ви да ми. Щоб оці ни ти від по від ність кла си фі ка цій та не пе ре січ ність класте рів, роз гля- не мо по ло жен ня класте рів у ор ди на цій ній пло щи- ні 2-х пер ших осей ба га то ви мір но го шка лю ван ня (на ми ви ко риста на функ ція metaMDS па ке ту vegan (Oksanen et al., 2010) се ре до ви ща R), де класте ри по зна че но по лі го на ми по край ніх об'єктах (рис. 3). Як ба чи мо, на рис. 3 класте ри від ме жо ва ні. Отже, зав дан ня кластер но го ана лі зу – ви ді лен- ня ві до крем ле них груп – ви рі ше на. У кла сич но му на бо рі да них було три види: Iris setosa Pall. ex Link, I. versicolor L., I. virginica L., які по ка за но ок ре ми- ми по зна чен ня ми. Ми одер жа ли чо ти ри класте ри, при чо му три з них чіт ко від по ві да ють трьом ви дам, а чет вер тий ста но вить збір ну гру пу I. versicolor та I. virginica. Од нак, з ог ля ду на його ві до крем ле не роз та шу ван ня, і він може вва жа ти ся са мостій ним. Та ким чи ном, по єд ную чи ба га то ви мір не шка лю- ван ня (ор ди на цію) та кластер ний ана ліз (кла си фі- ка цію), що ба зу ють ся на од ній мат ри ці відста ней, мож на ана лі зу ва ти від ме жо ва ність груп (кла сів, класте рів, фі то це но нів), співстав ля ти кла си фі ка ції, ви ко ристо вую чи ор ди на цій ну пло щи ну у якості ос- но ви для ві зу аль но го ана лі зу, про гно зу ва ти на яв ність і фор му ва ти нові гру пи (кла си) об'єктів, ви яв ля ти ано маль ні об'єкти та шум. Рис. 3. Розподіл кластерів DRSA і трьох видів роду Iris набору даних «іриси Фішера» Fig. 3. Allocation of clusters derived from DRSA and Iris species of Fisher's Iris dataset M D S 1 MDS2 http://archive.ics.uci.edu/ml/datasets/Iris http://archive.ics.uci.edu/ml/datasets/Iris 572 ISSN 0372-4123. Ukr. Bot. J., 2016, 73(6) Оцін­ка­ко­ре­ля­ції­фі­то­це­но­тич­них­кла­си­фі­ка­цій Для ви мі рю ван ня ко ре ля ції кла си фі ка цій іс ну- ють кіль кіс ні ін дек си – кое фі ці єн ти ко ре ля ції но мі наль них оз нак. Ві до мі ста тисти ка Кра ме ра (Cramer's V), ін декс Фол кса-Мел ло уса (FM-index) та ін. Ін дек си при йма ють зна чен ня або від –1 до +1 (ті, що вра хо ву ють d-клі тин ку таб ли ці спря же ності і ви мі рю ють та кож не га тив ну ко ре ля цію), або від 0 до 1 (ті, що d-клі тин ку не вра хо ву ють). Зна чен- ня +1, або 100%, вка зує на пов ну іден тич ність двох кла си фі ка цій. Кла си фі ка цій на на леж ність фі то це но зів (опи- сів, об'єктів) до пев них класте рів (фі то це но нів, син так со нів) – но мі наль на оз на ка, а за зна че ні ін- дек си до зво ля ють оці ни ти «уз го дже ність» кла си- фі ка цій. Якщо од на з кла си фі ка цій при йма єть ся за ета лон, то роз ра ху нок ко ре ля ції стає ме то дом ве ри фі ка ції ін шої кла си фі ка ції. Зна чен ня ін дек сів біль ше 0,8 мож на при йня ти як свід чен ня ви со кої ко ре ля ції кла си фі ка цій. Якщо обид ві кла си фі ка ції рів но знач ні і жод на з них не може вва жа ти ся ета- ло ном, то ви со ка ко ре ля ція – мож ли ве свід чен- ня при род ності класте рів, їх від по від ності дійс ній струк ту рі да них: якщо різ ні ме то ди да ють схо жі кла си фі ка ції, ймо вір но, класте ри при род ні. Щоб з'ясувати від по від ність кон крет них класте- ру та кла су, не об хід но до слі ди ти роз по діл об'єктів аль тер на тив них кла си фі ка цій, ви ко ристо вую чи M × N таб ли ці спря же ності, де M та N – кіль кість груп (класте рів) по рів ню ва них кла си фі ка цій. У табл. 1 представ ле ні кое фі ці єн ти по діб ності для мо дель но го на бо ру да них (203 опи сів × 596 ви дів) між класте ра ми ав то ма тич ної кла си фі ка ції DRSA (по го ри зон та лі) та син так со на ми ек сперт ної кла- си фі ка ції Бра ун-Блан ке (по вер ти ка лі), що на ве де- на у пер шо дже ре лі (Chytrý, Horák, 1997). Схо жість пари «кластер-син так сон» роз ра хо ва на ви хо дя чи з кіль кості спіль них опи сів, що увійш ли до од но- го класте ру та син так со ну. Засто со ва но кое фі ці єнт Охаї (Ochiai, 1957). За ре зуль та та ми ав то ма тич ної кла си фі ка ції усьо го було ви ді ле но п'ять фі то це но- нів та «шум», кластер «00». Син так со ни роз та шу- ва ли та ким чи ном, щоб най біль ший кое фі ці єнт по діб ності зна хо див ся на умов ній діа го на лі. Для кра що го ві зу аль но го спри йнят тя у ко мір ках табл. 1 вмі ще но гіс то гра ми. Пер ші п'ять син так со нів (32BA10, 32BA03a, 32BA05, 32BA08, 32BA02) з ви со кою по діб ністю від- по ві да ють п'яти класте рам ав то ма тич ної кла си фі- ка ції (01-05), інші – біль шою (32BA06, 32BA09) або мен шою (32BA03b, 32BA03c, 32BA07) мі рою скла- Таблиця 1. Матриця коефіцієнтів подібності кластерів автоматичної класифікації DRSA і синтаксонів експертної класифікації на прикладі модельного набору даних 203 × 596 Table 1. Matrix of similarity coefficients between clusters of automatic classification derived from the DRSA technique and syntaxa of expert classification of the sample 203 × 596 dataset 01 02 03 04 05 00 32BA10 100 0 0 0 0 0 32BA03a 0 50 0 0 0 35 32BA05 0 0 60 15 0 34 32BA08 0 0 0 89 0 6 32BA02 0 0 0 0 88 7 32BA03b 0 32 0 0 0 8 32BA03c 0 7 10 0 0 18 32BA06 0 4 0 0 0 42 32BA07 0 41 0 0 0 14 32BA09 0 0 0 0 0 36 П р и м і т к а : Коди синтаксонів (Chytrý, Horák, 1997): код 32 – клас Querco-Fagetea, 32B – порядок Quercetalia pubescenti-petraeae, 32BA – союз Quercion pubescenti-petraeae, 32BA02 – асоціація Pruno mahaleb-Quercetum pubescentis, 32BA03 – Sorbo torminalis-Quercetum, 32BA03a – Sorbo torminalis-Quercetum typicum, 32BA03b – Sorbo torminalis-Quercetum caricetosum humilis, 32BA03c – Sorbo torminalis-Quercetum poetosum, 32BA05 – Corno-Quercetum, 32BA06 – Potentillo albae- Quercetum, 32BA07 – Genisto pilosae-Quercetum petraeae, 32BA08 – Quercetum pubescenti-roboris, 32BA09 – Carici fritschii- Quercetum roboris, 32BA10 – Asplenio cuneifolii-Quercetum petraeae. 573ISSN 0372-4123. Укр. ботан. журн., 2016, 73(6) да ють ся пе ре важ но з шу мо вих об'єктів (табл. 1). Син так сон 32BA10 і кластер 01 ма ють пов ну від по- від ність. Пе ре важ не пот ра п лян ня опи сів де кіль кох син так со нів (32BA03a, 32BA03b, 32BA07) в один кластер 02 свід чить про знач ну їхню по діб ність. Та- ким чи ном, таб ли ці спря же ності до зво ля ють оці- ни ти від по від ність ек сперт них син так со нів ок ре- мим класте рам ав то ма тич ної кла си фі ка ції. Оцін­ка­щіль­ності­та­від­ме­жо­ва­ності­фі­то­це­но­нів Го лов ним зав дан ням кластер но го ана лі зу є ви ді- лен ня щіль них та від ме жо ва них груп об'єктів. Для оцін ки якості класте рів у ма те ма тич ній ста тисти ці за про по но ва на знач на кіль кість ін дек сів, які при- йня то на зи ва ти внут ріш ні ми, ос кіль ки вони ба- зу ють ся ви ключ но на мат ри ці відста ней (Rendon et al., 2011). Се ред най більш ві до мих ста тисти ка си луе тів, ін декс Ка лінсько го-Ха ра ба ша (Calinski, Harabasz, 1974) та ін. При роз ра хун ку внут ріш ніх ін дек сів вра хо ву ють відста ні від пев но го об'єкту до об'єктів «сво го» класте ру та до об'єктів у ін ших класте рах. Отже, се ред ня по діб ність за ви до вим скла дом опи сів усе ре ди ні фі то це но нів у по рів нян- ні з по діб ністю цих опи сів з опи са ми з ін ших фі то- це но нів є ана ло гом зга да них внут ріш ніх кри те рі їв у фі то це но ло гії. Нами за про по но ва но ін декс CDR (compactness/ distinctness ratio) (фор му ла 1). Він до зво ляє оці ню- ва ти щіль ність ок ре мих фі то це но нів, ос кіль ки ви- ра хо ву єть ся як се ред нє зна чен ня по діб ності опи- сів за ви до вим скла дом, тому йо го мож на вва жа ти ін дек сом фло ристич ної го мо ген ності це ноф лор ви ді ле них фі то це но нів. Для оцін ки якості кла си- фі ка ції фі то це но тич но го на бо ру да них в ці ло му за- про по но ва но ін декс PQI (partitioning quality index), який роз ра хо ву єть ся як се ред нє CDR усіх класте рів (фор му ла 2): CDR = (wcs – max (bcs) / (wcs + max (bcs) (1), PQI = avg (CDR) = ∑CDR / N (2), де wcs (within-cluster similarity) – по діб ність опи- сів усе ре ди ні класте ру (фі то це но ну); bcs (between- clusters similarity) – по діб ність опи сів різ них класте- рів (фі то це но нів); CDR (compactness/distinctness ratio) – спів від но шен ня щіль ність–від ме жо ва- ність; PQI (partitioning quality index) – ін декс якості по ді лу, N – за галь на кіль кість класте рів. У табл. 2 на ве де но се ред ні зна чен ня кое фі ці єн- тів по діб ності між опи са ми усе ре ди ні фі то це но нів (на діа го на лі), ви ді ле них за ре зуль та та ми DRSA, та між опи са ми різ них фі то це но нів (по за діа го- нал лю). Для роз ра хун ків се редньо го зна чен ня по- діб ності між опи са ми усе ре ди ні та між класте ра ми було узя то вхід ну мат ри цю по діб ності за ви до вим скла дом між опи са ми (210 опи сів), роз ра хо ва ну за кое фі цієн том Охаї, пі сля чого здій сни ли роз ра хун- Таблиця 2. Оцінка щільності та відмежованості фітоценонів автоматичної класифікації DRSA на прикладі модельного фітоценотичного набору даних 210 × 574 Table 2. Assessment of phytocoenons compactness and distinctness of automatic DRSA classification of the sample 210 × 574 dataset No. cluster 1 2 3 4 5 6 7 8 9 No. of releves 7 8 10 33 6 12 12 16 20 1 0,47 0,27 0,10 0,05 0,06 0,03 0,02 0,04 0,03 2 0,27 0,47 0,23 0,07 0,08 0,04 0,01 0,02 0,00 3 0,10 0,23 0,51 0,15 0,14 0,11 0,03 0,06 0,03 4 0,05 0,07 0,15 0,43 0,25 0,28 0,06 0,14 0,10 5 0,06 0,08 0,14 0,25 0,62 0,14 0,07 0,13 0,09 6 0,03 0,04 0,11 0,28 0,14 0,52 0,20 0,20 0,10 7 0,02 0,01 0,03 0,06 0,07 0,20 0,48 0,26 0,19 8 0,04 0,02 0,06 0,14 0,13 0,20 0,26 0,45 0,33 9 0,03 0,00 0,03 0,10 0,09 0,10 0,19 0,33 0,45 10 0,05 0,00 0,01 0,05 0,06 0,05 0,07 0,14 0,25 11 0,05 0,02 0,03 0,17 0,15 0,09 0,07 0,13 0,21 wcs 0,47 0,47 0,51 0,43 0,62 0,52 0,48 0,45 0,45 bcs 0,27 0,27 0,23 0,28 0,25 0,28 0,26 0,33 0,33 CDR 0,28 0,28 0,39 0,21 0,42 0,30 0,30 0,15 0,15 * * Розшифрування див. у тексті статті 574 ISSN 0372-4123. Ukr. Bot. J., 2016, 73(6) ки wcs, bcs, CDR та PQI. У якості мо дель но го на бо ру да них об ра но дані з лі со вої рос лин ності на ціо наль- но го пар ку Тай я таль, Авст рія (Chytrý, Vicherek, 1995). Як вид но з табл. 2, най біль ші зна чен ня по діб- ності роз та шо ву ють ся на діа го на лі, отже у всіх фі- то це но нів ви до вий склад більш по діб ний у опи сів все ре ди ні од но го фі то це но ну, ніж по між фі то це но- на ми. Фі то це но ни знач ною мі рою го мо ген ні за ви- до вим скла дом, по діб ність між опи са ми усе ре ди ні класте рів ко ли ва єть ся від 0,43 до 0,62 і є знач ною. Ви ді ле ні фі то це но ни ма ють при близ но од на ко вий «об'єм» або рі вень по діб ності між опи са ми усе ре ди- ні фі то це но нів, тоб то від по ві да ють од но му ран гу. При клад роз ра хун ку CDR: для класте ру 1 wcs = 0,47, най ближ чим до ньо го є кластер 2 (се ред ня по діб ність між опи са ми цих класте рів bcs = 0,27). Таким чином, CDR = (0,47 – 0,27) / (0,47 + 0,27) = 0,28. Ін декс CDR при ймає зна чен ня від –1 до +1. По- зи тив ний ін декс CDR свід чить про відмежованість фітоценотичного класте ру. Най більш щіль- ним се ред 11 ви ді ле них класте рів є кластер 5: wcs = 0,62, най менш щіль ним – кластер 4, wcs = 0,43. Ін декс CDR че рез знач ну по діб ність ви до во- го скла ду фі то це но нів 8 та 9 най мен ший в класте ру 8 і дорівнює 0,15. За га лом, ін декс CDR в одер жа- них фі то це но нів ко ли ва єть ся від 0,15 (кластер 8) до 0,42 (кластер 5), а з ура ху ван ням усіх 11 фі то це но- нів PQI = avg (CDR) = 0,29. Це свід чить про за до- віль ну якість кла си фі ка ції. Оцін­ка­якості­фі­то­це­но­тич­ної­кла­си­фі­ка­ції­­ кіль­кістю­вір­них­(ди­фе­рен­цію­ю­чих)­ви­дів Ме тод DRSA здій снює ав то ма тич ну кла си фі ка цію фі то це но зів (опи сів), тоб то ви ді лен ня фі то це но нів. Ін тер пре та ція ос тан ніх про во дить ся за ви до вим скла дом. Го во ри ти про при род ність фі то це но тич- них класте рів і їх еко ло гіч ну своє рід ність мож на лише у тому ви пад ку, якщо за ре зуль та та ми кла си- фі ка ції ви дів у фі то це но нів чис лен ні ди фе рен цію- ю чі види. Їх кіль кість є фло ристич ним кри те рі єм якості кла си фі ка ції. Оцін ка ді аг ностич ної сили ви дів здій сню єть ся на ста тистич ній ос но ві роз- ра хун ком ін дек сів вір ності (англ. – fidelity index) (Bruelheide, 2000; Chytrý et al., 2002; De Cáceres et al., 2008). Згід но до під хо ду, що одер жав на зву Optimclass (Tichy, 2010), кіль кість класте рів, а та- кож якість кла си фі ка ції про по ну єть ся ви зна ча ти за мак си маль ною кіль кістю вір них (зі зна чен ня- ми fidelity вище по ро гу) ви дів або за кіль кістю «до- б рих» фі то це но нів, у яких кіль кість вір них ви дів біль ша за об ра ний по ріг. У табл. 3 по ка за но ін ди ка тив ні по каз ни ки кла си- фі ка ції фі то це но тич но го на бо ру да них 780 опи сів × 728 ви дів (Goncharenko, 2003) за ме то дом DRSA із різ ним зна чен ням k. Ми про во ди ли кластер ний ана ліз із пев ним зна чен ням k, фік су ва ли кіль кість класте рів (N_total) та опи сів (об'єктів), вклю че них до скла ду класте рів. По тім ви ко ну ва ли кла си фі ка- цію ви дів. Види із зна чен ням fidelity > 50% вклю- ча ли до спи ску вір них ви дів та під ра хо ву ва ли їхню за галь ну кіль кість (А_total) та по каз ник се редньої кіль кості вір них ви дів на один фі то це нон (A_avg). Як ба чи мо з табл. 3, най біль ша кіль кість вір них ви дів – 145 (або 19,9% усіх ви дів) спос те рі га єть ся у ви пад ку k = 6. При цьо му утво рю єть ся 35 класте- рів, 24 з них (або 69% за галь ної кіль кості) ма ють що най мен ше два вір них види. Та ким чи ном, для да но го фі то це но тич но го на бо ру оп ти маль ним є зна чен ня k = 6 для кластер но го ана лі зу за ме то дом DRSA. Спів від но шен ня кла си фі ко ва них опи сів/ шу му із зростан ням па ра мет ру k ли ша єть ся май же не змін ним (від 49% до 54%), ос кіль ки цей по каз ник за ле жить від особ ли востей да них (го лов ним чи ном Таблиця 3. Кількість вірних видів фітоценонів автоматичної класифікації DRSA на прикладі набору даних 780 × 728 за різних значень k Table 3. Number of faithful species of phytocoenons derived from automatic DRSA classification of the sample 780 × 728 dataset at different values of the parameter k Параметр k Описи в кластерах, % N_total N_good А_total A_avg 3 49 49 11 125 2.6 4 52 44 17 133 3 5 53 43 18 133 3.1 6 53 35 24 145 4.1 7 54 30 23 133 4.4 8 54 26 21 141 5.4 9 51 25 23 142 5.7 10 50 22 19 111 5 П р и м і т к а : N_total – загальна кількість кластерів (фітоценонів), N_good – кількість «добрих» кластерів (фітоценонів), що мають мінімум два вірних види, для яких fidelity > 50%, А_total – загальна кількість вірних видів усіх фітоценонів, A_avg – кількість вірних видів у середньому на фітоценон. 575ISSN 0372-4123. Укр. ботан. журн., 2016, 73(6) бета-різ но ма ніт ності да них) і не за ле жить від кіль- кості ви ді ле них класте рів. Із зростан ням па ра мет- ру k кіль кість класте рів мо но тон но змен шу єть ся і зростає та кож по каз ник A_avg. Це пов'язано з тим, що од но час но із ук руп нен ням фі то це но тич них класте рів, вони ста ють більш від мін ни ми за ви до- вим скла дом. Як на слі док, кіль кість ди фе рен цію ю- чих ви дів на фі то це нон A_avg зростає. Ана ло гіч ну тен ден цію ми спос те рі гає мо при пе ре хо ді від рів ня асо ціа цій до рів ня сою зів, по ряд ків і т. ін. Вплив­бра­ку­ван­ня­пе­ре­хід­них­фі­то­це­но­зів­на­якість­ кла­си­фі­ка­ції­фі­то­це­но­тич­них­да­них Згід но до ме то ди ки Бра ун-Блан ке бра ку ван ня пе- ре хід них опи сів (фі то це но зів із еко тон ним ви до- вим скла дом) ста но вить не від'ємну час ти ну ана лі- тич но го ета пу кла си фі ка ції. Воно мо же скла да ти до 60% за галь ної кіль кості опи сів за леж но від да них: збіль шен ня се редньої по діб ності опи сів (змен шен- ня еко ло го-фі то це но тич но го діа па зо ну), як пра ви- ло, при зво дить до збіль шен ня бра ку ван ня. Ме тод DRSA здій снює ви зна чен ня шу мо вих об'єктів (пе ре хід них опи сів) під час та по за вер- шен ню гру пу ван ня. Цей про цес від бу ва єть ся на ос- но ві ін фор ма ції з мат ри ці відста ней між об'єктами, та ким чи ном здій сню єть ся на кіль кіс ній ос но ві. Це знач но об'єктивізує ви зна чен ня пе ре хід них фі то- це но зів, адже у ме то ді Бра ун-Блан ке воно від бу ва- єть ся на роз суд фі то це но ло га і є суб'єктивним. Від- со ток опи сів, вклю че них до класте рів DRSA, склав 49–54%, від по від но дру га час ти на опи сів – шум (див. табл. 3). Бра ку ван ня пе ре хід них опи сів має важ ли ве зна- чен ня. Зде біль шо го фі то це но тич ні на бо ри да них кон ти ну аль ні. Кон ти ну ум є фун да мен таль ною ос но вою ор га ні за ції рос лин но го по кри ву і тра п- ля єть ся знач но час ті ше, ніж дис крет ні дані з чіт ко оформ ле ни ми син так со на ми. Ос кіль ки вір ни ми (ди фе рен цію ю чи ми) ви да ми є види, що тя жі ють до од но го син так со ну (фі то це но ну) та від сут ні в ін- ших, кіль кість ди фе рен цію ю чих ви дів, як пра ви ло, не знач на, але збіль шу єть ся внас лі док бра ку ван ня пе ре хід них опи сів. При цьо му від мін ності ви до во го скла ду між фі то це но на ми зроста ють, збіль шу єть ся кіль кість ста тистич но вір них ви дів, зроста ють по- каз ни ки якості кла си фі ка ції. Отже бра ку ван ня до- зво ляє сут тє во по кра щи ти ре зуль тат кла си фі ка ції. На рис. 4 представ ле ні по каз ни ки кіль кості вір них ви дів та ста тисти ки си луе тів для трьох мо- 137 51 48174 126 64 0 100 200 215×617 210×574 203×596 original DRSA 3.4 2.4 6 8.7 11.5 12.8 0 10 20 215×617 210×574 203×596 original DRSA 0.16 0.03 0.060.23 0.19 0.14 0 0.2 0.4 215×617 210×574 203×596 original DRSA Рис. 4. Загальна кількість вірних видів (а), кількість вірних видів у середньому на фітоценон (b), статистика силуетів для автоматичної (DRSA) та еталонної (оригінальної) класифікації (с) Fig. 4. Total amount of faithful species (а), аverage amount of faithful species per phytocoenon (b), silhouette statistics for automatic (DRSA) and reference (original) classification (с) 576 ISSN 0372-4123. Ukr. Bot. J., 2016, 73(6) дель них фі то це но тич них на бо рів фі то це но тич них да них 215 × 617, 210 × 574 та 203 × 596 пі сля ав то- ма тич ної їхньої кла си фі ка ції за ме то дом DRSA. Для по рів нян ня на ве де но ана ло гіч ні по каз ни ки для цих са мих да них, роз ра хо ва ні для ори гі наль- них ав торських (ета лон них) кла си фі ка цій. На бір да них № 1 – 215 опи сів × 617 ви дів, рос лин ність у до ли нах рі чок Ос ла ви, Їг ла ви та Ро кит ної (Че хія) (Chytrý, Vicherek, 1996), на бір да них № 2 – 210 опи- сів × 574 види, лі со ва рос лин ність На ціо наль но го пар ку Тай а таль (Авст рія) (Chytrý, Vicherek, 1995), на бір да них № 3 – 203 опи си × 596 ви дів, тер мо- філь ні ліси Мо ра вії (Че хія) (Chytrý, Horák, 1997). Фло ристич ний кри те рій (рис. 4, а, b), а саме – кіль кість вір них ви дів, та ма те ма тич ний кри те рій (рис. 4, с) вия ви ли ся кра щи ми, ніж для ори гі наль- них кла си фі ка цій, на ве де них чеськи ми фі то це но- ло га ми. Цей факт по яс ню єть ся тим, що у ви пад ку кла си фі ка ції DRSA до класте рів увійш ли не всі опи си, час ти на їх була ви клю че на зі скла ду фі то- це но нів (шум). Так, для фі то це но тич но го на бо ру да них № 1, що на ра хо ву вав 215 опи сів, до ре зуль- тую чих 20 фі то це но тич них класте рів увійш ло 169 опи сів (або 79% їхньої за галь ної кіль кості). Отже, бра ку ван ня ста но ви ло 21% опи сів. Для по рів нян- ня у ори гі наль ній ро бо ті (Chytrý, Vicherek, 1996) було ви ді ле но 40 син так со нів ран гу асо ціа ції та суб асо ціа ції. Та ким чи ном, кіль кість фі то це но нів у ви пад ку DRSA мен ша вдві чі. Але при цьо му за- галь на кіль кість вір них ви дів (при по ро зі fidelity > 50%) зрос ла з 137 до 174 (збіль ши ла ся у 1,27 рази) (рис. 4, a), у се редньо му на фі то це нон – з 3,4 ви дів/ фі то це нон до 8,7 видів/фі то це нон (збіль ши ла ся в 2,56 рази) (рис. 4, b). Ана ло гіч но і для ста тисти- ки си луе тів: вона збіль ши ла ся з 0,16 до 0,23 (у 1,44 рази) (рис. 4, с). Та ким чи ном, уна слі док бра ку ван- ня опи сів та ук руп нен ня фі то це но нів вда ло ся по- кра щи ти ін дек си якості кла си фі ка ції в по рів нян ні з ори гі наль ни ми кла си фі ка ція ми, на ве де ни ми у пер шо дже ре лах. Чи пра виль но ви зна ча ють ся пе ре- хід ні опи си під час кла си фі ка ції DRSA, адже цей про цес від бу ва єть ся без участі ек спер та? Якщо би з того ж ма си ву да них ми ви да ли ли 21% опи сів, ві діб ра них ви пад ко вим чи ном, то по каз ни ки би якості кла си фі ка ції не збіль ши ли ся. Отже, у DRSA пе ре хід ні опи си (шум) ви зна ча ють ся вір но, ос кіль- ки зростає кіль кість вір них ви дів. Ви снов ки Нами роз гля ну то ме тод кластер но го ана лі зу, що має пе ре ва ги для кла си фі ка ції рос лин ності. Як ві- до мо, до не па ра мет рич них ме то дів вда ють ся у ви- пад ку за шу мо ва них, не од но рід них, не пов них да- них, та ких, що від хи ляють ся від нор маль но го роз- по ді лу. Під час гру пу ван ня у ме то ді DRSA час ти на опи- сів (об'єктів) ви клю ча єть ся зі скла ду класте рів (фі- то це но нів), т. з. шум. Ви зна чен ня пе ре хід них опи- сів (шу му) здій сню єть ся на кіль кіс ній ос но ві і це об'єктивізує бра ку ван ня перехідних описів, по кра- щує фло ристич ні та ма те ма тич ні кри те рії якості кла си фі ка ції, до зво ляє от ри му ва ти більш дис крет- ні фі то це но тич ні класте ри, які ма ють чис лен ні ди- фе рен цію ю чі види і кра ще ін тер пре ту ють ся. У цій стат ті ми та кож роз гля ну ли різ ні під хо- ди до оцін ки якості фі то це но тич ної кла си фі ка ції. Кож ний з ас пек тів оцін ки якості кла си фі ка ції до- пов нює ін ший. Так, ви ко ристо вую чи кое фі ці єн ти но мі наль ної ко ре ля ції або таб ли ці спря же ності, мож на по рів ню ва ти де кіль ка фі то це но тич них кла- си фі ка цій. За на яв ності мат ри ці відста ней між опи са ми за ви до вим скла дом мож на оці ни ти щіль- ність та від ме жо ва ність одер жа них фі то це но нів. Збіль шен ня по каз ни ка се редньої по діб ності між опи са ми од но го фі то це но ну (син так со ну) у по- рів нян ні з по діб ністю ін ших фі то це но нів (син так- со нів) свід чить про якіс ний по діл. Ви ко ристан ня кіль кості ди фе рен цію ю чих ви дів до зво ляє не лише оці ню ва ти якість кла си фі ка ції за фло ристич ним кри те рі єм, а й про во ди ти по рів няль ний ана ліз це- ноф лор син так со нів. Та ким чи ном, роз гля ну тий ме тод кластер но го ана лі зу DRSA, є пер спек тив ни м при ана лі зі фі то- це но тич них за шу мо ва них, не пов них, ба га то оз на- ко вих, різ но рід них да них. СПИСОК ЛІТЕРАТУРИ Bruelheide H. A new measure of fidelity and its application to defining species groups, J. Veget. Sci., 2000, 11: 167–178. Calinski R.B., Harabasz J. A Dendrite Method for Cluster Analysis, Communications in Statistics, 1974, 3: 1–27. Chytrý M., Horák J. Plant communities of the thermophilous oak forests in Moravia, Preslia, 1997, 68: 193–240. Chytrý M., Tichý L., Holt J., Botta-Dukát Z. Determi- nation of diagnostic species with statistical fidelity measures, J. Veget. Sci., 2002, 13: 79–90. 577ISSN 0372-4123. Укр. ботан. журн., 2016, 73(6) Chytrý M., Vicherek J. Lesní vegetace Národního parku Podyjí/Thayatal. Die Waldvegetation des Nationalparks Podyjí/Thayatal, Praha, 1995, 166 pp. Chytrý M., Vicherek J. Přirozená a polopřirozená vegetace údolí řek Oslavy, Jihlavy a Rokytné, Přírod. Sborn. Zápa domorav. Muz. Třebíč, 1996, 22: 1–125. Cover T.M., Hart P.E. Nearest neighbor pattern classification, Inform. Theory, 1967, 13: 21–27. De Cáceres M., Font X., Oliva F. Assessing diagnostic species value in large data sets: A comparison between phi-coefficient and Ochiai index, J. Veget. Sci., 2008, 19: 779–788. Goncharenko I.V. Analiz roslynnogo pokryvu pivnichno- skhidnogo Lisostepu Ukrainy. Monografiya. In: Ukr. Phytosoc. Col. (spec. issue), 2003, 1(19): 203 pp. [Гон- чаренко І.В. Аналіз рослинного покриву північно- східного Лісостепу України. Монографія // Укр. фі- тоценот. зб. (спец. вип.). – 2003. – 19(1). – 203 c.]. Goncharenko I.V. DRSA (distance-ranked sorting assem- bling) – metod sortuyuchogo klasternogo analizu. Svidot- stvo pro reyestratsiyu avtorskogo prava, № 58837, publ. 26.02.2015, 2015a, Byull. no 36. [Гончаренко І.В. DRSA (distance-ranked sorting assembling) – метод сортуючо- го кластерного аналізу // Свід-во про реєстрацію ав- торського права на збірку наукових творів № 58837 від 26.02.2015 р. – 2015a. – Бюл. № 36.]. Goncharenko I.V. Reports of the National Academy of Sciences of Ukraine, 2015b, 9: 129–136. [Гон- чаренко І.В. Метод «сортуючої» кластеризацiї (DRSA) для класифiкацiї рослинностi // Доп. НАН України. – 2015b. – 9. – C. 129–136]. Goncharenko I.V. Vegetation of Russia, 2015c, 27: 125–138. [Гончаренко И.В. DRSA: алгоритм неиерархической кластеризации с использованием k-NN графа и его применение в классификации растительности // Растительность России. – 2015с. – 27. – С. 125–138]. Goodall D.W. Numerical classification. In: Handbook of vegetation Science. Part V: Ordination and Classification of Vegetation. Ed. R.H. Whittaker, The Hague: Junk, 1973, pp. 105–156. Halkidi M., Batistakis Y., Vazirgiannis M. On Clustering Validation Techniques, J. Intell. Inform. Systems, 2001, 17: 107–145. Hennekens S.M. MEGATAB – a visual editor for phytoso- ciological tables. Version 1.0. Oсtober 1996. Ulft., 1996, 11 pp. Hill M.O. TWINSPAN – A FORTRAN program for arranging multivariate data in an ordered two-way table by classifi- cation of the individuals and attributes. Program manual, Ithaca; New York: Cornell Univ., 1979, 90 pp. Hill M.O., Šmilauer P. TWINSPAN for Windows version 2.3, Huntingdon & České Budějovice: Centre for Ecology and Hydrology & Univ. of South Bohemia, 2005, 29 рp. Kosman Ye.H., Sirenko I.P., Solomakha V.A., Shelyah- Sosonko Yu.R. Ukr. Bot. J., 1991, 48(2): 98–104. [Косман Є.Г., Сіренко І.П., Соломаха В.А., Ше- ляг-Сосонко Ю.Р. Новий комп'ютерний метод об- робки описів рослинних угруповань // Укр. ботан. журн. – 1991. – 48(2). – С. 98–104]. Legendre P., Legendre L. Numerical ecology, 2nd English ed., Amsterdam: Elsevier, 1998, 853 pp. Ochiai A. Zoogeographic studies on the soleoid fishes found in Japan and its neighbouring regions, Bull. Japan. Soc. Fish Sci., 1957, 22(9): 526–530. Oksanen J., Blanchet F.G., Kindt R., Legendre P., O'Hara R.G., Simpson G.L., Solymos P., Stevens M.H.H., Wagner H. Vegan: Community Ecology Package, 2010, available at: http://cran.r-project.org/web/packages/vegan/ (acces- sed 22 March 2016). Rendon E. Abundez I., Arizmendi A., Quiroz E.M. Internal versus external cluster validation indices, Intern. J. Computers and Communications, 2011, 5(1): 27–34. Semkin B.I. Ekvivalentnost mer blizosti i ierarkhicheskaya klassifikatsiya mnogomernykh dannykh. In: Ierarkh- icheskie klassifikatsionnye postroeniya v geografiches- koy ekologii i sistematike. Ed. B.I. Semkin, Vladivostok, DVNTs AN USSR, 1979, pp. 97–112. [Сёмкин Б.И. Эквивалентность мер близости и иерархическая классификация многомерных данных // Иерархи- ческие классификационные построения в географиче- ской экологии и систематике / Отв. ред. Б.И. Сем- кин. – Владивосток: ДВНЦ АН СССР. – С. 97–112]. Sokal R., Sneath P. Principles of Numerical Taxonomy, San Francisco, CA: Wit. Freeman, 1963, 573 рp. Tichý L. JUICE, software for vegetation classification, J. Veget. Sci., 2002, 13: 451–453. Tichý L., Chytrý M., Hájek M., Talbot S.S., Botta- Dukát Z. OptimClass: Using species-to-cluster fidelity to determine the optimal partition in classification of ecological communities, J. Veget. Sci., 2010, 21: 287–299. Vasilevich V.I. Statisticheskie metody v geobotanike, Len- ingrad: Nauka, 1969, 232 рр. [Василевич В.И. Ста- тистические методы в геоботанике. – Л.: Наука, 1969. – 232 c.]. Рекомендує до друку Надійшла 04.04.2016 Я.П. Дідух http://cran.r-project.org/web/packages/vegan/ 578 ISSN 0372-4123. Ukr. Bot. J., 2016, 73(6) Гончаренко І.В. Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності. – Укр. ботан. журн. – 2016, 73(6): 568–578. Інститут еволюційної екології НАН України вул. акад. Лебедєва, 37, м. Київ, 03143, Україна Розглядаються переваги застосування методу кластерно- го аналізу «Distance-Ranked Sorting Assembling» (DRSA) для класифікації рослинності. Використання рангів при визначенні відстаней між об'єктами забезпечує робаст- ність і ефективність при обробці зашумованих, різно- рідних фітоценотичних даних. Алгоритм групування об'єктів базується на ранжуванні об'єктів за індексами вільності та зв'язаності і виділенні кластерів у структурі k-NN графа. Нарощування кластерів припиняється по досягненню максимуму зв'язаності кластерів. Детально розглядаються підходи до оцінки якості класифікації фітоценотичних даних – за показниками щільності та відмежованості кластерів (фітоценонів), за кількістю диференціюючих видів. Для оцінки кореляції фітоце- нотичних класифікацій пропонується використовува- ти коефіцієнти кореляції номінальних ознак та таблиці спряженості альтернативних класифікацій. Оцінювати щільність та відмежованість фітоценонів пропонується з використанням внутрішніх індексів валідації кластерів, зокрема статистики силуетів. Запропоновано індекс CDR (compactness / distinctness ratio), який враховує співвід- ношення подібності описів за видовим складом всереди- ні фітоценонів та між фітоценонами. Загальна кількість диференціюючих видів та їхня середня кількість на фіто- ценон використані як флористичний критерій для оцін- ки якості класифікації. Виділення диференціюючих ви- дів проведено на статистичній основі з використанням індексів вірності видів. На модельних фітоценотичних наборах даних показано, що бракування перехідних опи- сів покращує і внутрішні, і флористичні критерії якості класифікації. Ключові слова: DRSA, кластерний аналіз, метод Браун- Бланке, фітоценон, якість класифікації Гончаренко И.В. Применение метода DRSA – непараметрического кластерного анализа в классификации растительности. – Укр. ботан. журн. – 2016, 73(6): 568–578. Институт эволюционной экологии НАН Украины ул. акад. Лебедева, 37, г. Киев, 03143, Украина Рассматриваются преимущества использования ме- тода кластерного анализа «Distance-Ranked Sorting Assembling» (DRSA) в классификации растительности. Использование рангов при определении расстояний между объектами обеспечивает робастность и эффек- тивность при обработке зашумленых, разнородных фи- тоценотических данных. Алгоритм группировки объек- тов базируется на ранжировании объектов по индексам свободности-связанности и выделении кластеров в структуре k-NN графа. Наращивание кластеров пре- кращается при достижении максимума связности кла- стеров. Подробно рассматриваются подходы к оценке качества классификации фитоценотических данных – с использованием индексов плотности-обособленности кластеров (фитоценонов) и по количеству дифферен- цирующих видов. Для оценки корреляции фитоцено- тических классификаций предлагается использовать коэффициенты корреляции номинальных признаков и таблицы сопряженности альтернативных классифика- ций. Оценить плотность и обособленность фитоценонов предлагается с использованием внутренних индексов валидации кластеров, в частности статистики силуэтов. Предложен индекс CDR (compactness / distinctness ratio), учитывающий соотношение сходства описаний по ви- довому составу внутри фитоценонов и между фитоцено- нами. Общее количество дифференцирующих видов и их среднее количество на фитоценон используются как флористический критерий оценки качества классифи- кации. Выделение дифференцирующих видов проведе- но на статистической основе с использованием индек- сов верности видов. На модельных фитоценотических наборах данных показано, что браковка переходных описаний улучшает и внутренние, и флористические критерии качества классификации. Ключевые слова: DRSA, кластерный анализ, метод Браун-Бланке, фитоценон, качество классификации
id nasplib_isofts_kiev_ua-123456789-178486
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0372-4123
language Ukrainian
last_indexed 2025-11-29T00:30:48Z
publishDate 2016
publisher Інститут ботаніки ім. М.Г. Холодного НАН України
record_format dspace
spelling Гончаренко, І.В.
2021-02-19T14:56:57Z
2021-02-19T14:56:57Z
2016
Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності / І.В. Гончаренко // Український ботанічний журнал. — 2016. — Т. 73, № 6. — С. 568-578. — Бібліогр.: 27 назв. — укр.
0372-4123
DOI: http://dx.doi.org/10.15407/ukrbotj73.06.568
https://nasplib.isofts.kiev.ua/handle/123456789/178486
Розглядаються переваги застосування методу кластерного аналізу «Distance-Ranked Sorting Assembling» (DRSA) для класифікації рослинності. Використання рангів при визначенні відстаней між об'єктами забезпечує робастність і ефективність при обробці зашумованих, різнорідних фітоценотичних даних. Алгоритм групування об'єктів базується на ранжуванні об'єктів за індексами вільності та зв'язаності і виділенні кластерів у структурі k-NN графа. Нарощування кластерів припиняється по досягненню максимуму зв'язаності кластерів. Детально розглядаються підходи до оцінки якості класифікації фітоценотичних даних – за показниками щільності та відмежованості кластерів (фітоценонів), за кількістю диференціюючих видів. Для оцінки кореляції фітоценотичних класифікацій пропонується використовувати коефіцієнти кореляції номінальних ознак та таблиці спряженості альтернативних класифікацій. Оцінювати щільність та відмежованість фітоценонів пропонується з використанням внутрішніх індексів валідації кластерів, зокрема статистики силуетів. Запропоновано індекс CDR (compactness / distinctness ratio), який враховує співвідношення подібності описів за видовим складом всередині фітоценонів та між фітоценонами. Загальна кількість диференціюючих видів та їхня середня кількість на фітоценон використані як флористичний критерій для оцінки якості класифікації. Виділення диференціюючих видів проведено на статистичній основі з використанням індексів вірності видів. На модельних фітоценотичних наборах даних показано, що бракування перехідних описів покращує і внутрішні, і флористичні критерії якості класифікації.
Рассматриваются преимущества использования метода кластерного анализа «Distance-Ranked Sorting Assembling» (DRSA) в классификации растительности. Использование рангов при определении расстояний между объектами обеспечивает робастность и эффективность при обработке зашумленых, разнородных фитоценотических данных. Алгоритм группировки объектов базируется на ранжировании объектов по индексам свободности-связанности и выделении кластеров в структуре k-NN графа. Наращивание кластеров прекращается при достижении максимума связности кластеров. Подробно рассматриваются подходы к оценке качества классификации фитоценотических данных – с использованием индексов плотности-обособленности кластеров (фитоценонов) и по количеству дифференцирующих видов. Для оценки корреляции фитоценотических классификаций предлагается использовать коэффициенты корреляции номинальных признаков и таблицы сопряженности альтернативных классификаций. Оценить плотность и обособленность фитоценонов предлагается с использованием внутренних индексов валидации кластеров, в частности статистики силуэтов. Предложен индекс CDR (compactness / distinctness ratio), учитывающий соотношение сходства описаний по видовому составу внутри фитоценонов и между фитоценонами. Общее количество дифференцирующих видов и их среднее количество на фитоценон используются как флористический критерий оценки качества классификации. Выделение дифференцирующих видов проведено на статистической основе с использованием индексов верности видов. На модельных фитоценотических наборах данных показано, что браковка переходных описаний улучшает и внутренние, и флористические критерии качества классификации.
Advantages of the original clustering method of DRSA, or Distance-Ranked Sorting Assembling, for vegetation classification are discussed. Using ranks in determining distances between objects provides robust clustering in case of noisy and heterogeneous phytocoenotic data. Algorithm of objects agglomeration is based on ranking objects by the indices of freeness and connectedness as well as on assessing clusters within k-NN graph’s framework. Clusters are assembled iteratively for some time to be finalized at the maximum of cluster’s connectivity. We also consider in detail approaches to assess classification quality of phytocoenotic dataset including degree of cluster’s (phytocoenon) compactess-distinctness and amount of differential species. We propose using nominal correlation coefficients to evaluate concordance of phytocoenotic classifications and contingency tables to compare frequencies of common releves between different classifications. Phytocoenon’s compactness and distinctness are evaluated using well-known internal cluster validation indices, e.g. silhouette statistics. We introduced CDR-index (compactness / distinctness ratio) which is calculated from the score of average similarity of within-phytocoenon and between-phytocoenons releves. Total amount of faithful (differential) species and average amount of them per phytocoenon as floristic index of partitioning quality were used. We classified differential species on a statistical basis calculating specied-to-cluster fidelity index and selecting species with fidelity above defined fidelity’s threshold. Using the sample phytocoenotic datasets we proved that both internal and floristic indices of classification quality improve after the exclusion of transient releves with ecotonic species composition. In the DRSA method, noise detection is carried out during cluster agglomeration; this objectifies rejecting ecotonic releves according to Braun-Blanquet approach as well as increases amount of differential species and thus improves phytocoenons interpretability.
uk
Інститут ботаніки ім. М.Г. Холодного НАН України
Український ботанічний журнал
Геоботаніка, екологія, охорона рослинного світу
Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності
Применение метода DRSA – непараметрического кластерного анализа в классификации растительности
Application of the DRSA technique, a non-parametric cluster analysis, in vegetation classification
Article
published earlier
spellingShingle Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності
Гончаренко, І.В.
Геоботаніка, екологія, охорона рослинного світу
title Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності
title_alt Применение метода DRSA – непараметрического кластерного анализа в классификации растительности
Application of the DRSA technique, a non-parametric cluster analysis, in vegetation classification
title_full Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності
title_fullStr Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності
title_full_unstemmed Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності
title_short Застосування методу DRSA – непараметричного кластерного аналізу в класифікації рослинності
title_sort застосування методу drsa – непараметричного кластерного аналізу в класифікації рослинності
topic Геоботаніка, екологія, охорона рослинного світу
topic_facet Геоботаніка, екологія, охорона рослинного світу
url https://nasplib.isofts.kiev.ua/handle/123456789/178486
work_keys_str_mv AT gončarenkoív zastosuvannâmetodudrsaneparametričnogoklasternogoanalízuvklasifíkacííroslinností
AT gončarenkoív primeneniemetodadrsaneparametričeskogoklasternogoanalizavklassifikaciirastitelʹnosti
AT gončarenkoív applicationofthedrsatechniqueanonparametricclusteranalysisinvegetationclassification