Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів

Досліджується ієрархічна кластеризація текстових документів у просторі семантичних концептів, утвореному внаслідок сингулярного розкладу матриці текстових частотних характеристик семантичних полів. Показано, що кластерна структура в такому просторі може відображати класифікації документів за різними...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Математичні машини і системи
Datum:2012
1. Verfasser: Павлишенко, Б.М.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Інститут проблем математичних машин і систем НАН України 2012
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/59595
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів / Б.М. Павлишенко // Мат. машини і системи. — 2012. — № 1. — С. 69-76. — Бібліогр.: 8 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-59595
record_format dspace
spelling Павлишенко, Б.М.
2014-04-09T11:13:00Z
2014-04-09T11:13:00Z
2012
Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів / Б.М. Павлишенко // Мат. машини і системи. — 2012. — № 1. — С. 69-76. — Бібліогр.: 8 назв. — укр.
1028-9763
https://nasplib.isofts.kiev.ua/handle/123456789/59595
519.765:519.767:004.93
Досліджується ієрархічна кластеризація текстових документів у просторі семантичних концептів, утвореному внаслідок сингулярного розкладу матриці текстових частотних характеристик семантичних полів. Показано, що кластерна структура в такому просторі може відображати класифікації документів за різними ознаками, зокрема, за авторством текстів.
Исследуется иерархическая кластеризация текстовых документов в пространстве семантических концептов, образованном вследствие сингулярного разложения матрицы текстовых частотных характеристик семантических полей. Показано, что кластерная структура в таком пространстве может отображать классификации документов по разным признакам, в частности, по авторству текстов.
The hierarchical clusterization of the text documents in the field of semantic concepts formed as a result of singular value matrix decomposition of the text frequencies characteristics of semantic fields has been investigated. It is shown that the cluster structure can represent documents classification by different characteristics particularly text authorship.
uk
Інститут проблем математичних машин і систем НАН України
Математичні машини і системи
Нові інформаційні і телекомунікаційні технології
Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів
Сингулярная декомпозиция матрицы семантических признаков в алгоритме иерархической кластеризации текстовых массивов
Singular value decomposition of the matrix of semantic characteristics in the algorithm of hierarchical text arrays clusterization
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів
spellingShingle Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів
Павлишенко, Б.М.
Нові інформаційні і телекомунікаційні технології
title_short Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів
title_full Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів
title_fullStr Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів
title_full_unstemmed Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів
title_sort сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів
author Павлишенко, Б.М.
author_facet Павлишенко, Б.М.
topic Нові інформаційні і телекомунікаційні технології
topic_facet Нові інформаційні і телекомунікаційні технології
publishDate 2012
language Ukrainian
container_title Математичні машини і системи
publisher Інститут проблем математичних машин і систем НАН України
format Article
title_alt Сингулярная декомпозиция матрицы семантических признаков в алгоритме иерархической кластеризации текстовых массивов
Singular value decomposition of the matrix of semantic characteristics in the algorithm of hierarchical text arrays clusterization
description Досліджується ієрархічна кластеризація текстових документів у просторі семантичних концептів, утвореному внаслідок сингулярного розкладу матриці текстових частотних характеристик семантичних полів. Показано, що кластерна структура в такому просторі може відображати класифікації документів за різними ознаками, зокрема, за авторством текстів. Исследуется иерархическая кластеризация текстовых документов в пространстве семантических концептов, образованном вследствие сингулярного разложения матрицы текстовых частотных характеристик семантических полей. Показано, что кластерная структура в таком пространстве может отображать классификации документов по разным признакам, в частности, по авторству текстов. The hierarchical clusterization of the text documents in the field of semantic concepts formed as a result of singular value matrix decomposition of the text frequencies characteristics of semantic fields has been investigated. It is shown that the cluster structure can represent documents classification by different characteristics particularly text authorship.
issn 1028-9763
url https://nasplib.isofts.kiev.ua/handle/123456789/59595
citation_txt Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів / Б.М. Павлишенко // Мат. машини і системи. — 2012. — № 1. — С. 69-76. — Бібліогр.: 8 назв. — укр.
work_keys_str_mv AT pavlišenkobm singulârnadekompozicíâmatricísemantičnihoznakvalgoritmííêrarhíčnoíklasterizacíítekstovihmasivív
AT pavlišenkobm singulârnaâdekompoziciâmatricysemantičeskihpriznakovvalgoritmeierarhičeskoiklasterizaciitekstovyhmassivov
AT pavlišenkobm singularvaluedecompositionofthematrixofsemanticcharacteristicsinthealgorithmofhierarchicaltextarraysclusterization
first_indexed 2025-11-27T02:05:30Z
last_indexed 2025-11-27T02:05:30Z
_version_ 1850792714520494080
fulltext © Павлишенко Б.М., 2012 69 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 УДК 519.765:519.767:004.93 Б.М. ПАВЛИШЕНКО СИНГУЛЯРНА ДЕКОМПОЗИЦІЯ МАТРИЦІ СЕМАНТИЧНИХ ОЗНАК В АЛГОРИТМІ ІЄРАРХІЧНОЇ КЛАСТЕРИЗАЦІЇ ТЕКСТОВИХ МАСИВІВ Анотація. Досліджується ієрархічна кластеризація текстових документів у просторі семантич- них концептів, утвореному внаслідок сингулярного розкладу матриці текстових частотних ха- рактеристик семантичних полів. Показано, що кластерна структура в такому просторі може відображати класифікації документів за різними ознаками, зокрема, за авторством текстів. Ключові слова: інтелектуальний аналіз текстів, кластерний аналіз, семантичні поля, сингулярна декомпозиція матриці, латентний семантичний аналіз. Аннотация. Исследуется иерархическая кластеризация текстовых документов в пространстве семантических концептов, образованном вследствие сингулярного разложения матрицы тексто- вых частотных характеристик семантических полей. Показано, что кластерная структура в таком пространстве может отображать классификации документов по разным признакам, в частности, по авторству текстов. Ключевые слова: интеллектуальний анализ текстов, кластерный анализ, семантические поля, сингулярная декомпозиция матрицы, латентный семантический анализ. Abstract. The hierarchical clusterization of the text documents in the field of semantic concepts formed as a result of singular value matrix decomposition of the text frequencies characteristics of semantic fields has been investigated. It is shown that the cluster structure can represent documents classification by dif- ferent characteristics particularly text authorship. Keywords: intellectual text analysis, cluster analysis, semantic fields, singular value matrix decomposition of the text, latent semantic analysis. 1. Вступ Алгоритми кластеризації широко використовуються в інтелектуальному аналізі даних [1– 3], зокрема, при вивченні структури текстових масивів [3]. Для представлення текстових документів часто використовують модель векторного простору [3, 4]. У цій моделі кожний документ відображається як вектор у багатовимірному просторі, кожний вимір якого від- повідає квантитативній характеристиці лексеми із словників текстових масивів. Текстовий масив можна представити у вигляді матриці ознак слів (термів) та документів. Такими ознаками можуть бути текстові частоти лексем. У матриці ознак колонки визначають до- кументи, а рядки – частоти лексем у цих документах. Кожна колонка матриці ознак є век- тором частот лексем для певного документа. Мірою відстані між двома документами може бути кут між векторами цих документів в утвореному векторному просторі. Такий підхід має також ряд проблем, зокрема, розмірність аналізованого простору є великою, оскільки зумовлена розміром словника. Одним із шляхів вирішення цієї проблеми є використання латентного семантичного аналізу [4–6]. Суть такого аналізу полягає в сингулярному розк- ладі матриці ознак типу “терми–документи” і аналізі текстових масивів у новому вектор- ному просторі меншої розмірності. Базис цього простору побудований на лінійних комбі- націях квантитативних характеристик лексем словника. Такий новий векторний простір часто називають простором концептів (в деяких статтях – простором гіпотез). Розмірність нового простору визначається кількістю найбільших сингулярних чисел – елементів діаго- нальної матриці сингулярного розкладу. Документи також можуть бути квантитативно близькими не тільки за частотами окремих лексем, а також за характеристиками заданих лексемних об’єднань, зокрема, семантичних полів [7, 8]. Розмірність матриці ознак «сема- нтичні_поля–документи» є суттєво меншою у порівнянні із матрицею ознак для лексем словника текстових масивів. Семантичні поля формуються на основі експертного аналізу, 70 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 одні і ті ж лексеми можуть одночасно належати до різних семантичних полів. Сингулярна декомпозиція матриці семантичних ознак дасть можливість аналізувати текстові масиви в ще меншому векторному просторі. Визначити ефективність такої декомпозиції можна, аналізуючи утворення кластерної структури в новому семантичному просторі концептів для класифікованих за певною ознакою текстових документів. Такою ознакою може бути, наприклад, спільний стиль або автор. Сингулярна декомпозиція матриці семантичних ознак буде ефективною у випадку відображення класифікаційної структури в кластерній структурі, утвореній у новому векторному просторі семантичних концептів. 2. Постановка задачі Для аналізу ефективності сингулярної декомпозиції матриці семантичних ознак розгляне- мо утворення матриці «частоти_семантичних_полів–документи» та проаналізуємо сингу- лярний розклад цієї матриці. На прикладі тестової вибірки текстових документів проаналі- зуємо утворення ієрархічної кластерної структури у векторних просторах семантичних концептів різної розмірності. Далі співставимо класифікаційний розподіл текстових документів за авторами та утворену кластерну структуру в новому просторі семантичних концептів. 3. Утворення матриці ознак «частоти_семантичних_полів–документи» Розглянемо модель, яка описує сукупність текстових документів, лексемний склад та се- мантичні поля. Нехай існує деякий словник лексем, які зустрічаються в текстових масивах. Опишемо цей словник як впорядковану множину { }wi NiwW ...,2,1| == . (1) Сукупність текстових документів опишемо такою множиною: { }dj NjdD ...,2,1| == . (2) Введемо множину семантичних полів: { }sk NksS ...,2,1| == . (3) Під семантичним полем розуміють таку множину лексем, які об’єднані деяким спі- льним поняттям [7, 8]. Прикладом семантичних полів може бути поле руху, поле комуні- кації, поле сприйняття та ін. Документ jd з множини текстових документів D можна представити як упорядковану множину слів, порядок елементів якої відповідає порядку слів у цьому документі: { }t jlj d j NltT ...2,1| == . (4) Впорядкований за алфавітом словник текстового документа jd розглянемо як муль- тимножину d jW над множиною словника W : { }wjii wd ij d j NidwwnW ...,2,1,|)( =∈= , (5) де wd ijn – кількість входжень лексеми iw зі словника W у множину лексем текстового до- кумента jd , яку можна визначити як ∑ = = t jN l iljwd wd ij wtfn 1 ),,( (6) ISSN 1028-9763. Математичні машини і системи, 2012, № 1 71 де     ≠ = = i d lj ilj iljwd ww wt wtf ,0 ,1 ),( . (7) Введемо відображення лексемного складу словника W на множину семантичних полів S за допомогою деякого оператора wsU : swkiws NkNiswU ...,2,1;...,2,1,: ==→ . (8) Оператор wsU задамо таблицею, яка визначається експертним лексикографічним аналізом [7, 8]. Лексемний склад семантичного поля ks визначимо як       =→= w U kii s k NiswwW ws ...,2,1,| . (9) Введемо мультимножину образів відображення wsU семантичних полів для окремо- го документа jd : { }sk sd kj d j NksnS ...,2,1|)( == , (10) де sd kjn – кількість лексем семантичного поля ks в лексемному складі документа jd . ∑ = = t jN l kljs sd kj stfn 1 ),,( (11) де     ∉ ∈ = s klj s klj kljs Wt Wt stf ,0 ,1 ),( . Введемо матрицю семантичних ознак типу «частоти_семантичних_полів– документи» ( ) ds NN jk sd kjsd pM , 1,1 == = , (12) де sd kjp – частота семантичного поля ks в лексемному складі документа jd , яку обрахуємо за формулою t j sd kjsd kj N n p = . (13) Вектор ( )sd jN sd j sd j s j s pppV ,...,, 21= (14) відображає документ jd в sN -мірному семантичному просторі текстових документів. Запропонована модель дає можливість визначити матрицю частотних семантичних ознак типу «частоти_семантичних_полів–документи» і ввести новий базис для текстових характеристик. У семантичному базисі можуть спостерігатися якісно нові групування тек- стових документів. Розгляд таких групувань може бути ефективним в алгоритмах ком- плексного аналізу текстів. 72 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 4. Сингулярний розклад матриці частот семантичних полів Розглянемо сингулярний розклад матриці частот семантичних полів. Нехай існує матриця типу «частоти_семантичних_полів–документи» sdM , яка описується формулою (12). Век- тор s jV (14) відображає документ jd в sN -мірному просторі текстових документів. Добу- ток двох векторів s q Ts p VV )( (15) визначає кількісну міру близькості цих векторів у sN -мірному семантичному просторі текстових документів. Відповідно добуток матриць sd T sd MM )( (16) містить скалярні добутки векторів s q Ts p VV )( всіх документів і відображає їхні кореляції у просторі семантичних векторів. Нехай існує сингулярна декомпозиція матриці sdM : T sdsdsdsd UM ΥΣ= . (17) Тоді добуток матриць sd T sd MM )( можна розглянути у вигляді ( ) ( ) T sdsd T sdsd T sdsdsd TT sdsdsdsd T sd UUMM ΥΣΣΥ=ΥΣΥΣ=)( . (18) У відповідності з теорією сингулярного розкладу матриць [5, 6] діагональна матри- ця sdΣ містить сингулярні числа у порядку їх спадання. Якщо взяти K найбільших сингу- лярних чисел матриці sdΣ і, відповідно, K сингулярних векторів матриць sdU і sdΥ , то отримаємо K -рангову апроксимацію матриці sdM : T KsdKsdKsdKsd UM )()()()( ΥΣ= . (19) Матриця Ksd )(Υ відображає зв’язок між векторами документів s jV̂ у новому комбі- нованому K -мірному семантичному просторі, який будемо називати простором семантич- них концептів. Зв’язок між вектором s jV документа у початковому семантичному просторі та вектором s jV̂ у просторі семантичних концептів можна описати так: .)()(ˆ ,ˆ)()( 1 s j T KsdKsd s j s jKsdKsd s j VUV VUV −Σ= Σ= (20) Отже, ранг апроксимації матриці sdM , який визначається числом K, також визначає розмірність простору семантичних концептів. Очевидно, що число K може бути суттєво меншим за розмірність sN початкового семантичного простору. Це зменшує розмірність задачі аналізу подібності текстових документів у семантичному векторному просторі. 5. Ієрархічна кластеризація текстових документів у семантичному просторі Розглянемо групування документів за семантичними ознаками за допомогою алгоритму ієрархічної кластеризації. Нехай є множина текстових документів D, яка описується вира- зом (2), та множина кластерів { }cm NmcC ...,2,1,0| == . (21) ISSN 1028-9763. Математичні машини і системи, 2012, № 1 73 Необхідно побудувати відображення множини документів на множину кластерів: CDU DC →: . (22) Відображення UDC задає модель даних, яка є розв’язком задачі кластеризації [1–3]. Кожний елемент mc множини кластерів C складається з підмножини текстових докумен- тів, які подібні між собою відповідно до деякої кількісної міри подібності r : { }ε<∈∈= ),(,,|, jijijim ddrDdDdddc , (23) де ε – визначає деякий поріг для включення документів у кластер. Величина ),( ji ddr є відстанню між елементами id та jd . Якщо виконується умова ε<),( ji ddr , (24) то елементи вибірки вважають подібними і відносять до спільного кластера. В іншому ви- падку елементи знаходяться у різних кластерах. У наших дослідженнях будемо використо- вувати евклідову відстань: ( )∑ = −= sN k sd kj sd kijie ppddr 1 2 ),( . (25) Розглянемо послідовність агломеративної кластеризації. На першому кроці вся множина текстових документів розглядається як множина кластерів: { } { } { }NdNd dcdcdc === ,..., 1111 . (26) На наступному кроці два близьких один до одного документи (наприклад, pd і qd ) об’єднуються в один спільний кластер, нова множина на цьому кроці вже складається із 1−dN кластерів і має вигляд { } { } { } { }112211 ...,,..., −− ==== NdNdqpp dcddcdcdc . (27) Повторюючи кроки, на яких будуть об’єднуватися кластери, отримаємо множину із cN кластерів. Процес об’єднання кластерів завершується на тому кроці алгоритму, коли жодна пара кластерів не відповідає порогу об’єднання для міри близькості елементів. Вра- ховуючи те, що кластери можуть складатися з декількох об’єктів, існують різні методи формування й об’єднання кластерів на основі відстаней між об’єктами в середині кластера. У наших дослідженнях ми використовували метод Варда. У цьому методі обраховують квадрати евклідових відстаней від окремих документів до центра кожного кластера. Далі ці відстані сумують. У новий кластер об’єднуються ті кластери, при об’єднанні яких вихо- дить найменший приріст суми квадратів відстаней. Графічним зображенням результату ієрархічної кластеризації є дендрограма, на якій відображається процес агломеративного об’єднання кластерів. По осі абсцис відкладають номери кластерів, а по осі ординат- відстані між кластерами. При певних значеннях відстаней починається об’єднання кластерів. З ростом порогової міжкластерної відстані кластери об’єднуються аж до повно- го злиття кластерів в один кластер. Для отримання інформативної кластерної структури вибирається деякий поріг міжкластерної відстані, при якому утворюється оптимальна, з точки зору аналізу текстових масивів, кластерна структура. Наприклад, при дослідженні можливості кластеризації текстових документів за авторами доцільно взяти таке порогове значення міжкластерної відстані, при якому утворюється кількість кластерів, рівна кількості аналізованих авторів. 74 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 Рис. 1. Сингулярні числа матриці се- мантичних ознак у порядку спадання 6. Експериментальна частина Для аналізу ефективності розглянутих алгоритмів кластеризації взято текстову вибірку 155 художніх творів англомовної класики 4 відомих авторів (Ч. Діккенс, Д. Лондон, В. Скотт, М. Твен). Для утворення семантичного простору сформовано 15 семантичних полів, в які входить близько 5000 неозначених форм дієслова. Деталізація літературних та лексикографічних характеристик вхідних даних не є суттєвою для аналізу можливості кла- стерного структурування даних, тому для подальшо- го аналізу будемо розглядати лише статистичні ха- рактеристики текстових документів. Для кожного документа були розраховані частотні словники, на основі яких розраховані частотні спектри семантич- них полів документів. Отже, кожний документ розглядається як вектор в 15-мірному початковому семантичному просторі. Далі проведено сингуляр- ний розклад матриці семантичних ознак. На рис. 1 наведено графічне зображення перших сингулярних чисел семантичних ознак типу «часто- ти_семантичних_полів–документи» у порядку спа- дання. Слід відмітити різке спадання значень сингулярних чисел, що дає можливість для апроксимації матриці семантичних ознак взяти суттєво менше значення рангу апроксима- ції K у порівнянні із початковою розмірністю семантичного простору. На наступному етапі була проведена агломеративна ієрархічна кластеризація документів у просторах се- мантичних концептів різної розмірності. Для оцінки міжкластерних відстаней використо- вувалась евклідова відстань (25), а кластеризацію було проведено методом Варда. На рис. 2 наведено дендрограму ієрархічної кластеризації при розмірності простору семантичних концептів 10=K , а на рис. 3 – при 5=K . По осі абсцис відкладено номери кластерів, а по осі ординат – міжкластерні відстані. Рис. 2. Дендрограма кластеризації масиву текстових документів при 10=K Рис. 3. Дендрограма кластеризації масиву текстових документів при 5=K Наведені дендрограми обмежені рівнем із 20-ма кластерами. Як випливає з наведе- них рисунків, вибраний ранг апроксимації матриці семантичних ознак впливає на форму- вання кластерної структури. Для подальших досліджень розглядається розмірність просто- ру семантичних концептів 5=K як найбільш оптимальна з точки зору утворення ієрархічної кластерної структури, яка відображає класифікаційну структуру розглянутого текстового масиву. Проаналізуємо класифікацію текстових документів за авторами. Вибе- ремо таку порогову міжкластерну відстань, при якій утворюється кількість кластерів рівна кількості авторів текстів у досліджуваній вибірці. В аналізованому випадку це чотири кла- ISSN 1028-9763. Математичні машини і системи, 2012, № 1 75 Рис. 4. Розподіл кількості текстових документів за кластерами ( )5=K стери. На рис. 4 наведено розподіл кількості тексто- вих документів за чотирма кластерами, утвореними методом Варда. На рис. 5 наведено розподіл текстів за авто- рами (1-Ч. Діккенс, 2-Дж. Лондон, 3-В. Скотт, 4-М. Твен) у кожному із чотирьох кластерів. Як випливає із наведених даних, тексти автора № 3 відсутні у кластерах № 1, 3, 4 і максимально сконцентровані у кластері № 2. Тексти автора №1 відсутні в кластері №1 і домінують у кластері №4. Домінуючим класте- ром для автора № 2 є кластер № 3 і т.д. Такий нерівномірний розподіл текстів за авторами в кла- стерах свідчить про те, що кластерна структура документів у просторі семантичних концептів відображає класифікаційну структуру документів за авторами. Кластер 1 Кластер 2 Кластер 3 Кластер 4 Рис. 5. Розподіл кількості текстових документів за авторами в досліджуваних кластерах ( )5=K У випадку кластеризації документів у просторі семантичних концептів більшої розмірності ( )5>K розподіл документів одного і того ж автора за кластерами може якісно відрізнятися, однак спостерігаються домінантні кластери для документів певних авторів. При низькій розмірності { }3,2,1∈K кластери текстів з домінуючими авторами зникають і розподіл за авторами по кластерах стає більш рівномірним. 76 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 7. Висновки Формування простору семантичних полів дає можливість отримувати новий структурний поділ документів за семантичними ознаками. Сингулярний розклад матриці семантичних ознак типу «частоти_семантичних_полів–документи» дає можливість аналізувати текстові документи у новому просторі семантичних концептів. Ієрархічна кластеризація документів у такому просторі відображає класифікаційну структуру документів за різними ознаками, зокрема, за авторством текстів. Розмірність простору семантичних концептів визначається рангом апроксимації матриці семантичних ознак при сингулярному розкладі і може бути суттєво меншою за розмірність простору семантичних полів. У випадку дослідження ав- торства текстів вибір розмірності простору семантичних концептів зумовлений рівнем ві- дображення класифікаційного поділу документів за авторами в кластерной структурі, що визначається наявністю домінуючих кластерів для документів окремих авторів. СПИСОК ЛІТЕРАТУРИ 1. Ким Д.О. Факторный, дискриминантный и кластерный анализ / Ким Д.О., Мьюллер Ч.У., Клекка У.Р. – М.: Финансы и статистика, 1989. – 215 с. 2. Жамбю М. Иерархический кластер-анализ и соответствия / Жамбю М.; пер. с фр. – М.: Финансы и статистика, 1988. – 342 с. 3. Анализ данных и процессов: учеб. пособие / А.А. Брасегян, М.С. Куприянов, И.И. Холод [и др.]. – СПб.: БХВ-Петербург, 2009. – 512 с. 4. Pantel P. From Frequency to Meaning: Vector Space Models of Semantics [Електронний ресурс] / P. Pantel, P.D. Turney. – Режим доступу: http://arxiv.org/abs/1003.1141. 5. Indexing by Latent Semantic Analysis / S. Deerwester, S.T. Dumais, G.W. Furnas [et al.] // Journal of the American Society for Information Science. – 1990. – Vol. 41, Issue 6. – P. 391 – 407. 6. Mirzal A. Clustering and Latent Semantic Indexing Aspects of the Singular Value Decomposition [Електронний ресурс] / A. Mirzal. – Режим доступу: http://arxiv.org/abs/1011.4104v2. 7. Вердиева З.Н. Семантические поля в современном английском языке / Вердиева З.Н. – М.: Выс- шая школа, 1986. – 120 с. 8. Левицкий В.В. Экспериментальные методы в семасиологии / В.В. Левицкий, И.А. Стернин. – Воронеж: Изд-во ВГУ, 1989. – 192 с. Стаття надійшла до редакції 10.06.2011