Модель вторинних некорельованих семантичних полів для анализу текстових даних
Розглянуто модель некорельованих вторинних семантичних полів утворених на основі методу головних компонент та сингулярного розкладу матриці частот семантичних полів. Ця модель характеризує новий семантичний простір відображення текстових документів із ортонормованим базисом. Розмірність простору вто...
Збережено в:
| Опубліковано в: : | Системні дослідження та інформаційні технології |
|---|---|
| Дата: | 2014 |
| Автор: | |
| Формат: | Стаття |
| Мова: | Українська |
| Опубліковано: |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
2014
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/85560 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Модель вторинних некорельованих семантичних полів для анализу текстових даних / Б.М. Павлишенко // Системні дослідження та інформаційні технології. — 2014. — № 3. — С. 130-138. — Бібліогр.: 11 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859641606169165824 |
|---|---|
| author | Павлишенко, Б.М. |
| author_facet | Павлишенко, Б.М. |
| citation_txt | Модель вторинних некорельованих семантичних полів для анализу текстових даних / Б.М. Павлишенко // Системні дослідження та інформаційні технології. — 2014. — № 3. — С. 130-138. — Бібліогр.: 11 назв. — укр. |
| collection | DSpace DC |
| container_title | Системні дослідження та інформаційні технології |
| description | Розглянуто модель некорельованих вторинних семантичних полів утворених на основі методу головних компонент та сингулярного розкладу матриці частот семантичних полів. Ця модель характеризує новий семантичний простір відображення текстових документів із ортонормованим базисом. Розмірність простору вторинних семантичних полів є суттєво меншою за розмірність простору первинних семантичних полів внаслідок заміни взаємопов’язаних складових некорельованими семантичними характеристиками. Аналіз тестової вибірки текстових документів показав можливість брати до розгляду лише ті складові вторинних семантичних полів, які описуються першими сингулярними числами. Використання низькорозмірного ортонормованого базису вторинних семантичних полів може бути ефективним в задачах класифікації та кластеризації текстових даних.
Рассмотрена модель некоррелированных вторичных семантических полей образованных с помощью метода главных компонент и сингулярного разложения матрицы частот семантических полей. Эта модель характеризирует новое семантическое пространство отображения текстовых документов с ортонормированным базисом. Размерность пространства вторичных семантических полей существенно меньше размерности пространства первичных семантических полей вследствие замены взаимосвязанных составляющих некоррелированными семантическими характеристиками. Анализ тестовой выборки текстовых документов показал возможность принимать к рассмотрению только те составляющие вторичных семантических полей, которые описываются первыми сингулярными числами. Использование низкоразмерного ортонормированного базиса вторичных семантических полей может быть эффективным в задачах классификации и кластеризации текстовых данных.
The model of derived uncorrelated semantic fields generated by the method of principal components and singular decomposition of the matrix of semantic fields frequencies has been considered. This model describes a new semantic space with orthonormal basis of displaying text documents. The dimension of the space of derived semantic fields is significantly less than the dimension of the space of initial semantic fields as a result of replacement of interconnected components by uncorrelated semantic characteristics. The analysis of the test sample of text documents showed the possibility to take into consideration only those components of secondary semantic fields which are described by the first singular numbers. The use of the low-dimension orthonormal basis of derived semantic fields can be effective in the problems of the text data classification and clustering.
|
| first_indexed | 2025-12-07T13:22:22Z |
| format | Article |
| fulltext |
Б.М. Павлишенко, 2014
130 ISSN 1681–6048 System Research & Information Technologies, 2014, № 3
УДК 519.765:519.767:004.89
МОДЕЛЬ ВТОРИННИХ НЕКОРЕЛЬОВАНИХ СЕМАНТИЧНИХ
ПОЛІВ ДЛЯ АНАЛІЗУ ТЕКСТОВИХ ДАНИХ
Б.М. ПАВЛИШЕНКО
Розглянуто модель некорельованих вторинних семантичних полів утворених
на основі методу головних компонент та сингулярного розкладу матриці час-
тот семантичних полів. Ця модель характеризує новий семантичний простір
відображення текстових документів із ортонормованим базисом. Розмірність
простору вторинних семантичних полів є суттєво меншою за розмірність про-
стору первинних семантичних полів внаслідок заміни взаємопов’язаних скла-
дових некорельованими семантичними характеристиками. Аналіз тестової ви-
бірки текстових документів показав можливість брати до розгляду лише ті
складові вторинних семантичних полів, які описуються першими сингулярни-
ми числами. Використання низькорозмірного ортонормованого базису вто-
ринних семантичних полів може бути ефективним в задачах класифікації та
кластеризації текстових даних.
ВСТУП
Однією з поширених моделей в інтелектуальному аналізі текстових даних
є векторна модель, в якій текстові документи представлені у вигляді векто-
рів у деякому фазовому просторі [1]. Базис цього простору утворюють час-
тотні характеристики лексем. У роботах [2–5] наведено результати аналізу
текстових масивів на основі концепції семантичних полів. Семантичні поля
розглянуто як групи лексем, об’єднаних спільним поняттям. Такі групи лек-
сем утворюють нові характеристики текстових даних, використання яких
є ефективним у задачах кластеризації та класифікації тектстових докумен-
тів. Формування додаткових семантичних ознак на основі концепції семан-
тичних полів утворює новий семантичний простір, що збільшує можливості
аналізу векторного простору текстових документів. Основним методом фор-
мування семантичних полів є експертний метод лексикографічного аналізу.
В такому методі неможливо сформувати структуру семантичних полів так,
щоб вони були не зв’язані між собою і не корелювали у статистичних роз-
поділах алгоритмів аналізу текстових даних. Однак, припустимо, що вна-
слідок лінійної комбінації частотних характеристик семантичних полів
можна утворити нові семантичні поля, частотні характеристики яких будуть
не корельовані. Такі поля назвемо некорельованими вторинними семантич-
ними полями. Утворення нових некорельованих вторинних семантичних
полів оптимізує задачі аналізу текстових даних та зменшує розмірність се-
мантичного простору текстових документів. Задача зводиться до представ-
лення текстових документів у новому семантичному ортонормованому ба-
зисі. Очевидно, що в такому базисі коефіціенти коваріації між різними
частотними складовими текстових документів будуть дорівнювати нулю.
Модель вторинних некорельованих семантичних полів для аналізу текстових даних
Системні дослідження та інформаційні технології, 2014, № 3 131
ПОСТАНОВКА ЗАДАЧІ
Мета роботи — розглянути модель некорельованих вторинних семантич-
них полів утворених на основі методу головних компонент та сингулярного
розгладу матриці частот семантичних полів.
Проаналізуємо коваріаційну матрицю для частотних характеристик се-
мантичних полів. Використовуючи перетворення Карунена-Лоева в методі
головних компонент визначимо матрицю перетворення семантичних векто-
рів у вторинні некорельовані семантичні вектори.
Проаналізуємо зв’язок між методом головних компонент та сингуляр-
ним розкладом у задачі формування ортонормованого семантичного прос-
тору. Проаналізуємо сингулярні числа для тестового масиву текстових до-
кументів.
МОДЕЛЬ ТЕКСТОВИХ ДОКУМЕНТІВ У СЕМАНТИЧНОМУ ПРОСТОРІ
Розглянемо модель на основі теорії множин, яка описує сукупність тексто-
вих документів, лексемний склад та семантичні поля. Нехай існує певний
словник лексем, які зустрічаються у текстових масивах. Опишемо цей слов-
ник як впорядковану множину
}.,,2,1|{ wi NiwW (1)
Сукупність текстових документів опишемо множиною
}.,,2,1,0|{ dj NjdD (2)
Під документом з ,0j будемо вважати документ з нейтральним текс-
том, який відповідає лінгвостатистичні нормі. Введемо множину семантич-
них полів
}.,,2,1|{ sk NksS (3)
Під семантичним полем розуміють таку множину лексем, які об’єднані
певним спільним поняттям [6, 7]. Прикладом семантичних полів може бути
поле руху, поле комунікації, поле сприйняття тощо.
Документ id з множини текстових документів D можна представити
як упорядковану множину слів, порядок елементів якої відповідає порядку
слів у цьому документі
}.,,2,1|{ t
jlj
d
j NltT (4)
Упорядкований за алфавітом словник текстового документа id розгля-
немо як мультимножину d
jW над множиною словника :W
,},,2,1,|)({ wjii
wd
ij
d
j NidwwnW (5)
де wd
ijn — кількість входжень лексеми iw із словника W у множину лексем
текстового документа ,jd яку можна визначити як
Б.М. Павлишенко
ISSN 1681–6048 System Research & Information Technologies, 2014, № 3 132
t
jN
l
iljwd
wd
ij wtfn
1
),,( (6)
де
.,0
,,1
),(
i
d
lj
ilj
iljwd ww
wt
wtf (7)
Введемо відображення лексемного складу словника W на множину
семантичних полів S за допомогою деякого оператора wsU
.,,2,1;,,2,1,: swkiws NkNiswU (8)
Оператор wsU задамо таблицею, яка визначається експертним лексико-
графічним аналізом [6, 7]. Лексемний склад семантичного поля ks визначи-
мо як
.,,2,1,|
w
U
kii
s
k NiswwW
ws
(9)
Множину образів відображення wsU розглянемо як мультимножину
над множиною семантичних полів :S
,},,2,1|)({ sk
s
kf NksnS (10)
де s
kn — кількість лексем словника W, які відносять до семантичного поля
:ks
wN
i
kis
s
k swfn
1
),,( (11)
де
.,0
,,1
),(
s
ki
s
ki
kis
Ww
Ww
swf (12)
Введемо мультимножину образів відображення wsU семантичних полів
для окремого документа :jd
,...,2,1|)( sk
sd
kj
d
j NksnS (13)
де sd
kjn — кількість лексем семантичного поля ks в лексемному складі до-
кумента jd
t
jN
l
kljs
sd
kj stfn
1
),,( (14)
де
.,0
,,1
),( s
klj
s
klj
kljs Wt
Wt
stf (15)
Модель вторинних некорельованих семантичних полів для аналізу текстових даних
Системні дослідження та інформаційні технології, 2014, № 3 133
Введемо деяку множину P квантитативних ознак, за допомогою яких
можна порівнювати характеристики текстових документів. Також введемо
оператор відображення лексемного словника W на множину квантитатив-
них ознак у масиві документів
.,,2,1,,...,2,1,: dw
wd
ijiwd NjNipwU (16)
У загальному випадку величина wd
ijp може мати довільне походження
квантитативної характеристики. У подальшому будемо розглядати цю вели-
чину як текстову частоту лексеми iw у текстовому документі ,jd яка ви-
значається такою функціональною залежністю
t
j
wd
ijwd
ij
N
n
p . (17)
Аналогічно введемо оператор відображення семантичного складу d
jS
текстового документа ,jd на множину квантитативних ознак:
.,,2,1,,,2,1,: ds
sd
kjksd NjNkpsU (18)
Величина sd
kjp визначає структурну частоту лексем семантичного поля
ks у текстовому документі .jd Визначимо sd
kjp за такою формулою:
wN
i
kis
wd
ij
sd
kj swfpp
1
),,( (19)
де
.,0
,,1),( s
ki
s
ki
kis Ww
Wwswf (20)
Сукупність значень sd
kjp утворює матрицю ознака-документ, у якій оз-
наками виступають частоти семантичних полів у документах:
ds NN
jk
sd
kjsd pM ,
1,1
)( . (21)
Вектор
),...,,( 21
sd
jN
sd
j
sd
jj s
pppV (22)
відображає документ jd в sN -мірному семантичному просторі текстових
документів.
МОДЕЛЬ ВТОРИННИХ СЕМАНТИЧНИХ ПОЛІВ
У ОРТОНОРМОВАНОМУ БАЗИСІ
Розглянемо представлення текстових документів у новому семантичному
ортонормованому базисі, в якому коефіціенти коваріації між різними семан-
тичними частотними складовими текстових документів будуть дорівнювати
Б.М. Павлишенко
ISSN 1681–6048 System Research & Information Technologies, 2014, № 3 134
нулю. Тобто задача полягає в реалізації перетворення до нового базису,
який буде описуватись діагональною коваріаційною матрицею. Такий базис
може бути утворений за допомогою перетворення Карунена-Лоева, яке ле-
жить в основі методу головних компонент [8, 9]. Розглянемо це перетво-
рення для просторового базису утвореного частотними характеристиками
семантичних полів. Коваріаційну матрицю розглянемо у вигляді
][covCov s
ijs , )](()([(),(covcov sd
jl
sd
jl
sd
il
sd
il
s
j
s
i
s
ij pEppEpEpp . (23)
Під знаком E маємо на увазі математичне сподівання. Враховуючи ви-
бірку текстових документів запишемо
)( ),(), ()(
1
1
cov
1
sd
jl
sd
j
sd
il
sd
i
sd
j
sd
jl
N
l
sd
i
sd
il
d
s
ij pEppEppppp
N
d
. (24)
Знайдемо множину вторинних семантичних полів:
|}|,,2,1|{ SksS k , (25)
які описують текстові документи jd за допомогою нових частотних векто-
рів:
),,,( ||21
sd
jS
sd
j
sd
j
s
j pppV . (26)
Для складових частотних векторів ,s
jV які описують незалежні семан-
тичні ознаки має виконуватись умова:
jipp s
j
s
i ,0),(cov . (27)
Знайти семантичні вектори, для яких виконується умова (27) можна за
допомогою методу головних компонент [8, 9]. Розглянемо основні поло-
ження цього методу для випадку семантичного простору текстових докуме-
нтів. Нехай відомо матрицю базисних частотних семантичних векторів ,sA
яка описує зв’язок між векторами первинних та вторинних семантичних по-
лів. Вважаємо цю матрицю ортогональною, для якої виконується умова
.1 T
ss AA (28)
Тоді вектори первинних та вторинних семантичних полів зв’язані та-
кими співвідношеннями:
jsj VAV , j
T
sj VAV . (29)
Складові векторів jV називають головними компонентами. Для мат-
риць sdM (21) можна записати аналогічні співвідношення:
sdssd MAM , .sd
T
ssd MAM (30)
Здійснимо центрування семантичних векторів та матриць:
,][ jjj VEVV (31)
.][ sdsdsd MEMM
Модель вторинних некорельованих семантичних полів для аналізу текстових даних
Системні дослідження та інформаційні технології, 2014, № 3 135
Розглянемо таку коваріаційну матрицю:
T
sdsds MMvCo )( . (32)
Враховуючи (30) отримаємо:
ss
T
ss
T
sdsd
T
ss AAAMMA vCo)(vCo , (33)
де .)(vCo T
sdsds MM
Нехай матриця sA складається із власних векторів матриці svCo , тоді
svCo буде діагональною матрицею із власними значеннями матриці svCo .
,),...,,(diagvCo ||21 Ss (34)
де ||21 ,,, S — власні значення матриці svCo в порядку спадання їх ве-
личин. Задача знаходження матриці ,sA яка описує зв’язок між векторами
первинних та вторинних семантичних полів зводиться до знаходження влас-
них векторів та значень коваріаційної матриці svCo первинних семантич-
них полів. Визначивши матрицю sA , частотні семантичні вектори jV можна
розкласти по частотних векторах jV вторинних семантичних полів. Харак-
терною властивістю базисних векторів вторинного семантичного простору
є їх ортонормованість. Якщо множину вторинних семантичних полів впоря-
дкувати за величиною власних чисел базисних векторів, тоді можна відки-
нути крайні в цьому ряді вторинні поля як несуттєві для аналізу. В результа-
ті отримаємо
|
~
|
1
ˆˆ
S
l
sd
ljil
sd
ij pap , (35)
де |||
~
| SS .
Тобто для подальшого аналізу беруть підпростір простору вторинних
семантичних полів. Складові семантичних векторів sd
ljp~ є проекціями скла-
дових sd
ljp на цей підпростір. Якщо базисні ортонормовані вектори розміс-
тити у порядку спадання власних значень коваріаційної матриці, то оцінити
похибку такої апроксимації можна за формулою
.
||
|~|
S
si
i (36)
Тобто, похибка визначається сумою власних значень базисних векто-
рів, які не вносять вклад у апроксимацію. Звідси випливає, що для зменшен-
ня похибки при апроксимації необхідно взяти базисні вектори, для яких вла-
сні значення є максимальними. Виникає питання, яка розмірність простору
вторинних полів є достатня для векторного представлення текстових доку-
ментів. Одним із простих методів відбору головних компонент є правило
Б.М. Павлишенко
ISSN 1681–6048 System Research & Information Technologies, 2014, № 3 136
Кайзера, згідно з яким залишають ті компоненти, для яких виконується
умова
)vCo(tr
||
1
si S
. (37)
Умова (37), визначає ті головні компоненти, для яких власне значення
коваріаційної матриці є більшим за середнє всіх власних значень.
У загальному випадку метод головних компонент можна розглядати як
спектральний розклад коваріаційної матриці частотних характеристик семан-
тичних полів. Задачу про спектральний розклад коваріаційної матриці svCo
можна звести до задачі сингулярного розкладу матриці «часто-
ти_семантичних_полів–документи» .sdM Сингулярний розклад матриці
терми-документи лежить в основі латентно-семантичного аналізу текстів
[10, 11]. Нехай існує матриця типу «частоти_семантичних_полів–
документи» ,sdM яка описується формулою (21). Вектор jV (22) відобра-
жає документ jd в sN -мірному просторі текстових документів. Добуток
двох векторів q
T
p VV )( визначає кількісну міру близькості цих векторів
у sN -мірному семантичному просторі текстових документів. Відповідно
добуток матриць sd
T
sd MM )( містить скалярні добутки векторів q
T
p VV )(
всіх документів і відображає їхні кореляції в просторі семантичних векторів.
Нехай існує сингулярна декомпозиція матриці :sdM
.T
sdsdsdsd ΥUM (38)
Тоді добуток матриць sd
T
sd MM )( можна розглянути у вигляді
T
sdsd
T
sdsd
T
sdsdsd
TT
sdsdsdsd
T
sd ΥΥΥUΥUMM )()()( . (39)
У відповідності до теорії сингулярного розкладу матриць [10, 11] діа-
гональна матриця sd містить сингулярні числа в порядку їх спадання. Як-
що взяти K найбільших сингулярних чисел матриці sd і відповідно K
сингулярних векторів матриць sdU й sdΥ то отримаємо K-рангову апрокси-
мацію матриці sdM :
T
KsdKsdKsdKsd ΥUM )()()()( . (40)
Матриця KsdΥ )( відображає зв’язок між векторами документів jV
~
у новому комбінованому K -мірному семантичному просторі з ортонормо-
ваним семантичним базисом. Зв’язок між вектором jV документу в первин-
ному семантичному просторі та вектором jV
~
у просторі вторинних семан-
тичних полів можна описати так:
.)()(
~
,
~
)()(
1
j
T
KsdKsdj
jKsdKsdj
VUV
VUV
(41)
Модель вторинних некорельованих семантичних полів для аналізу текстових даних
Системні дослідження та інформаційні технології, 2014, № 3 137
Отже, ранг апроксимації матриці sdM , який визначається числом ,K
також визначає розмірність простору вторинних семантичних полів. Очевид-
но, що число ,K може бути суттєво меншим за розмірність sN початкового
семантичного простору. Це зменшує розмірність задачі аналізу подіб-
ності текстових документів у семантичному векторному просторі. Для чи-
сельної оцінки сингулярних чисел взято текстову вибірку 155 художніх тво-
рів англомовної класики чотирьох відомих авторів (Ч. Діккенс, Д. Лондон,
В. Скотт, М. Твен). Для утворення семантичного простору сформовано
15 семантичних полів, в які входять близько 5000 неозначених форм дієсло-
ва. Для кожного документа було сформрвано частотні словники, на основі
яких розраховано частотні спектри семантичних полів документів. Отже,
кожний документ розглядається як вектор у 15-мірному початковому семан-
тичному просторі. Далі проведено сингулярний розклад матриці семантичних
ознак. На рисунку наведено графічне зображення перших сингулярних чи-
сел семантичних ознак типу «частоти_семантичних_полів–документи»
у порядку спадання.
Слід відмітити суттєве спадання значень сингулярних чисел, що дає
можливість для апроксимації матриці семантичних ознак взяти суттєво
менше значення рангу апроксимації K у порівнянні із початковою розмір-
ністю семантичного простору.
ВИСНОВКИ
Розглянуто модель некорельованих вторинних семантичних полів, що фор-
муються на основі методу головних компонент шляхом визначення ортонор-
мованого базису семантичного простору утвореного власними векторами
коваріаційної матриці частотних семантичних векторів. Розмірність просто-
ру вторинних семантичних полів є суттєво меншою за розмірність простору
первинних семантичних полів внаслідок заміни взаємопов’язаних складових
некорельованими семантичними характеристиками. Ортонормований базис
вторинних семантичних полів може бути також утворений за допомогою
сингулярного розкладу матриць «частоти_семантичних_полів–документи».
Рисунок. Сингулярні числа матриці семантичних ознак в порядку спадання
Б.М. Павлишенко
ISSN 1681–6048 System Research & Information Technologies, 2014, № 3 138
Аналіз тестової вибірки текстових документів показав різке спадання зна-
чень сингулярних чисел. Це дає можливість брати до розгляду лише ті скла-
дові вторинних семантичних полів, які описуються першими сингулярними
числами. Використання низькорозмірного ортонормованого базису вторин-
них семантичних полів може бути ефективним у задачах класифікації та
кластеризації текстових даних.
ЛІТЕРАТУРА
1. Pantel P., Peter D. Turney. From Frequency to Meaning: Vector Space Models of
Semantics // Journal of Artificial Intelligence Research. — 2010. — 37. —
Р. 141–188.
2. Павлишенко Б.М. Ієрархічна кластеризація текстових документів у векторному
просторі семантичних полів // Електроніка та інформаційні технології. —
2011. — Випуск 1. — С. 212–222.
3. Павлишенко Б.М. Модель семантичного контексту в алгоритмах ін-
телектуального аналізу текстів // Комп’ютинг. — 2011. — Том 10, випуск
3. — С. 216–222.
4. Павлишенко Б.М. Використання концепції семантичного поля у векторній
моделі текстових документів // Східно-Європейський журнал передових
технологій. — 2011. — № 6/2 (54). — С. 7–11.
5. Павлишенко Б.М. Сингулярна декомпозиція матриці семантичних ознак
в алгоритмі ієрархічної кластеризації текстових масивів // Математичні ма-
шини і системи. — 2012. — № 1. — С. 69–76.
6. Левицкий В.В., Стернин И.А. Экспериментальные методы в семасиологии. —
Воронеж: Изд-во ВГУ, 1989. — 192с.
7. Вердиева З.Н. Семантические поля в соверменном английском языке. — М.:
Высшая школа, 1986. — 120 с.
8. Брасегян А.А., Куприянов М.С., Холод И.И., Тесс М.Д., Елизаров С.И. Анализ
данных и процессов: учеб. пособие. — СПб.: БХВ-Петербург, 2009. —
512 с.
9. Jolliffe I.T. Principal Component Analysis. — Series: Springer Series in Statistics,
2nd ed. — Springer, NY, 2002, XXIX — 487 p.
10. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Rich-
ard Harshman. Deerwester Scott Indexing by Latent Semantic Analysis // Jour-
nal of the American Society for Information Science. — 1990. — 41, Issue 6. —
P. 391–407.
11. Mirzal Andri. Clustering and Latent Semantic Indexing Aspects of the Singular
Value Decomposition. — http://arxiv.org/abs/1011.4104v2.
Надійшла 01.06.2012
|
| id | nasplib_isofts_kiev_ua-123456789-85560 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1681–6048 |
| language | Ukrainian |
| last_indexed | 2025-12-07T13:22:22Z |
| publishDate | 2014 |
| publisher | Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
| record_format | dspace |
| spelling | Павлишенко, Б.М. 2015-08-07T12:33:24Z 2015-08-07T12:33:24Z 2014 Модель вторинних некорельованих семантичних полів для анализу текстових даних / Б.М. Павлишенко // Системні дослідження та інформаційні технології. — 2014. — № 3. — С. 130-138. — Бібліогр.: 11 назв. — укр. 1681–6048 https://nasplib.isofts.kiev.ua/handle/123456789/85560 519.765:519.767:004.89 Розглянуто модель некорельованих вторинних семантичних полів утворених на основі методу головних компонент та сингулярного розкладу матриці частот семантичних полів. Ця модель характеризує новий семантичний простір відображення текстових документів із ортонормованим базисом. Розмірність простору вторинних семантичних полів є суттєво меншою за розмірність простору первинних семантичних полів внаслідок заміни взаємопов’язаних складових некорельованими семантичними характеристиками. Аналіз тестової вибірки текстових документів показав можливість брати до розгляду лише ті складові вторинних семантичних полів, які описуються першими сингулярними числами. Використання низькорозмірного ортонормованого базису вторинних семантичних полів може бути ефективним в задачах класифікації та кластеризації текстових даних. Рассмотрена модель некоррелированных вторичных семантических полей образованных с помощью метода главных компонент и сингулярного разложения матрицы частот семантических полей. Эта модель характеризирует новое семантическое пространство отображения текстовых документов с ортонормированным базисом. Размерность пространства вторичных семантических полей существенно меньше размерности пространства первичных семантических полей вследствие замены взаимосвязанных составляющих некоррелированными семантическими характеристиками. Анализ тестовой выборки текстовых документов показал возможность принимать к рассмотрению только те составляющие вторичных семантических полей, которые описываются первыми сингулярными числами. Использование низкоразмерного ортонормированного базиса вторичных семантических полей может быть эффективным в задачах классификации и кластеризации текстовых данных. The model of derived uncorrelated semantic fields generated by the method of principal components and singular decomposition of the matrix of semantic fields frequencies has been considered. This model describes a new semantic space with orthonormal basis of displaying text documents. The dimension of the space of derived semantic fields is significantly less than the dimension of the space of initial semantic fields as a result of replacement of interconnected components by uncorrelated semantic characteristics. The analysis of the test sample of text documents showed the possibility to take into consideration only those components of secondary semantic fields which are described by the first singular numbers. The use of the low-dimension orthonormal basis of derived semantic fields can be effective in the problems of the text data classification and clustering. uk Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України Системні дослідження та інформаційні технології Нові методи в системному аналізі, інформатиці та теорії прийняття рішень Модель вторинних некорельованих семантичних полів для анализу текстових даних Модель вторичных некоррелированных семантических полей для анализа текстовых данных The model of derived uncorrelated semantic fields for text data analysis Article published earlier |
| spellingShingle | Модель вторинних некорельованих семантичних полів для анализу текстових даних Павлишенко, Б.М. Нові методи в системному аналізі, інформатиці та теорії прийняття рішень |
| title | Модель вторинних некорельованих семантичних полів для анализу текстових даних |
| title_alt | Модель вторичных некоррелированных семантических полей для анализа текстовых данных The model of derived uncorrelated semantic fields for text data analysis |
| title_full | Модель вторинних некорельованих семантичних полів для анализу текстових даних |
| title_fullStr | Модель вторинних некорельованих семантичних полів для анализу текстових даних |
| title_full_unstemmed | Модель вторинних некорельованих семантичних полів для анализу текстових даних |
| title_short | Модель вторинних некорельованих семантичних полів для анализу текстових даних |
| title_sort | модель вторинних некорельованих семантичних полів для анализу текстових даних |
| topic | Нові методи в системному аналізі, інформатиці та теорії прийняття рішень |
| topic_facet | Нові методи в системному аналізі, інформатиці та теорії прийняття рішень |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/85560 |
| work_keys_str_mv | AT pavlišenkobm modelʹvtorinnihnekorelʹovanihsemantičnihpolívdlâanalizutekstovihdanih AT pavlišenkobm modelʹvtoričnyhnekorrelirovannyhsemantičeskihpoleidlâanalizatekstovyhdannyh AT pavlišenkobm themodelofderiveduncorrelatedsemanticfieldsfortextdataanalysis |