Використання лексемних полів у інтелектуальному аналізі текстових масивів
У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів. Експе...
Saved in:
| Published in: | Искусственный интеллект |
|---|---|
| Date: | 2013 |
| Main Author: | |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
Інститут проблем штучного інтелекту МОН України та НАН України
2013
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/85210 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Використання лексемних полів у інтелектуальному аналізі текстових масивів / Б.М. Павлишенко // Искусственный интеллект. — 2013. — № 1. — С. 98–109. — Бібліогр.: 19 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859585137408212992 |
|---|---|
| author | Павлишенко, Б.М. |
| author_facet | Павлишенко, Б.М. |
| citation_txt | Використання лексемних полів у інтелектуальному аналізі текстових масивів / Б.М. Павлишенко // Искусственный интеллект. — 2013. — № 1. — С. 98–109. — Бібліогр.: 19 назв. — укр. |
| collection | DSpace DC |
| container_title | Искусственный интеллект |
| description | У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу
текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис
якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів.
Експериментальний аналіз тестової вибірки показав високу ефективність використання лексемних полів у
класифікаційному аналізі авторства текстів.
В работе предложена модель семантических и тематических лексемных полей для интеллектуального
анализа текстовых документов. Рассмотрена векторная модель текстовых документов в семантическом
пространстве, базис которого образован частотно-дистрибутивными характеристиками семантических и
тематических полей. Экспериментальный анализ тестовой выборки показал высокую эффективность
использования лексемных полей в классификационном анализе авторства текстов.
The model of semantic and thematic lexemes fields for data mining of text documents has been proposed.
The vector model of text documents in the semantic space was considered. The basis of this space is formed
by frequency-distributional characteristics of semantic and thematic fields. The experimental analysis of texts
samples showed high efficiency of lexemes fields usage in the classification analysis of texts authorship.
|
| first_indexed | 2025-11-27T10:11:28Z |
| format | Article |
| fulltext |
ISSN 1561-5359 «Искусственный интеллект» 2013 № 1 98
3П
УДК 519.765:519.767:004.89
Б.М. Павлишенко
Львівський національний університет імені Івана Франка, Україна
Україна, 79005, Львів, вул. Драгоманова, 50
Використання лексемних полів
у інтелектуальному аналізі текстових масивів
B.M. Pavlyshenko
Ivan Franko Lviv National University, Ukraine
Ukraine, 79005 Lviv, Drahomanov Str. 50
The Use of Lexemes Fields in Data Mining of Texts Arrays
Б.М. Павлышенко
Львовский национальный университет имени Ивана Франко, Украина
Украина, 79005, Львов, ул. Драгоманова, 50
Использование лексемных полей
в интеллектуальном анализе текстовых массивов
У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу
текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис
якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів.
Експериментальний аналіз тестової вибірки показав високу ефективність використання лексемних полів у
класифікаційному аналізі авторства текстів.
Ключові слова: інтелектуальний аналіз даних, семантичні та тематичні поля,
векторна модель текстових документів, класифікація текстів.
The model of semantic and thematic lexemes fields for data mining of text documents has been proposed.
The vector model of text documents in the semantic space was considered. The basis of this space is formed
by frequency-distributional characteristics of semantic and thematic fields. The experimental analysis of texts
samples showed high efficiency of lexemes fields usage in the classification analysis of texts authorship.
Key words: data mining, Bayesian classification, semantic and thematic fields, vector space model
of text documents, texts classification.
В работе предложена модель семантических и тематических лексемных полей для интеллектуального
анализа текстовых документов. Рассмотрена векторная модель текстовых документов в семантическом
пространстве, базис которого образован частотно-дистрибутивными характеристиками семантических и
тематических полей. Экспериментальный анализ тестовой выборки показал высокую эффективность
использования лексемных полей в классификационном анализе авторства текстов.
Ключевые слова: интеллектуальний анализ данных, семантические и тематические поля,
векторная модель текстових документов, классификация текстов.
Вступ
Інтелектуальний аналіз текстових масивів є одним із перспективних напрямків
сучасних інформаційних технологій. Складовими такого аналізу є алгоритми кла-
сифікації та кластеризації текстових документів. У цих алгоритмах використовують
векторну модель текстових документів, яка базується на представленні документів
як векторів у деякому фазовому просторі. Базис такого простору часто утворюють за
допомогою частотно-дистрибутивних характеристик лексем текстового словника. Одна
із основних проблем такого підходу зумовлена великою розмірністю аналізованого век-
Використання лексемних полів у інтелектуальному аналізі текстових масивів
«Штучний інтелект» 2013 № 1 99
3П
торного простору. Також такий простір не дає можливості виділити задані семантичні
складові в інтелектуальному аналізі текстів. У задачах аналізу текстового змісту ак-
туальними є теорії лексичної семантики, зокрема, вчення про семантичні поля. Се-
мантичні поля розглядають як групи лексем, об’єднаних спільним поняттям. Такі групи
лексем утворюють нові характеристики текстових даних, використання яких може
бути ефективним у задачах кластеризації та класифікації текcтових документів. Семан-
тичні поля глибоко вивчені у лінгвістичних працях, однак існує необхідність розробки
формалізованих математичних моделей для їхнього впровадження в алгоритми інтелек-
туального аналізу текстових масивів.
Аналіз останніх досліджень та публікацій
У роботах [1], [2] описана векторна модель текстових документів. У [2-4] розгля-
нуто методи класифікаційного аналізу текстових документів. У роботах [5-8] наведені
результати аналізу текстових масивів на основі концепції семантичних полів. Семантичні
поля розглянуті як групи лексем, об’єднаних спільним поняттям. У [5], [6] запропоно-
вана модель кластеризації текстових документів у семантичному просторі, яка дає можли-
вість отримувати новий структурний поділ документів за семантичними ознаками у
просторі суттєво меншої розмірності, ніж у просторі, утвореному частотними характе-
ристиками лексемного складу текстової вибірки. У роботі [8] показано, що сингулярний
розклад матриці семантичних ознак типу «частоти_семантичних_полів – документи» дає
можливість аналізувати текстові документи у новому просторі семантичних концеп-
тів. Розглянемо лексикографічні концепції лексемних полів, які використовують у
лінгвістиці. Семантичні групування слів відображають системність лексики. В основі
визначення семантичних полів лежить лексико-семантична парадигма, під якою роз-
уміють множину лексем, які об’єднані сукупністю семантичних ознак. Відмінність лексем
у межах однієї парадигми визначається уточнюючими диференціюючими ознаками.
Парадигми можуть бути одно- та багаторанговими. Ранги парадигми визначають струк-
туру ієрархії лексемного об’єднання. Ядро семантичного поля утворюють лексеми,
домінуюче значення яких визначають основними ознаками семантичного поля. Периферію
семантичного поля утворюють лексеми, які містять основні поняття семантичного поля
опосередковано, через ряд диференційних ознак, що мають відношення до основного
поняття, яке утворює семантичне поле [9]. Одні і ті ж множини лексем називають як
лексико-семантичні групи, семантичні поля, синонімічні ряди [10]. Уточнюючі та дифе-
ренціюючі семантичні зв’язки в рамках одного семантичного поля визначають ієрар-
хічну структуру поля [11]. Один із засновників вчення про семантичні поля – німецький
вчений Трір, розділяв ієрархічну структуру лексем на словесні та понятійні поля. Він
також вважав, що семантичні поля є неперервними, тобто лексеми семантичного поля
охоплюють його понятійну область без пробілів так само, як склад словника охоплює
весь спектр понять мови [12]. У лінгвістиці вводять поняття семантичного простору,
який інтегрує та об’єднує семантичні поля [13]. На вершині семантичної організації
знаходиться поняття семантичного простору, далі – поняття семантичного поля,
лексико-семантичної групи, а на нижньому рівні знаходиться поняття слова. У роботі
[14] введено поняття семантичних станів мовних одиниць, які розглянуті як формальні
репрезентативні стани. У роботі [15] проаналізовані семантичні сітки, семантична
структура та ієрархія лексичних одиниць. У роботі [16] запропонована концепція
семантичних доменів, яка доповнює теорію семантичних полів. Визначення семан-
тичних доменів є найбільш близьким до методів комп’ютерного аналізу текстів при-
родної мови і базується на відповідних текстових колекціях, які належать до аналізо-
Павлишенко Б.М.
«Искусственный интеллект» 2013 № 1 100
3П
ваного домена і характеризують семантичні поняття, які виокремлюють аналізований
домен. Лексемний склад семантичних полів визначають різними способами [17]. Один
із cпособів полягає у виділенні загального поняття, на основі якого формують
лексико-семантичне поле. Інший спосіб полягає у виділенні слова чи групи слів, до
яких підбирають синонімічні ряди. Також виділяють семантичні поля на основі екс-
пертного аналізу спільних появ лексем у заданих контекстах. Прикладом комп’ютер-
ної лексикографічної системи, в якій відображена семантична мережа зв’язків між
лексемами, є система WordNet [18], яка розроблена у Прінстонському університеті.
Ця система побудована на основі експертного лексикографічного аналізу семантич-
них структурних зв’язків, які відображають денотативні та конотативні характеристики
лексемного складу словника. Глибина зв’язків у такій системі визначається експерт-
ною оцінкою лексемних комбінацій у текстових масивах і обмежується науковим до-
свідом експертів та об’ємом проаналізованого матеріалу. Семантичні поля у мережі
WordNet представлені лексикографічними файлами. Іменники, дієслова, прикметники
та прислівники організовані у синсети – множини синонімів. Іменники та дієслова
згруповані відповідно до семантичних полів. У літературі розглядають такі лексемні
класи, як семантичні поля, понятійні поля, тематичні групи лексем, семантичні групи,
синонімічні ряди, семантичні домени та інші.
Підсумовуючи літературні дані досліджень семантичної класифікації лексемного
складу словника можна побачити, що більшість визначень семантичної класифікації
класів лексем є спорідненими, близькими до класичного визначення семантичного поля,
і базуються на моделі «мішка слів». Відмінності між цими визначеннями зумовлені
різним рівнем диференціації семантичних понять, на основі яких утворюють лексемні
об’єднання. У цій моделі розглядають сукупність слів текстових документів без розгля-
ду їх контекстуальної послідовності. На основі проаналізованого матеріалу можна
зробити висновок про необхідність розробки комплексної структурної багаторівне-
вої класифікаційної моделі лексемного складу текстових масивів, яка б об’єднувала
на основі спільного теоретичного базису такі дистрибутивні лексемні відображення
характеристик текстових масивів, як семантика документа, тематика масиву докумен-
тів, семантична характеристика інформаційного джерела документів, характеристика
авторів текстового масиву. Визначення об’єднуючого поняття семантичного поля
потребує модельної та алгоритмічної формалізації. В залежності від обраної моделі
та алгоритму об’єднання лексем можна отримати різні лексемні угрупування. На ос-
нові квантитативних характеристик кожного із таких угрупувань можна утворити
додатковий вимір у семантичному просторі представлення текстових документів.
Введення цих додаткових вимірів може бути ефективним у задачах інтелектуального
аналізу текстів, зокрема у клаcифікаційних задачах та задачах кластерного аналізу.
Велика розмірність векторного простору є значною проблемою класифікаційних
алгоритмів. Тому актульними є методи зменшення розмірності базису. Структуру-
вання словника, зокрема у вигляді семантичної мережі, може дати суттєве зменшення
розмірності базису внаслідок використання квантитативних ознак лексемних полів.
Постановка задачі
Побудуємо теоретико-множинну модель лексемних полів, яка буде описувати
як лексико-семантичні, так і тематичні поля у лексемній структурі словників. Розгля-
немо модель текстових документів у просторі лексемних полів. Проведемо класифі-
каційний аналіз тестової вибірки текстових документів у просторі семантичних та
тематичних полів. Як класифікатор оберемо наївний баєсівський класифікатор.
Використання лексемних полів у інтелектуальному аналізі текстових масивів
«Штучний інтелект» 2013 № 1 101
3П
Теоретико-множинна модель лексемних полів
Розглянемо модель семантичних класів лексем, які утворені як на основі експерт-
ного лексикографічного групування лексем, так і на основі тематичних характеристик
категоризованих текстових документів. Спочатку розглянемо модель класичного лексем-
ного поля, яку в подальшому узагальнимо на випадок тематичного поля масиву категори-
зованих документів. Розглянемо утворення поняття «семантичне поле» в процесі аналізу
текстових даних. Нехай існує деякий словник лексем, які зустрічаються в аналізованих
текстових масивах. Опишемо цей словник як впорядковану множину
{ }
wi
NiwW ...,2,1| == , (1)
де
w
N – кількість лексем у словнику. Введемо множину семантичних полів
{ }
sk
NkSS ...,2,1| == , (2)
де
s
N – кількість семантичних полів. Семантичні ознаки лексем будемо
характеризувати відображенням
swkiWS
NkNiswSWU ...,2,1;...,2,1,,: ==→→ . (3)
Тобто у відповідність кожній лексемі ставлять деякий елемент множини S.
Множина значень S може мати різну природу, наприклад, це може бути множина
назв деяких семантичних класів. Шкала семантичних ознак є номінальною, якщо
лексеми набувають деяких назв із множини S. Номінальна шкала володіє класифіка-
ційним потенціалом, коли за допомогою відображення (3) можна утворити групування
елементів множини W, які мають спільні назви із множини S. У загальному, класи-
фікацію лексем за семантичними полями будемо розглядати як відображення множини
лексем на множину семантичних полів. Семантичну класифікацію розглянемо як
деяку сукупність відображень лексем на множину дійсних чисел. Можливу кванти-
фікацію лексемних відображень можна пов’язати із частотами лексем у текстових
об’єктах. Розглянемо утворення семантичного поля на основі відношення еквівалент-
ності. Нехай існує деяке бінарне відношення
WWS
b
k
×⊆ . (4)
Розглянемо деяку квантитативну ознаку лексеми )(
i
s
k
wx , яка кількісно характеризує
лексемні відношення заданого типу у множині аналізованих текстових об’єктів.
Наприклад, це може бути частота появи лексеми
i
w в заданому лексемному шаблоні.
Пов’яжемо із ознакою )(
i
s
k
wx бінарне відношення
{ })()(|),( j
s
ki
s
kji
b
k wxwxwwS == . (5)
Можна показати, що відношення b
k
S є рефлексивним, тобто
WwSww
i
b
kii
∈∀∈ ,),( , (6)
симетричним, тобто
WwwSwwSww ji
b
kij
b
kji ∈∀∈⇒∈ ,,),(),( , (7)
і транзитивним, тобто
.,,,),(),(,),( WwwwSwwSwwSww lji
b
klj
b
klj
b
kji ∈∀∈⇒∈∈ (8)
Павлишенко Б.М.
«Искусственный интеллект» 2013 № 1 102
3П
Рефлексивне, симетричне і транзитивне відношення називають еквівалентністю [19].
Еквівалентність b
k
S повністю характеризує, породжуючи його ознаку, )(
i
s
k
wx , і дає
можливість визначити множину лексем, які не розрізняють за цією ознакою:
{ }b
kjii
c
k SwwwS ∈= ),(| . (9)
Якщо c
k
S є деяким семантичним відношенням, тоді неспівпадаючі множини c
k
S
утворюють розбиття лексемного словника W на семантичні класи
{ }
s
c
ksc
NkSS ...,2,1| == . (10)
Такі семантичні класи, враховуючи теорію лексико-семантичних полів, можна
розглядати як лексемні поля. Бінарне відношення b
k
S може також породжуватись
деяким логічним висловлюванням ),(
ji
wwQ
{ }truewwQwwS jiji
b
k == ),(|),( , (11)
де ),(
ji
wwQ описує деяку умову, наприклад, одночасне використання в тексто-
вих шаблонах заданої структури. Умова породження бінарного відношення b
k
S може
також описуватись деяким правилом підстановки в заданій схемі формальної грама-
тики. Таке правило може бути сформовано деяким регулярним виразом. Розглянемо
рангову ознаку )(
i
rs
k
wx , яка утворює бінарне відношення
{ })()(|),( j
s
ki
s
kji
rb
k wxwxwwS ≤= . (12)
Можна показати, що таке бінарне відношення є рефлексивне, транзитивне та лінійне.
Такі відношення називають лінійними квазіпорядками [19]. Квазіпорядок rb
k
S
породжує рангову шкалу семантичного поля r
k
S . У випадку формування семан-
тичного поля за допомогою рангових ознак можна визначити внутрішню структуру
поля, для якої можна сформувати внутрішній частковий порядок, виділивши струк-
турні групи всередині семантичного поля. Такими групами можуть бути, наприклад,
частотне ядро семантичного поля, основна частотна область, периферійна частотна
область. Для кожної із цих груп можна визначити умови для семантичної ознаки, за
якою лексеми всередині цих груп не розрізняють. Відношення еквівалентності та
квазіпорядку визначають номінальні та рангові семантичні шкали для лексемного
складу словника текстових масивів на основі лексемних відношень елементів різних
класів семантичного розбиття.
Введемо поняття тематичного поля за аналогією із семантичним полем. Вважаємо,
що тематичне поле утворюють лексеми словника текстових масивів, які характери-
зують тематику деякої категорії текстових документів. Такі категорії можна визначати,
наприклад, на основі дистрибутивних характеристик текстів, згрупованих за деякою
визначеною тематикою, авторством текстів, джерелом походження тощо. Множину
тематичних полів позначимо так
{ }
themi
NthemThem ,...2,1|= , (13)
де ||ThemN
them
= – розмір множини тематичних полів, який визначений кіль-
кістю тематичних категорій. Введемо деякий коефіцієнт, який буде відображати, у
скільки разів деяку лексему вживають частіше у деякій категорії у порівнянні із
Використання лексемних полів у інтелектуальному аналізі текстових масивів
«Штучний інтелект» 2013 № 1 103
3П
загальною вибіркою усіх категорій. Визначимо цей коефіцієнт як відношення частоти
лексеми у документах заданої категорії до частоти цієї ж лексеми у загальній
текстові вибірці
w
i
wg
ijwg
ij
p
p
Kthem = . (14)
Назвемо wg
ij
Kthem коефіцієнтом тематичної виразності. Визначимо тематичне поле
k
them деякої категорії текстових документів
k
ctg , як підмножину словника лексем,
для яких коефіцієнт тематичної виразності є більший за деяке, наперед визначене,
значення:
{ }
ti
wg
iki
them
k KthemwKthemwW >= )(| , (15)
де
t
Kthem – деяке порогове значення коефіцієнта тематичної виразності.
На основі визначення множини тематичного поля можна сформувати лексемний
склад для кожного тематичного поля, заданого певною категорією текстових докумен-
тів. Введення простору семантичних та тематичних полів не тільки зменшує розмірність
задачі аналізу текстів, а також вводить новий базис для текстових характеристик.
У семантичному базисі можуть спостерігатися якісно нові групування тексто-
вих документів.
Розгляд таких групувань може бути ефективним в алгоритмах комплексного
аналізу текстів.
Векторна модель текстових документів
Розглянемо формування базису лексемних семантичних та тематичних полів
для векторного простору текстових документів.
Сукупність текстових документів опишемо такою множиною
{ }dj NjdD ...,2,1,0| == , (16)
де
d
N – кількість документів. Під документом з j = 0, будемо вважати
документ з нейтральним текстом, який відповідає лінгвостатистичній нормі. Документ
dj з множини текстових документів D можна представити як упорядковану мно-
жину слів d
jT , порядок елементів якої відповідає порядку слів у цьому документі:
{ }tjlj
d
j NltT ...2,1| == . (17)
Упорядкований за алфавітом словник текстового документа dj розглянемо як
мультимножину d
jW над множиною словника W
{ }wjii
wd
ij
d
j NidwwnW ...,2,1,|)( =∈= , (18)
де wd
ijn – кількість входжень лексеми
i
w із словника W в множину лексем
текстового документа dj, яку можна визначити як
∑
=
=
t
jN
l
iljwd
wd
ij wtfn
1
),,(
≠
=
=
i
d
lj
ilj
iljwd
ww
wt
wtf
,0
,1
),( . (19)
Павлишенко Б.М.
«Искусственный интеллект» 2013 № 1 104
3П
Відображення лексемного складу словника W на множину семантичних полів S (3)
задамо таблицею, яка визначена експертним лексикографічним аналізом. Лексемний
склад семантичного поля sk визначимо як
=→=
w
U
kii
s
k
NiswwW
ws
...,2,1,| . (20)
Множину образів відображення
ws
U (3) розглянемо як мультимножину над
множиною семантичних полів S
{ }sk
s
kf NksnS ...,2,1|)( == , (21)
де s
k
n – кількість лексем словника W, які відносяться до семантичного поля
k
s :
∑
=
=
w
N
i
kis
s
k
swfn
1
),,( де
∉
∈
=
s
ki
s
ki
kis
Ww
Ww
swf
,0
,1
),( . (22)
Введемо мультимножину образів відображення
ws
U семантичних полів для окремого
документа dj
{ }sk
sd
kj
d
j NksnS ...,2,1|)( == , (23)
де sd
kjn – кількість лексем семантичного поля
k
s в лексемному складі документа dj
∑
=
=
t
jN
l
kljs
sd
kj stfn
1
),,( де
∉
∈
=
s
klj
s
klj
kljs
Wt
Wt
stf
,0
,1
),( . (24)
Введемо оператор відображення лексемного словника W на множину квантитативних
ознак у масиві документів
dw
wd
ijiwd NjNipwU ...,2,1,,...,2,1,: ==→ . (25)
У загальному випадку величина wd
ijp може мати довільне походження кванти-
тативної характеристики.
У подальшому будемо розглядати цю величину як текстову частоту
лексеми
i
w у текстовому документі dj, яка визначена такою функціональною
залежністю
t
j
wd
ijwd
ij
N
n
p = . (26)
Аналогічно введемо оператор відображення семантичного складу d
jS текстового
документа dj на множину квантитативних ознак:
ds
sd
kjksd NjNkpsU ...2,1,,...2,1,: ==→ . (27)
Величина sd
kjp визначає структурну частоту лексем семантичного поля sk у текстовому
документі dj. Визначимо sd
kjp за такою формулою
∑
=
=
w
N
i
kis
wd
ij
sd
kj swfpp
1
),,( де
∉
∈
=
s
ki
s
ki
kis
Ww
Ww
swf
,0
,1
),( . (28)
Використання лексемних полів у інтелектуальному аналізі текстових масивів
«Штучний інтелект» 2013 № 1 105
3П
Сукупність значень wd
ijp утворює матрицю типу ознака-документ
( ) dw NN
ji
wd
ijwd pM
,
1,1 ==
= . (29)
У матриці
wd
M роль ознаки відіграє текстова частота лексеми. Введемо вектор
( )wd
jN
wd
j
wd
j
w
j
w
pppV ,...,,
21
= . (30)
Такий вектор відображає документ dj в Nw-мірному просторі текстових документів.
Сукупність значень sd
kjp утворюють іншу матрицю ознака-документ, у якій ознаками
виступають частоти семантичних полів у документах:
( ) ds
NN
jk
sd
kjsd pM
,
1,1 ==
= . (31)
Вектор
( )sd
jN
sd
j
sd
j
s
j
s
pppV ,...,,
21
= (32)
відображає документ dj в Ns-мірному просторі текстових документів.
Текстові документи можуть бути представлені за допомогою тематичних век-
торів them
jV , які визначають за аналогією до семантичних векторів.
Розглянемо поняття тематичного поля як сукупності лексем, які в загальному
випадку можуть належати різним частинам мови і повинні однозначно відображати
понятійний спектр деякої категорії текстових документів.
Аналогічно до частот семантичних полів визначимо частоти тематичних полів
кожного документа як суми частот лексем, які належать цьому полю:
∑
=
=
w
N
i
kithem
wd
ij
dthem
kj themwfpp
1
)(
),,(
∉
∈
=
them
ki
them
ki
kithem
Ww
Ww
themwf
,0
,1
),( , (33)
де dthem
kjp
)( – частота тематичного поля
k
them у текстовому документі dj ,
them
k
W –
множина лексем тематичного поля
k
them , визначена формулою (15). Розглянемо
матрицю
dthem
M )( типу тематичні поля-документи за аналогією до матриці семантич-
них полів
sd
M
( ) dthem
NN
jk
dthem
kjdthem pM
,
1,1
)(
)(
==
= , (34)
де dthem
kjp
)( – частоти тематичних полів, themN – кількість тематичних полів, dN –
кількість текстових документів. Частоти тематичних полів утворюють координати
текстових повідомлень у векторному семантичному просторі. Вектор
( )dthem
N
dthem
j
dthem
j
them
j jthem
pppV
)()(
2
)(
1 )(
,...,,= (35)
відображає документ dj в Nw-мірному просторі, базис якого утворений тематичними
полями. Використання векторного представлення дає можливість пошуку подібних до-
кументів та псевдодокументів у векторному просторі із базисом, утвореним частотними
характеристиками семантичних та тематичних полів. Цей базис має суттєво меншу
розмірність у порівнянні із базисом, утвореним частотними характеристиками лексем
словника текстових масивів. Це дає можливість зменшити кількість необхідних об-
числень в алгоритмах аналізу текстів.
Павлишенко Б.М.
«Искусственный интеллект» 2013 № 1 106
3П
Експериментальні дослідження
Для експериментального вивчення класифікації текстових документів у про-
сторі семантичних полів ми вибрали текстову базу 503 художніх творів 17 авторів.
Для формування семантичного простору вибрано лексеми, згруповані за семантич-
ними полями іменників та дієслів семантичної мережі WordNet [18]. Семантичні
поля у мережі WordNet (http://wordnet.princeton.edu) представлені лексикографічними
файлами. У наших дослідженнях ми використали семантичні поля іменників та дієслів.
Семантичні поля іменників складаються із 26 лексикографічних файлів, із яких ми
вибрали 54 464 лексеми. Семантичні поля дієслів містять 15 лексикографічних фай-
лів, у які ми відібрали 9097 лексем. Також розглянуто 17 тематичних полів за тема-
тичними категоріями текстових документів, згрупованих за авторами. Коефіцієнт тема-
тичності, за яким відібрані лексеми для тематичних полів, був більшим за мінімальне
значення, що дорівнює 2. Тобто тематичні поля для категорії текстів деякого автора
сформовані на основі лексем, які зустрічаються у цих текстах у два і більше разів
частіше, ніж у сукупній вибірці текстів усіх авторів. Навчальна вибірка містила 350
документів, а тестова – 153. Для класифікації текстових документів вибрано наївний
баєсівський класифікатор. Класифікація текстових документів у просторі семантичних
полів за допомогою баєсівського класифікатора описана в [8]. Для характеристики
класифікаторів використовують поняття точності (precision) та повноти (recall) [3], [4].
Точність класифікатора
j
Pr для категорії
j
Ctg визначають як відношення кількості
елементів, які правильно класифіковані як належні до категорії
j
Ctg до загальної
кількості елементів, які класифіковані як належні до категорії
j
Ctg
{ }
{ }
jii
jijii
j
CtgdClassd
CtgdCtgdClassd
=
∈∧=
=
)( |
)( |
Pr , (36)
де )(
i
dClass – визначена класифікатором категорія. Повноту (recall) класифікатора
jRc визначають як відношення успішно класифікованих документів у заданій категорії
до загальної кількості документів у цій категорії.
{ }
{ }
jii
jijii
j
Ctgdd
CtgdCtgdClassd
Rc
∈
∈∧=
=
|
)( |
(37)
Розглянемо основні отримані результати. Для класифікатора у просторі семан-
тичних полів отримано такі значення точності та повноти класифікації: 7066.0Pr
tclass
mean = ,
6952.0Rc
tclass
mean = . При тестовій класифікації документів за авторами у просторі тематичних
полів отримано такі значення точності та повноти класифікації: 914.0=
tclass
mean
Pr ,
898.0=
tclass
mean
Rc . Графік розподілу точності та повноти баєсівського класифікатора у
просторі тематичних полів наведено на рис. 1.
Як випливає із отриманих результатів, представлення текстів у просторі семан-
тичних та тематичних полів дає високі результати точності класифікаційного аналізу
авторства текстів для розглянутої текстової вибірки художніх творів.
Використання лексемних полів у інтелектуальному аналізі текстових масивів
«Штучний інтелект» 2013 № 1 107
3П
Рисунок 1 – Розподіл точності та повноти для баєсівського
класифікатора у просторі тематичних полів
Висновки
У роботі розглянуті лінгвістичні концепції семантичних та тематичних лексико-
графічних полів із точки зору їх використання в алгоритмах інтелектуального аналізу
текстових масивів. Під семантичними полями розглядають множини лексем, які об’єднані
деякою парадигмою. Під парадигмою можна розуміти, наприклад, спектр семантичних
або тематичних понять, які відображені у структурі лексикографічних значень лексем.
На основі концепцій семантичних полів створена теоретико-множинна модель, яка
об’єднує поняття семантичного та тематичного лексемного поля. Лексикографічні се-
мантичні та тематичні поля можна розглядати як підкласи об’єднуючого класу лексемних
полів. Лексемні поля розглянуті як розбиття лексемного словника на основі відношення
еквівалентності. Лексикографічні поля утворені на основі експертного семантичного гру-
пування лексемного складу словника. Тематичні поля утворені на основі лексем, які ха-
рактерні для тематично категоризованих текстових документів і визначаються на основі
коефіцієнта тематичної виразності. Цей коефіцієнт показує, у скільки разів лексеми
тематичного поля зустрічаються частіше у текстах заданої тематичної категорії у
порівнянні із текстами лінгвостилістичної норми. Розглянуто векторну модель тексто-
вих документів у семантичному просторі, базис якого утворено частотно-дистрибутив-
ними характеристиками семантичних та тематичних полів. Експериментальний класи-
фікаційний аналіз тестової вибірки текстових документів у векторному просторі семантич-
них та тематичних полів показав високу ефективність використання лексемних полів у
класифікаційному аналізі. Точність наївного баєсівського класифікатора у просторі те-
матичних полів для проаналізованої вибірки авторських текстів є вищою у порівнянні із
такою ж точністю у просторі лексикографічних семантичних полів. Базис лексико-
графічних семантичних полів є незалежним від вибірки, а базис тематичних полів є
індивідуальним для кожної текстової вибірки.
Павлишенко Б.М.
«Искусственный интеллект» 2013 № 1 108
3П
Література
1. Pantel P. From Frequency to Meaning: Vector Space Models of Semantics/ Pantel Patrick, Turney
Peter D. // Journal of Artificial Intelligence Research. – 2010. – Vol. 37. – P. 141-188.
2. Брасегян А.А. Анализ данных и процессов : [учеб. пособие] / А.А. Брасегян, М.С. Куприянов,
И.И. Холод [и т.д.]. – СПб. : БХВ-Петербург,2009. – 512 с. : ил.
3. Sebastiani F. Machine Learning in Automated Text Categorization / F. Sebastiani // ACM Computing
Surveys. – 2002. – Vol. 34, № 1. – Р. 1-47.
4. Manning C.D. Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval / Christopher D.
Manning, Prabhakar Raghavan and Hinrich Schütze. – Cambridge University Press, 2008. – 496 p.
5. Павлишенко Б.М. Ієрархічна кластеризація текстових документів у векторному просторі семантичних
полів / Б.М. Павлишенко // Електроніка та інформаційні технології. – 2011. – Випуск 1. – С. 212-222.
6. Павлишенко Б. Семантична кластеризація текстових документів методом k-середніх /
Б. Павлишенко // Комп’ютерні науки та інформаційні технології : збірник наукових праць. – Львів :
Видавництво Львівської політехніки. – 2011. – № 710. – С. 215-218.
7. Павлишенко Б.М. Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної
кластеризації текстових масивів / Б.М. Павлишенко // Математичні машини і системи. – 2012. –
№ 1. – С. 69-76.
8. Павлишенко Б.М. Ймовірнісна класифікація текстових документів в просторі семантичних полів /
Б.М. Павлишенко // Електроніка та інформаційні технології. – 2012. – Випуск 2.– С. 164-172.
9. Вердиева З.Н. Семантические поля в современном английском языке / Вердиева З.Н. – М. :
Высшая школа, 1986. – 120 с.
10. Полевые структуры в системе языка : [коллективная монография] / [под. ред. проф. З.Д. Попова]. –
Воронеж : Изд-во Воронежского ун-та, 1989. – 197 с.
11. Лексико-семантические группы русских глаголов / [под. ред. Э.В. Кузнецовой]. – Иркутск : изд.
Иркут. ун-та, 1989. – 180 с.
12. Уфимцева А.А. Опыт изучения лексики как системы (на материале английского языка) / Уфимцева А.А. –
М. : Издательство Академии наук СССР, 1962. – 176 с.
13. Русанівський В.М. Інформаційно-лінгвістичні основи тлумачної лексикографії / В.М. Русанівський,
В.А. Широков // Мовознавство. – К., 2002. – № 6. – С. 7-31.
14. Широков В.А. Семантичні стани мовних одиниць та їх застосування в когнітивній лексико-
графії / В.А. Широков // Мовознавство. – 2005. – № 3-4. – С. 47- 62.
15. Скороходько Е.Ф. Сіткове моделювання лексики: лінгвістична інтерпретація параметрів
семантичної складності / Е.Ф. Скороходько // Мовознавство. – 1995. – № 6. – С. 19-28.
16. Gliozzo A. Semantic Domains in Computational Linguistics / Alfio Gliozzo, Carlo Strapparava. –
Springer , 2009. – 132 p.
17. Гольдберг В.Б. Контрастивный анализ лексико-семантических груп (на материале английского,
русского и немецкого языков) / В.Б. Гольдберг. – Тамбов : ТГПИ, 1988. – 56 с.
18. Fellbaum C. WordNet. An Electronic Lexical Database / Fellbaum C. – Cambridge, MA : MIT Press,
1998. – 432 p.
19. Миркин Б.Г. Анализ качественных признаков и структур / Миркин Б.Г. – М. : Статистика,
1980. – 319 с., ил.
Lіteratura
1. Pantel P. Journal of Artificial Intelligence Research. 2010. Vol.37. P.141-188.
2. Brasegyan A.A. Analiz dannyh i protsessov: ucheb. posobie. SPb.:BHV-Peterburg,2009. 512s.
3. Sebastiani F. ACM Computing Surveys. 2002. Vol. 34. № 1. P. 1-47.
4. Manning C. D. Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval.
Cambridge University Press. 2008. 496p.
5. Pavlyshenko B. M. Elektronіka ta іnformatsіyni tehnologіi. 2011. Vypusk 1. S. 212-222.
6. Pavlyshenko B. Komp’yuternі nauky ta іnformatsіynі tehnologіi : zbіrnyk naukovyh prats’. L’vіv :
Vydavnystvo L’vіvs’koi polіtehnіky. 2011. № 710. S. 215-218.
7. Pavlyshenko B. M. Matematychnі mashyny і systemy. 2012. №1. S. 69-76.
8. Pavlyshenko B.M. Elektronyka ta іnformatsіynі tehnologіi. 2012. Vypusk 2 . S.164-172.
9. Verdieva Z.N. Semanticheskie polya v sovremennom angliyskom yazyke. M.: Vysshaya shkola. 1986. 120s.
10. Polevye struktury v sisteme yazyka./kollektivnaya monografiya pod.red. prof. Z.D.Popova. Voronezh.:
Izd-vo Voronezhskogo un-ta.1989. 197s.
Використання лексемних полів у інтелектуальному аналізі текстових масивів
«Штучний інтелект» 2013 № 1 109
3П
11. Kuznetsova E. V. Leksiko-semanticheskie gruppy russkih glagolov. Irkutsk: Izd-vo Irkut. Un-ta. 1989. 180s.
12. Ufimtseva A.A. Opyt izucheniya leksiki kak sistemy (na materiale angliyskogo yazyka). M.: Izdatel’stvo
Akademii nauk SSSR. 1962. 176s.
13. Rusanіvs/ky V.M. Іnformatsіyno-lіngvіstychnі osnovy tlumachnoi leksykografіi. Movoznavstvo. K.
2002. №6. S.7-31.
14. Shyrokov V.A. Semantychnі stany movnyh odynyts' ta ih zastosuvannya v kognіtyvnіy leksykografіi.
Movoznavstvo. 2005. №3-4. S.47- 62.
15. Skorohod’ko E.F. Sіtkove modeluvannya leksyky: lіngvіstychna іnterpretatsіya parametrіv semantichnoi
skladnostі. Movoznavstvo. 1995. №6. S.19-28.
16. Gliozzo A. Semantic Domains in Computational Linguistics. Alfio Gliozzo, Carlo Strapparava. Springer. 2009.
132 p.
17. Gol’dberg V.B. Kontrastivnyj analiz leksiko-semanticheskih grup (na materiale angliyskogo, russkogo i
nemetskogo yazykov). Tambov: TGPI. 1988. 56 s.
18. Fellbaum C. WordNet. An Electronic Lexical Database. Cambridge. MA: MIT Press. 1998. 432 p.
19. Mirkin B.G. Analiz kachestvennyh priznakov i struktur. M.: Statistika. 1980. 319 s.
RESUME
B.M. Pavlyshenko
The Use of Lexemes Fields in Data Mining of Texts Arrays
This paper describes the linguistic concepts of semantic and thematic lexicographical
fields in terms of their use in the algorithms of text arrays data mining. Semantic fields are the set
of lexemes which are united under some paradigm. The paradigm can be, for example a range of
semantic or thematic concepts which are represented in the structure of lexemes lexicographical
value. On the basis of the semantic fields concepts we created a set-theoretical model which
combines the concepts of semantic and thematic lexeme fields. Lexicographic semantic and
thematic fields may be considered as subclasses of a unifying class of lexeme fields. Lexeme
fields are considered as a set partition of a lexeme dictionary based on the equivalence relation.
Lexicographic fields are formed on the basis of expert semantic grouping the dictionary lexeme
structure. Thematic fields are created from the lexemes typical for thematically categorized text
documents and are determined due to the coefficient of thematic expressiveness. This coefficient
shows how many times the lexemes of thematic fields are more frequent in the texts of given
thematic category as compared to the texts of linguo-stylistical norm. We also studied a vector
model of text documents in the semantic space, the basis of which is formed by frequency-
distributional characteristics of semantic and thematic fields. Experimental classification analysis
of the test sample of text documents in the vector space of semantic and thematic fields showed
high effectiveness in using lexeme fields for classification analysis. The precision of naive
Bayesian classifier in the space of thematic fields is higher for analyzed authors’ texts in
comparison with the same precision in the space of lexicographic semantic fields. The basis of
lexicographic semantic fields is independent of the texts sample, the basis of thematic fields is
specific to each texts sample.
Стаття надійшла до редакції 07.11.2012.
|
| id | nasplib_isofts_kiev_ua-123456789-85210 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1561-5359 |
| language | Ukrainian |
| last_indexed | 2025-11-27T10:11:28Z |
| publishDate | 2013 |
| publisher | Інститут проблем штучного інтелекту МОН України та НАН України |
| record_format | dspace |
| spelling | Павлишенко, Б.М. 2015-07-21T19:05:56Z 2015-07-21T19:05:56Z 2013 Використання лексемних полів у інтелектуальному аналізі текстових масивів / Б.М. Павлишенко // Искусственный интеллект. — 2013. — № 1. — С. 98–109. — Бібліогр.: 19 назв. — укр. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/85210 519.765:519.767:004.89 У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів. Експериментальний аналіз тестової вибірки показав високу ефективність використання лексемних полів у класифікаційному аналізі авторства текстів. В работе предложена модель семантических и тематических лексемных полей для интеллектуального анализа текстовых документов. Рассмотрена векторная модель текстовых документов в семантическом пространстве, базис которого образован частотно-дистрибутивными характеристиками семантических и тематических полей. Экспериментальный анализ тестовой выборки показал высокую эффективность использования лексемных полей в классификационном анализе авторства текстов. The model of semantic and thematic lexemes fields for data mining of text documents has been proposed. The vector model of text documents in the semantic space was considered. The basis of this space is formed by frequency-distributional characteristics of semantic and thematic fields. The experimental analysis of texts samples showed high efficiency of lexemes fields usage in the classification analysis of texts authorship. uk Інститут проблем штучного інтелекту МОН України та НАН України Искусственный интеллект Анализ и синтез коммуникационной информации Використання лексемних полів у інтелектуальному аналізі текстових масивів Использование лексемных полей в интеллектуальном анализе текстовых массивов The use of lexemes fields in data mining of texts arrays Article published earlier |
| spellingShingle | Використання лексемних полів у інтелектуальному аналізі текстових масивів Павлишенко, Б.М. Анализ и синтез коммуникационной информации |
| title | Використання лексемних полів у інтелектуальному аналізі текстових масивів |
| title_alt | Использование лексемных полей в интеллектуальном анализе текстовых массивов The use of lexemes fields in data mining of texts arrays |
| title_full | Використання лексемних полів у інтелектуальному аналізі текстових масивів |
| title_fullStr | Використання лексемних полів у інтелектуальному аналізі текстових масивів |
| title_full_unstemmed | Використання лексемних полів у інтелектуальному аналізі текстових масивів |
| title_short | Використання лексемних полів у інтелектуальному аналізі текстових масивів |
| title_sort | використання лексемних полів у інтелектуальному аналізі текстових масивів |
| topic | Анализ и синтез коммуникационной информации |
| topic_facet | Анализ и синтез коммуникационной информации |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/85210 |
| work_keys_str_mv | AT pavlišenkobm vikoristannâleksemnihpolívuíntelektualʹnomuanalízítekstovihmasivív AT pavlišenkobm ispolʹzovanieleksemnyhpoleivintellektualʹnomanalizetekstovyhmassivov AT pavlišenkobm theuseoflexemesfieldsindataminingoftextsarrays |