Використання лексемних полів у інтелектуальному аналізі текстових масивів

У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів. Експе...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Искусственный интеллект
Дата:2013
Автор: Павлишенко, Б.М.
Формат: Стаття
Мова:Українська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2013
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/85210
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Використання лексемних полів у інтелектуальному аналізі текстових масивів / Б.М. Павлишенко // Искусственный интеллект. — 2013. — № 1. — С. 98–109. — Бібліогр.: 19 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859585137408212992
author Павлишенко, Б.М.
author_facet Павлишенко, Б.М.
citation_txt Використання лексемних полів у інтелектуальному аналізі текстових масивів / Б.М. Павлишенко // Искусственный интеллект. — 2013. — № 1. — С. 98–109. — Бібліогр.: 19 назв. — укр.
collection DSpace DC
container_title Искусственный интеллект
description У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів. Експериментальний аналіз тестової вибірки показав високу ефективність використання лексемних полів у класифікаційному аналізі авторства текстів. В работе предложена модель семантических и тематических лексемных полей для интеллектуального анализа текстовых документов. Рассмотрена векторная модель текстовых документов в семантическом пространстве, базис которого образован частотно-дистрибутивными характеристиками семантических и тематических полей. Экспериментальный анализ тестовой выборки показал высокую эффективность использования лексемных полей в классификационном анализе авторства текстов. The model of semantic and thematic lexemes fields for data mining of text documents has been proposed. The vector model of text documents in the semantic space was considered. The basis of this space is formed by frequency-distributional characteristics of semantic and thematic fields. The experimental analysis of texts samples showed high efficiency of lexemes fields usage in the classification analysis of texts authorship.
first_indexed 2025-11-27T10:11:28Z
format Article
fulltext ISSN 1561-5359 «Искусственный интеллект» 2013 № 1 98 3П УДК 519.765:519.767:004.89 Б.М. Павлишенко Львівський національний університет імені Івана Франка, Україна Україна, 79005, Львів, вул. Драгоманова, 50 Використання лексемних полів у інтелектуальному аналізі текстових масивів B.M. Pavlyshenko Ivan Franko Lviv National University, Ukraine Ukraine, 79005 Lviv, Drahomanov Str. 50 The Use of Lexemes Fields in Data Mining of Texts Arrays Б.М. Павлышенко Львовский национальный университет имени Ивана Франко, Украина Украина, 79005, Львов, ул. Драгоманова, 50 Использование лексемных полей в интеллектуальном анализе текстовых массивов У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів. Експериментальний аналіз тестової вибірки показав високу ефективність використання лексемних полів у класифікаційному аналізі авторства текстів. Ключові слова: інтелектуальний аналіз даних, семантичні та тематичні поля, векторна модель текстових документів, класифікація текстів. The model of semantic and thematic lexemes fields for data mining of text documents has been proposed. The vector model of text documents in the semantic space was considered. The basis of this space is formed by frequency-distributional characteristics of semantic and thematic fields. The experimental analysis of texts samples showed high efficiency of lexemes fields usage in the classification analysis of texts authorship. Key words: data mining, Bayesian classification, semantic and thematic fields, vector space model of text documents, texts classification. В работе предложена модель семантических и тематических лексемных полей для интеллектуального анализа текстовых документов. Рассмотрена векторная модель текстовых документов в семантическом пространстве, базис которого образован частотно-дистрибутивными характеристиками семантических и тематических полей. Экспериментальный анализ тестовой выборки показал высокую эффективность использования лексемных полей в классификационном анализе авторства текстов. Ключевые слова: интеллектуальний анализ данных, семантические и тематические поля, векторная модель текстових документов, классификация текстов. Вступ Інтелектуальний аналіз текстових масивів є одним із перспективних напрямків сучасних інформаційних технологій. Складовими такого аналізу є алгоритми кла- сифікації та кластеризації текстових документів. У цих алгоритмах використовують векторну модель текстових документів, яка базується на представленні документів як векторів у деякому фазовому просторі. Базис такого простору часто утворюють за допомогою частотно-дистрибутивних характеристик лексем текстового словника. Одна із основних проблем такого підходу зумовлена великою розмірністю аналізованого век- Використання лексемних полів у інтелектуальному аналізі текстових масивів «Штучний інтелект» 2013 № 1 99 3П торного простору. Також такий простір не дає можливості виділити задані семантичні складові в інтелектуальному аналізі текстів. У задачах аналізу текстового змісту ак- туальними є теорії лексичної семантики, зокрема, вчення про семантичні поля. Се- мантичні поля розглядають як групи лексем, об’єднаних спільним поняттям. Такі групи лексем утворюють нові характеристики текстових даних, використання яких може бути ефективним у задачах кластеризації та класифікації текcтових документів. Семан- тичні поля глибоко вивчені у лінгвістичних працях, однак існує необхідність розробки формалізованих математичних моделей для їхнього впровадження в алгоритми інтелек- туального аналізу текстових масивів. Аналіз останніх досліджень та публікацій У роботах [1], [2] описана векторна модель текстових документів. У [2-4] розгля- нуто методи класифікаційного аналізу текстових документів. У роботах [5-8] наведені результати аналізу текстових масивів на основі концепції семантичних полів. Семантичні поля розглянуті як групи лексем, об’єднаних спільним поняттям. У [5], [6] запропоно- вана модель кластеризації текстових документів у семантичному просторі, яка дає можли- вість отримувати новий структурний поділ документів за семантичними ознаками у просторі суттєво меншої розмірності, ніж у просторі, утвореному частотними характе- ристиками лексемного складу текстової вибірки. У роботі [8] показано, що сингулярний розклад матриці семантичних ознак типу «частоти_семантичних_полів – документи» дає можливість аналізувати текстові документи у новому просторі семантичних концеп- тів. Розглянемо лексикографічні концепції лексемних полів, які використовують у лінгвістиці. Семантичні групування слів відображають системність лексики. В основі визначення семантичних полів лежить лексико-семантична парадигма, під якою роз- уміють множину лексем, які об’єднані сукупністю семантичних ознак. Відмінність лексем у межах однієї парадигми визначається уточнюючими диференціюючими ознаками. Парадигми можуть бути одно- та багаторанговими. Ранги парадигми визначають струк- туру ієрархії лексемного об’єднання. Ядро семантичного поля утворюють лексеми, домінуюче значення яких визначають основними ознаками семантичного поля. Периферію семантичного поля утворюють лексеми, які містять основні поняття семантичного поля опосередковано, через ряд диференційних ознак, що мають відношення до основного поняття, яке утворює семантичне поле [9]. Одні і ті ж множини лексем називають як лексико-семантичні групи, семантичні поля, синонімічні ряди [10]. Уточнюючі та дифе- ренціюючі семантичні зв’язки в рамках одного семантичного поля визначають ієрар- хічну структуру поля [11]. Один із засновників вчення про семантичні поля – німецький вчений Трір, розділяв ієрархічну структуру лексем на словесні та понятійні поля. Він також вважав, що семантичні поля є неперервними, тобто лексеми семантичного поля охоплюють його понятійну область без пробілів так само, як склад словника охоплює весь спектр понять мови [12]. У лінгвістиці вводять поняття семантичного простору, який інтегрує та об’єднує семантичні поля [13]. На вершині семантичної організації знаходиться поняття семантичного простору, далі – поняття семантичного поля, лексико-семантичної групи, а на нижньому рівні знаходиться поняття слова. У роботі [14] введено поняття семантичних станів мовних одиниць, які розглянуті як формальні репрезентативні стани. У роботі [15] проаналізовані семантичні сітки, семантична структура та ієрархія лексичних одиниць. У роботі [16] запропонована концепція семантичних доменів, яка доповнює теорію семантичних полів. Визначення семан- тичних доменів є найбільш близьким до методів комп’ютерного аналізу текстів при- родної мови і базується на відповідних текстових колекціях, які належать до аналізо- Павлишенко Б.М. «Искусственный интеллект» 2013 № 1 100 3П ваного домена і характеризують семантичні поняття, які виокремлюють аналізований домен. Лексемний склад семантичних полів визначають різними способами [17]. Один із cпособів полягає у виділенні загального поняття, на основі якого формують лексико-семантичне поле. Інший спосіб полягає у виділенні слова чи групи слів, до яких підбирають синонімічні ряди. Також виділяють семантичні поля на основі екс- пертного аналізу спільних появ лексем у заданих контекстах. Прикладом комп’ютер- ної лексикографічної системи, в якій відображена семантична мережа зв’язків між лексемами, є система WordNet [18], яка розроблена у Прінстонському університеті. Ця система побудована на основі експертного лексикографічного аналізу семантич- них структурних зв’язків, які відображають денотативні та конотативні характеристики лексемного складу словника. Глибина зв’язків у такій системі визначається експерт- ною оцінкою лексемних комбінацій у текстових масивах і обмежується науковим до- свідом експертів та об’ємом проаналізованого матеріалу. Семантичні поля у мережі WordNet представлені лексикографічними файлами. Іменники, дієслова, прикметники та прислівники організовані у синсети – множини синонімів. Іменники та дієслова згруповані відповідно до семантичних полів. У літературі розглядають такі лексемні класи, як семантичні поля, понятійні поля, тематичні групи лексем, семантичні групи, синонімічні ряди, семантичні домени та інші. Підсумовуючи літературні дані досліджень семантичної класифікації лексемного складу словника можна побачити, що більшість визначень семантичної класифікації класів лексем є спорідненими, близькими до класичного визначення семантичного поля, і базуються на моделі «мішка слів». Відмінності між цими визначеннями зумовлені різним рівнем диференціації семантичних понять, на основі яких утворюють лексемні об’єднання. У цій моделі розглядають сукупність слів текстових документів без розгля- ду їх контекстуальної послідовності. На основі проаналізованого матеріалу можна зробити висновок про необхідність розробки комплексної структурної багаторівне- вої класифікаційної моделі лексемного складу текстових масивів, яка б об’єднувала на основі спільного теоретичного базису такі дистрибутивні лексемні відображення характеристик текстових масивів, як семантика документа, тематика масиву докумен- тів, семантична характеристика інформаційного джерела документів, характеристика авторів текстового масиву. Визначення об’єднуючого поняття семантичного поля потребує модельної та алгоритмічної формалізації. В залежності від обраної моделі та алгоритму об’єднання лексем можна отримати різні лексемні угрупування. На ос- нові квантитативних характеристик кожного із таких угрупувань можна утворити додатковий вимір у семантичному просторі представлення текстових документів. Введення цих додаткових вимірів може бути ефективним у задачах інтелектуального аналізу текстів, зокрема у клаcифікаційних задачах та задачах кластерного аналізу. Велика розмірність векторного простору є значною проблемою класифікаційних алгоритмів. Тому актульними є методи зменшення розмірності базису. Структуру- вання словника, зокрема у вигляді семантичної мережі, може дати суттєве зменшення розмірності базису внаслідок використання квантитативних ознак лексемних полів. Постановка задачі Побудуємо теоретико-множинну модель лексемних полів, яка буде описувати як лексико-семантичні, так і тематичні поля у лексемній структурі словників. Розгля- немо модель текстових документів у просторі лексемних полів. Проведемо класифі- каційний аналіз тестової вибірки текстових документів у просторі семантичних та тематичних полів. Як класифікатор оберемо наївний баєсівський класифікатор. Використання лексемних полів у інтелектуальному аналізі текстових масивів «Штучний інтелект» 2013 № 1 101 3П Теоретико-множинна модель лексемних полів Розглянемо модель семантичних класів лексем, які утворені як на основі експерт- ного лексикографічного групування лексем, так і на основі тематичних характеристик категоризованих текстових документів. Спочатку розглянемо модель класичного лексем- ного поля, яку в подальшому узагальнимо на випадок тематичного поля масиву категори- зованих документів. Розглянемо утворення поняття «семантичне поле» в процесі аналізу текстових даних. Нехай існує деякий словник лексем, які зустрічаються в аналізованих текстових масивах. Опишемо цей словник як впорядковану множину { } wi NiwW ...,2,1| == , (1) де w N – кількість лексем у словнику. Введемо множину семантичних полів { } sk NkSS ...,2,1| == , (2) де s N – кількість семантичних полів. Семантичні ознаки лексем будемо характеризувати відображенням swkiWS NkNiswSWU ...,2,1;...,2,1,,: ==→→ . (3) Тобто у відповідність кожній лексемі ставлять деякий елемент множини S. Множина значень S може мати різну природу, наприклад, це може бути множина назв деяких семантичних класів. Шкала семантичних ознак є номінальною, якщо лексеми набувають деяких назв із множини S. Номінальна шкала володіє класифіка- ційним потенціалом, коли за допомогою відображення (3) можна утворити групування елементів множини W, які мають спільні назви із множини S. У загальному, класи- фікацію лексем за семантичними полями будемо розглядати як відображення множини лексем на множину семантичних полів. Семантичну класифікацію розглянемо як деяку сукупність відображень лексем на множину дійсних чисел. Можливу кванти- фікацію лексемних відображень можна пов’язати із частотами лексем у текстових об’єктах. Розглянемо утворення семантичного поля на основі відношення еквівалент- ності. Нехай існує деяке бінарне відношення WWS b k ×⊆ . (4) Розглянемо деяку квантитативну ознаку лексеми )( i s k wx , яка кількісно характеризує лексемні відношення заданого типу у множині аналізованих текстових об’єктів. Наприклад, це може бути частота появи лексеми i w в заданому лексемному шаблоні. Пов’яжемо із ознакою )( i s k wx бінарне відношення { })()(|),( j s ki s kji b k wxwxwwS == . (5) Можна показати, що відношення b k S є рефлексивним, тобто WwSww i b kii ∈∀∈ ,),( , (6) симетричним, тобто WwwSwwSww ji b kij b kji ∈∀∈⇒∈ ,,),(),( , (7) і транзитивним, тобто .,,,),(),(,),( WwwwSwwSwwSww lji b klj b klj b kji ∈∀∈⇒∈∈ (8) Павлишенко Б.М. «Искусственный интеллект» 2013 № 1 102 3П Рефлексивне, симетричне і транзитивне відношення називають еквівалентністю [19]. Еквівалентність b k S повністю характеризує, породжуючи його ознаку, )( i s k wx , і дає можливість визначити множину лексем, які не розрізняють за цією ознакою: { }b kjii c k SwwwS ∈= ),(| . (9) Якщо c k S є деяким семантичним відношенням, тоді неспівпадаючі множини c k S утворюють розбиття лексемного словника W на семантичні класи { } s c ksc NkSS ...,2,1| == . (10) Такі семантичні класи, враховуючи теорію лексико-семантичних полів, можна розглядати як лексемні поля. Бінарне відношення b k S може також породжуватись деяким логічним висловлюванням ),( ji wwQ { }truewwQwwS jiji b k == ),(|),( , (11) де ),( ji wwQ описує деяку умову, наприклад, одночасне використання в тексто- вих шаблонах заданої структури. Умова породження бінарного відношення b k S може також описуватись деяким правилом підстановки в заданій схемі формальної грама- тики. Таке правило може бути сформовано деяким регулярним виразом. Розглянемо рангову ознаку )( i rs k wx , яка утворює бінарне відношення { })()(|),( j s ki s kji rb k wxwxwwS ≤= . (12) Можна показати, що таке бінарне відношення є рефлексивне, транзитивне та лінійне. Такі відношення називають лінійними квазіпорядками [19]. Квазіпорядок rb k S породжує рангову шкалу семантичного поля r k S . У випадку формування семан- тичного поля за допомогою рангових ознак можна визначити внутрішню структуру поля, для якої можна сформувати внутрішній частковий порядок, виділивши струк- турні групи всередині семантичного поля. Такими групами можуть бути, наприклад, частотне ядро семантичного поля, основна частотна область, периферійна частотна область. Для кожної із цих груп можна визначити умови для семантичної ознаки, за якою лексеми всередині цих груп не розрізняють. Відношення еквівалентності та квазіпорядку визначають номінальні та рангові семантичні шкали для лексемного складу словника текстових масивів на основі лексемних відношень елементів різних класів семантичного розбиття. Введемо поняття тематичного поля за аналогією із семантичним полем. Вважаємо, що тематичне поле утворюють лексеми словника текстових масивів, які характери- зують тематику деякої категорії текстових документів. Такі категорії можна визначати, наприклад, на основі дистрибутивних характеристик текстів, згрупованих за деякою визначеною тематикою, авторством текстів, джерелом походження тощо. Множину тематичних полів позначимо так { } themi NthemThem ,...2,1|= , (13) де ||ThemN them = – розмір множини тематичних полів, який визначений кіль- кістю тематичних категорій. Введемо деякий коефіцієнт, який буде відображати, у скільки разів деяку лексему вживають частіше у деякій категорії у порівнянні із Використання лексемних полів у інтелектуальному аналізі текстових масивів «Штучний інтелект» 2013 № 1 103 3П загальною вибіркою усіх категорій. Визначимо цей коефіцієнт як відношення частоти лексеми у документах заданої категорії до частоти цієї ж лексеми у загальній текстові вибірці w i wg ijwg ij p p Kthem = . (14) Назвемо wg ij Kthem коефіцієнтом тематичної виразності. Визначимо тематичне поле k them деякої категорії текстових документів k ctg , як підмножину словника лексем, для яких коефіцієнт тематичної виразності є більший за деяке, наперед визначене, значення: { } ti wg iki them k KthemwKthemwW >= )(| , (15) де t Kthem – деяке порогове значення коефіцієнта тематичної виразності. На основі визначення множини тематичного поля можна сформувати лексемний склад для кожного тематичного поля, заданого певною категорією текстових докумен- тів. Введення простору семантичних та тематичних полів не тільки зменшує розмірність задачі аналізу текстів, а також вводить новий базис для текстових характеристик. У семантичному базисі можуть спостерігатися якісно нові групування тексто- вих документів. Розгляд таких групувань може бути ефективним в алгоритмах комплексного аналізу текстів. Векторна модель текстових документів Розглянемо формування базису лексемних семантичних та тематичних полів для векторного простору текстових документів. Сукупність текстових документів опишемо такою множиною { }dj NjdD ...,2,1,0| == , (16) де d N – кількість документів. Під документом з j = 0, будемо вважати документ з нейтральним текстом, який відповідає лінгвостатистичній нормі. Документ dj з множини текстових документів D можна представити як упорядковану мно- жину слів d jT , порядок елементів якої відповідає порядку слів у цьому документі: { }tjlj d j NltT ...2,1| == . (17) Упорядкований за алфавітом словник текстового документа dj розглянемо як мультимножину d jW над множиною словника W { }wjii wd ij d j NidwwnW ...,2,1,|)( =∈= , (18) де wd ijn – кількість входжень лексеми i w із словника W в множину лексем текстового документа dj, яку можна визначити як ∑ = = t jN l iljwd wd ij wtfn 1 ),,(     ≠ = = i d lj ilj iljwd ww wt wtf ,0 ,1 ),( . (19) Павлишенко Б.М. «Искусственный интеллект» 2013 № 1 104 3П Відображення лексемного складу словника W на множину семантичних полів S (3) задамо таблицею, яка визначена експертним лексикографічним аналізом. Лексемний склад семантичного поля sk визначимо як       =→= w U kii s k NiswwW ws ...,2,1,| . (20) Множину образів відображення ws U (3) розглянемо як мультимножину над множиною семантичних полів S { }sk s kf NksnS ...,2,1|)( == , (21) де s k n – кількість лексем словника W, які відносяться до семантичного поля k s : ∑ = = w N i kis s k swfn 1 ),,( де     ∉ ∈ = s ki s ki kis Ww Ww swf ,0 ,1 ),( . (22) Введемо мультимножину образів відображення ws U семантичних полів для окремого документа dj { }sk sd kj d j NksnS ...,2,1|)( == , (23) де sd kjn – кількість лексем семантичного поля k s в лексемному складі документа dj ∑ = = t jN l kljs sd kj stfn 1 ),,( де     ∉ ∈ = s klj s klj kljs Wt Wt stf ,0 ,1 ),( . (24) Введемо оператор відображення лексемного словника W на множину квантитативних ознак у масиві документів dw wd ijiwd NjNipwU ...,2,1,,...,2,1,: ==→ . (25) У загальному випадку величина wd ijp може мати довільне походження кванти- тативної характеристики. У подальшому будемо розглядати цю величину як текстову частоту лексеми i w у текстовому документі dj, яка визначена такою функціональною залежністю t j wd ijwd ij N n p = . (26) Аналогічно введемо оператор відображення семантичного складу d jS текстового документа dj на множину квантитативних ознак: ds sd kjksd NjNkpsU ...2,1,,...2,1,: ==→ . (27) Величина sd kjp визначає структурну частоту лексем семантичного поля sk у текстовому документі dj. Визначимо sd kjp за такою формулою ∑ = = w N i kis wd ij sd kj swfpp 1 ),,( де     ∉ ∈ = s ki s ki kis Ww Ww swf ,0 ,1 ),( . (28) Використання лексемних полів у інтелектуальному аналізі текстових масивів «Штучний інтелект» 2013 № 1 105 3П Сукупність значень wd ijp утворює матрицю типу ознака-документ ( ) dw NN ji wd ijwd pM , 1,1 == = . (29) У матриці wd M роль ознаки відіграє текстова частота лексеми. Введемо вектор ( )wd jN wd j wd j w j w pppV ,...,, 21 = . (30) Такий вектор відображає документ dj в Nw-мірному просторі текстових документів. Сукупність значень sd kjp утворюють іншу матрицю ознака-документ, у якій ознаками виступають частоти семантичних полів у документах: ( ) ds NN jk sd kjsd pM , 1,1 == = . (31) Вектор ( )sd jN sd j sd j s j s pppV ,...,, 21 = (32) відображає документ dj в Ns-мірному просторі текстових документів. Текстові документи можуть бути представлені за допомогою тематичних век- торів them jV , які визначають за аналогією до семантичних векторів. Розглянемо поняття тематичного поля як сукупності лексем, які в загальному випадку можуть належати різним частинам мови і повинні однозначно відображати понятійний спектр деякої категорії текстових документів. Аналогічно до частот семантичних полів визначимо частоти тематичних полів кожного документа як суми частот лексем, які належать цьому полю: ∑ = = w N i kithem wd ij dthem kj themwfpp 1 )( ),,(     ∉ ∈ = them ki them ki kithem Ww Ww themwf ,0 ,1 ),( , (33) де dthem kjp )( – частота тематичного поля k them у текстовому документі dj , them k W – множина лексем тематичного поля k them , визначена формулою (15). Розглянемо матрицю dthem M )( типу тематичні поля-документи за аналогією до матриці семантич- них полів sd M ( ) dthem NN jk dthem kjdthem pM , 1,1 )( )( == = , (34) де dthem kjp )( – частоти тематичних полів, themN – кількість тематичних полів, dN – кількість текстових документів. Частоти тематичних полів утворюють координати текстових повідомлень у векторному семантичному просторі. Вектор ( )dthem N dthem j dthem j them j jthem pppV )()( 2 )( 1 )( ,...,,= (35) відображає документ dj в Nw-мірному просторі, базис якого утворений тематичними полями. Використання векторного представлення дає можливість пошуку подібних до- кументів та псевдодокументів у векторному просторі із базисом, утвореним частотними характеристиками семантичних та тематичних полів. Цей базис має суттєво меншу розмірність у порівнянні із базисом, утвореним частотними характеристиками лексем словника текстових масивів. Це дає можливість зменшити кількість необхідних об- числень в алгоритмах аналізу текстів. Павлишенко Б.М. «Искусственный интеллект» 2013 № 1 106 3П Експериментальні дослідження Для експериментального вивчення класифікації текстових документів у про- сторі семантичних полів ми вибрали текстову базу 503 художніх творів 17 авторів. Для формування семантичного простору вибрано лексеми, згруповані за семантич- ними полями іменників та дієслів семантичної мережі WordNet [18]. Семантичні поля у мережі WordNet (http://wordnet.princeton.edu) представлені лексикографічними файлами. У наших дослідженнях ми використали семантичні поля іменників та дієслів. Семантичні поля іменників складаються із 26 лексикографічних файлів, із яких ми вибрали 54 464 лексеми. Семантичні поля дієслів містять 15 лексикографічних фай- лів, у які ми відібрали 9097 лексем. Також розглянуто 17 тематичних полів за тема- тичними категоріями текстових документів, згрупованих за авторами. Коефіцієнт тема- тичності, за яким відібрані лексеми для тематичних полів, був більшим за мінімальне значення, що дорівнює 2. Тобто тематичні поля для категорії текстів деякого автора сформовані на основі лексем, які зустрічаються у цих текстах у два і більше разів частіше, ніж у сукупній вибірці текстів усіх авторів. Навчальна вибірка містила 350 документів, а тестова – 153. Для класифікації текстових документів вибрано наївний баєсівський класифікатор. Класифікація текстових документів у просторі семантичних полів за допомогою баєсівського класифікатора описана в [8]. Для характеристики класифікаторів використовують поняття точності (precision) та повноти (recall) [3], [4]. Точність класифікатора j Pr для категорії j Ctg визначають як відношення кількості елементів, які правильно класифіковані як належні до категорії j Ctg до загальної кількості елементів, які класифіковані як належні до категорії j Ctg { } { } jii jijii j CtgdClassd CtgdCtgdClassd = ∈∧= = )( | )( | Pr , (36) де )( i dClass – визначена класифікатором категорія. Повноту (recall) класифікатора jRc визначають як відношення успішно класифікованих документів у заданій категорії до загальної кількості документів у цій категорії. { } { } jii jijii j Ctgdd CtgdCtgdClassd Rc ∈ ∈∧= = | )( | (37) Розглянемо основні отримані результати. Для класифікатора у просторі семан- тичних полів отримано такі значення точності та повноти класифікації: 7066.0Pr tclass mean = , 6952.0Rc tclass mean = . При тестовій класифікації документів за авторами у просторі тематичних полів отримано такі значення точності та повноти класифікації: 914.0= tclass mean Pr , 898.0= tclass mean Rc . Графік розподілу точності та повноти баєсівського класифікатора у просторі тематичних полів наведено на рис. 1. Як випливає із отриманих результатів, представлення текстів у просторі семан- тичних та тематичних полів дає високі результати точності класифікаційного аналізу авторства текстів для розглянутої текстової вибірки художніх творів. Використання лексемних полів у інтелектуальному аналізі текстових масивів «Штучний інтелект» 2013 № 1 107 3П Рисунок 1 – Розподіл точності та повноти для баєсівського класифікатора у просторі тематичних полів Висновки У роботі розглянуті лінгвістичні концепції семантичних та тематичних лексико- графічних полів із точки зору їх використання в алгоритмах інтелектуального аналізу текстових масивів. Під семантичними полями розглядають множини лексем, які об’єднані деякою парадигмою. Під парадигмою можна розуміти, наприклад, спектр семантичних або тематичних понять, які відображені у структурі лексикографічних значень лексем. На основі концепцій семантичних полів створена теоретико-множинна модель, яка об’єднує поняття семантичного та тематичного лексемного поля. Лексикографічні се- мантичні та тематичні поля можна розглядати як підкласи об’єднуючого класу лексемних полів. Лексемні поля розглянуті як розбиття лексемного словника на основі відношення еквівалентності. Лексикографічні поля утворені на основі експертного семантичного гру- пування лексемного складу словника. Тематичні поля утворені на основі лексем, які ха- рактерні для тематично категоризованих текстових документів і визначаються на основі коефіцієнта тематичної виразності. Цей коефіцієнт показує, у скільки разів лексеми тематичного поля зустрічаються частіше у текстах заданої тематичної категорії у порівнянні із текстами лінгвостилістичної норми. Розглянуто векторну модель тексто- вих документів у семантичному просторі, базис якого утворено частотно-дистрибутив- ними характеристиками семантичних та тематичних полів. Експериментальний класи- фікаційний аналіз тестової вибірки текстових документів у векторному просторі семантич- них та тематичних полів показав високу ефективність використання лексемних полів у класифікаційному аналізі. Точність наївного баєсівського класифікатора у просторі те- матичних полів для проаналізованої вибірки авторських текстів є вищою у порівнянні із такою ж точністю у просторі лексикографічних семантичних полів. Базис лексико- графічних семантичних полів є незалежним від вибірки, а базис тематичних полів є індивідуальним для кожної текстової вибірки. Павлишенко Б.М. «Искусственный интеллект» 2013 № 1 108 3П Література 1. Pantel P. From Frequency to Meaning: Vector Space Models of Semantics/ Pantel Patrick, Turney Peter D. // Journal of Artificial Intelligence Research. – 2010. – Vol. 37. – P. 141-188. 2. Брасегян А.А. Анализ данных и процессов : [учеб. пособие] / А.А. Брасегян, М.С. Куприянов, И.И. Холод [и т.д.]. – СПб. : БХВ-Петербург,2009. – 512 с. : ил. 3. Sebastiani F. Machine Learning in Automated Text Categorization / F. Sebastiani // ACM Computing Surveys. – 2002. – Vol. 34, № 1. – Р. 1-47. 4. Manning C.D. Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval / Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze. – Cambridge University Press, 2008. – 496 p. 5. Павлишенко Б.М. Ієрархічна кластеризація текстових документів у векторному просторі семантичних полів / Б.М. Павлишенко // Електроніка та інформаційні технології. – 2011. – Випуск 1. – С. 212-222. 6. Павлишенко Б. Семантична кластеризація текстових документів методом k-середніх / Б. Павлишенко // Комп’ютерні науки та інформаційні технології : збірник наукових праць. – Львів : Видавництво Львівської політехніки. – 2011. – № 710. – С. 215-218. 7. Павлишенко Б.М. Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів / Б.М. Павлишенко // Математичні машини і системи. – 2012. – № 1. – С. 69-76. 8. Павлишенко Б.М. Ймовірнісна класифікація текстових документів в просторі семантичних полів / Б.М. Павлишенко // Електроніка та інформаційні технології. – 2012. – Випуск 2.– С. 164-172. 9. Вердиева З.Н. Семантические поля в современном английском языке / Вердиева З.Н. – М. : Высшая школа, 1986. – 120 с. 10. Полевые структуры в системе языка : [коллективная монография] / [под. ред. проф. З.Д. Попова]. – Воронеж : Изд-во Воронежского ун-та, 1989. – 197 с. 11. Лексико-семантические группы русских глаголов / [под. ред. Э.В. Кузнецовой]. – Иркутск : изд. Иркут. ун-та, 1989. – 180 с. 12. Уфимцева А.А. Опыт изучения лексики как системы (на материале английского языка) / Уфимцева А.А. – М. : Издательство Академии наук СССР, 1962. – 176 с. 13. Русанівський В.М. Інформаційно-лінгвістичні основи тлумачної лексикографії / В.М. Русанівський, В.А. Широков // Мовознавство. – К., 2002. – № 6. – С. 7-31. 14. Широков В.А. Семантичні стани мовних одиниць та їх застосування в когнітивній лексико- графії / В.А. Широков // Мовознавство. – 2005. – № 3-4. – С. 47- 62. 15. Скороходько Е.Ф. Сіткове моделювання лексики: лінгвістична інтерпретація параметрів семантичної складності / Е.Ф. Скороходько // Мовознавство. – 1995. – № 6. – С. 19-28. 16. Gliozzo A. Semantic Domains in Computational Linguistics / Alfio Gliozzo, Carlo Strapparava. – Springer , 2009. – 132 p. 17. Гольдберг В.Б. Контрастивный анализ лексико-семантических груп (на материале английского, русского и немецкого языков) / В.Б. Гольдберг. – Тамбов : ТГПИ, 1988. – 56 с. 18. Fellbaum C. WordNet. An Electronic Lexical Database / Fellbaum C. – Cambridge, MA : MIT Press, 1998. – 432 p. 19. Миркин Б.Г. Анализ качественных признаков и структур / Миркин Б.Г. – М. : Статистика, 1980. – 319 с., ил. Lіteratura 1. Pantel P. Journal of Artificial Intelligence Research. 2010. Vol.37. P.141-188. 2. Brasegyan A.A. Analiz dannyh i protsessov: ucheb. posobie. SPb.:BHV-Peterburg,2009. 512s. 3. Sebastiani F. ACM Computing Surveys. 2002. Vol. 34. № 1. P. 1-47. 4. Manning C. D. Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval. Cambridge University Press. 2008. 496p. 5. Pavlyshenko B. M. Elektronіka ta іnformatsіyni tehnologіi. 2011. Vypusk 1. S. 212-222. 6. Pavlyshenko B. Komp’yuternі nauky ta іnformatsіynі tehnologіi : zbіrnyk naukovyh prats’. L’vіv : Vydavnystvo L’vіvs’koi polіtehnіky. 2011. № 710. S. 215-218. 7. Pavlyshenko B. M. Matematychnі mashyny і systemy. 2012. №1. S. 69-76. 8. Pavlyshenko B.M. Elektronyka ta іnformatsіynі tehnologіi. 2012. Vypusk 2 . S.164-172. 9. Verdieva Z.N. Semanticheskie polya v sovremennom angliyskom yazyke. M.: Vysshaya shkola. 1986. 120s. 10. Polevye struktury v sisteme yazyka./kollektivnaya monografiya pod.red. prof. Z.D.Popova. Voronezh.: Izd-vo Voronezhskogo un-ta.1989. 197s. Використання лексемних полів у інтелектуальному аналізі текстових масивів «Штучний інтелект» 2013 № 1 109 3П 11. Kuznetsova E. V. Leksiko-semanticheskie gruppy russkih glagolov. Irkutsk: Izd-vo Irkut. Un-ta. 1989. 180s. 12. Ufimtseva A.A. Opyt izucheniya leksiki kak sistemy (na materiale angliyskogo yazyka). M.: Izdatel’stvo Akademii nauk SSSR. 1962. 176s. 13. Rusanіvs/ky V.M. Іnformatsіyno-lіngvіstychnі osnovy tlumachnoi leksykografіi. Movoznavstvo. K. 2002. №6. S.7-31. 14. Shyrokov V.A. Semantychnі stany movnyh odynyts' ta ih zastosuvannya v kognіtyvnіy leksykografіi. Movoznavstvo. 2005. №3-4. S.47- 62. 15. Skorohod’ko E.F. Sіtkove modeluvannya leksyky: lіngvіstychna іnterpretatsіya parametrіv semantichnoi skladnostі. Movoznavstvo. 1995. №6. S.19-28. 16. Gliozzo A. Semantic Domains in Computational Linguistics. Alfio Gliozzo, Carlo Strapparava. Springer. 2009. 132 p. 17. Gol’dberg V.B. Kontrastivnyj analiz leksiko-semanticheskih grup (na materiale angliyskogo, russkogo i nemetskogo yazykov). Tambov: TGPI. 1988. 56 s. 18. Fellbaum C. WordNet. An Electronic Lexical Database. Cambridge. MA: MIT Press. 1998. 432 p. 19. Mirkin B.G. Analiz kachestvennyh priznakov i struktur. M.: Statistika. 1980. 319 s. RESUME B.M. Pavlyshenko The Use of Lexemes Fields in Data Mining of Texts Arrays This paper describes the linguistic concepts of semantic and thematic lexicographical fields in terms of their use in the algorithms of text arrays data mining. Semantic fields are the set of lexemes which are united under some paradigm. The paradigm can be, for example a range of semantic or thematic concepts which are represented in the structure of lexemes lexicographical value. On the basis of the semantic fields concepts we created a set-theoretical model which combines the concepts of semantic and thematic lexeme fields. Lexicographic semantic and thematic fields may be considered as subclasses of a unifying class of lexeme fields. Lexeme fields are considered as a set partition of a lexeme dictionary based on the equivalence relation. Lexicographic fields are formed on the basis of expert semantic grouping the dictionary lexeme structure. Thematic fields are created from the lexemes typical for thematically categorized text documents and are determined due to the coefficient of thematic expressiveness. This coefficient shows how many times the lexemes of thematic fields are more frequent in the texts of given thematic category as compared to the texts of linguo-stylistical norm. We also studied a vector model of text documents in the semantic space, the basis of which is formed by frequency- distributional characteristics of semantic and thematic fields. Experimental classification analysis of the test sample of text documents in the vector space of semantic and thematic fields showed high effectiveness in using lexeme fields for classification analysis. The precision of naive Bayesian classifier in the space of thematic fields is higher for analyzed authors’ texts in comparison with the same precision in the space of lexicographic semantic fields. The basis of lexicographic semantic fields is independent of the texts sample, the basis of thematic fields is specific to each texts sample. Стаття надійшла до редакції 07.11.2012.
id nasplib_isofts_kiev_ua-123456789-85210
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Ukrainian
last_indexed 2025-11-27T10:11:28Z
publishDate 2013
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Павлишенко, Б.М.
2015-07-21T19:05:56Z
2015-07-21T19:05:56Z
2013
Використання лексемних полів у інтелектуальному аналізі текстових масивів / Б.М. Павлишенко // Искусственный интеллект. — 2013. — № 1. — С. 98–109. — Бібліогр.: 19 назв. — укр.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/85210
519.765:519.767:004.89
У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів. Експериментальний аналіз тестової вибірки показав високу ефективність використання лексемних полів у класифікаційному аналізі авторства текстів.
В работе предложена модель семантических и тематических лексемных полей для интеллектуального анализа текстовых документов. Рассмотрена векторная модель текстовых документов в семантическом пространстве, базис которого образован частотно-дистрибутивными характеристиками семантических и тематических полей. Экспериментальный анализ тестовой выборки показал высокую эффективность использования лексемных полей в классификационном анализе авторства текстов.
The model of semantic and thematic lexemes fields for data mining of text documents has been proposed. The vector model of text documents in the semantic space was considered. The basis of this space is formed by frequency-distributional characteristics of semantic and thematic fields. The experimental analysis of texts samples showed high efficiency of lexemes fields usage in the classification analysis of texts authorship.
uk
Інститут проблем штучного інтелекту МОН України та НАН України
Искусственный интеллект
Анализ и синтез коммуникационной информации
Використання лексемних полів у інтелектуальному аналізі текстових масивів
Использование лексемных полей в интеллектуальном анализе текстовых массивов
The use of lexemes fields in data mining of texts arrays
Article
published earlier
spellingShingle Використання лексемних полів у інтелектуальному аналізі текстових масивів
Павлишенко, Б.М.
Анализ и синтез коммуникационной информации
title Використання лексемних полів у інтелектуальному аналізі текстових масивів
title_alt Использование лексемных полей в интеллектуальном анализе текстовых массивов
The use of lexemes fields in data mining of texts arrays
title_full Використання лексемних полів у інтелектуальному аналізі текстових масивів
title_fullStr Використання лексемних полів у інтелектуальному аналізі текстових масивів
title_full_unstemmed Використання лексемних полів у інтелектуальному аналізі текстових масивів
title_short Використання лексемних полів у інтелектуальному аналізі текстових масивів
title_sort використання лексемних полів у інтелектуальному аналізі текстових масивів
topic Анализ и синтез коммуникационной информации
topic_facet Анализ и синтез коммуникационной информации
url https://nasplib.isofts.kiev.ua/handle/123456789/85210
work_keys_str_mv AT pavlišenkobm vikoristannâleksemnihpolívuíntelektualʹnomuanalízítekstovihmasivív
AT pavlišenkobm ispolʹzovanieleksemnyhpoleivintellektualʹnomanalizetekstovyhmassivov
AT pavlišenkobm theuseoflexemesfieldsindataminingoftextsarrays