Визначення ознак авторства природномовних текстів
Досліджено можливості встановлення авторства природномовних текстів та їх фрагментів методом класифікації за найменшою відстанню у просторі образів. Образи у n-мірному Евклідовому просторі формуються за ознаками вимірювань методами статистичного та рекурентного аналізу, показниками складності тексту...
Збережено в:
| Дата: | 2018 |
|---|---|
| Автори: | , |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
Інститут проблем штучного інтелекту МОН України та НАН України
2018
|
| Назва видання: | Штучний інтелект |
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/162440 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Визначення ознак авторства природномовних текстів / В.І. Шинкаренко, І.М. Демидович // Штучний інтелект. — 2018. — № 3 (81). — С. 27-35. — Бібліогр.: 19 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-162440 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-1624402025-02-23T20:22:10Z Визначення ознак авторства природномовних текстів Determination of the attributes of authorship of natural texts Шинкаренко, В.І. Демидович, І.М. Системи розпізнавання і сприйняття образів Досліджено можливості встановлення авторства природномовних текстів та їх фрагментів методом класифікації за найменшою відстанню у просторі образів. Образи у n-мірному Евклідовому просторі формуються за ознаками вимірювань методами статистичного та рекурентного аналізу, показниками складності тексту. Метод рекурентного аналізу часових рядів адаптовано до аналізу природномовних текстів. Встановлено, що визначені ознаки мають недостатньо високу ефективність при визначенні авторства; у 85% випадків хоча б один з методів дозволяє встановити авторство; модифікований метод рекурентного аналізу має той же рівень ефективності, як статистичний та аналіз складності тексту. The possibility of defining the authorship of natural language texts and its fragments was explored by minimum distance classification in space images. In n-dimensional Euclidean space the image forms by measurement signs of statistic and recurrent analysis, complexity indicators. The method of recurrent analysis of time series was adapted to the analysis of natural language texts. Certain signs weren’t efficient enough in authorship determination; in 85% of cases at least one of the methods allows to establish authorship; the modified method of recurrent analysis has the same level of efficiency as statistical and complexity analysis. 2018 Article Визначення ознак авторства природномовних текстів / В.І. Шинкаренко, І.М. Демидович // Штучний інтелект. — 2018. — № 3 (81). — С. 27-35. — Бібліогр.: 19 назв. — укр. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/162440 004.93+519.25 uk Штучний інтелект application/pdf Інститут проблем штучного інтелекту МОН України та НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Ukrainian |
| topic |
Системи розпізнавання і сприйняття образів Системи розпізнавання і сприйняття образів |
| spellingShingle |
Системи розпізнавання і сприйняття образів Системи розпізнавання і сприйняття образів Шинкаренко, В.І. Демидович, І.М. Визначення ознак авторства природномовних текстів Штучний інтелект |
| description |
Досліджено можливості встановлення авторства природномовних текстів та їх фрагментів методом класифікації за найменшою відстанню у просторі образів. Образи у n-мірному Евклідовому просторі формуються за ознаками вимірювань методами статистичного та рекурентного аналізу, показниками складності тексту. Метод рекурентного аналізу часових рядів адаптовано до аналізу природномовних текстів. Встановлено, що визначені ознаки мають недостатньо високу ефективність при визначенні авторства; у 85% випадків хоча б один з методів дозволяє встановити авторство; модифікований метод рекурентного аналізу має той же рівень ефективності, як статистичний та аналіз складності тексту. |
| format |
Article |
| author |
Шинкаренко, В.І. Демидович, І.М. |
| author_facet |
Шинкаренко, В.І. Демидович, І.М. |
| author_sort |
Шинкаренко, В.І. |
| title |
Визначення ознак авторства природномовних текстів |
| title_short |
Визначення ознак авторства природномовних текстів |
| title_full |
Визначення ознак авторства природномовних текстів |
| title_fullStr |
Визначення ознак авторства природномовних текстів |
| title_full_unstemmed |
Визначення ознак авторства природномовних текстів |
| title_sort |
визначення ознак авторства природномовних текстів |
| publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
| publishDate |
2018 |
| topic_facet |
Системи розпізнавання і сприйняття образів |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/162440 |
| citation_txt |
Визначення ознак авторства природномовних текстів / В.І. Шинкаренко, І.М. Демидович // Штучний інтелект. — 2018. — № 3 (81). — С. 27-35. — Бібліогр.: 19 назв. — укр. |
| series |
Штучний інтелект |
| work_keys_str_mv |
AT šinkarenkoví viznačennâoznakavtorstvaprirodnomovnihtekstív AT demidovičím viznačennâoznakavtorstvaprirodnomovnihtekstív AT šinkarenkoví determinationoftheattributesofauthorshipofnaturaltexts AT demidovičím determinationoftheattributesofauthorshipofnaturaltexts |
| first_indexed |
2025-11-25T01:58:43Z |
| last_indexed |
2025-11-25T01:58:43Z |
| _version_ |
1849725732808294400 |
| fulltext |
ISSN 1561-5359. Штучний інтелект, 2018, № 3
© В.І. Шинкаренко, І.М. Демидович 27
УДК 004.93+519.25
В.І. Шинкаренко, І.М. Демидович
Дніпровський національний університет залізничного транспорту імені академіка В. Лазаряна, Україна
вул. Лазаряна, 2, м. Дніпро, 49010
ВИЗНАЧЕННЯ ОЗНАК АВТОРСТВА ПРИРОДНОМОВНИХ ТЕКСТІВ
V.I. Shynkarenko, I.M. Demidovich
Dnipro National University of Railway Transport named after academician V. Lazaryan, Ukraine
2, Lazaryan St., Dnipro, 49010
DETERMINATION OF THE ATTRIBUTES OF AUTHORSHIP OF
NATURAL TEXTS
Досліджено можливості встановлення авторства природномовних текстів та їх фрагментів методом
класифікації за найменшою відстанню у просторі образів. Образи у n-мірному Евклідовому просторі
формуються за ознаками вимірювань методами статистичного та рекурентного аналізу, показниками
складності тексту. Метод рекурентного аналізу часових рядів адаптовано до аналізу природномовних
текстів. Встановлено, що визначені ознаки мають недостатньо високу ефективність при визначенні
авторства; у 85% випадків хоча б один з методів дозволяє встановити авторство; модифікований метод
рекурентного аналізу має той же рівень ефективності, як статистичний та аналіз складності тексту.
Ключові слова: природномовні тексти, рекурентний аналіз, статистичний аналіз, складність текстів,
авторство тексту, класифікація
The possibility of defining the authorship of natural language texts and its fragments was explored by
minimum distance classification in space images. In n-dimensional Euclidean space the image forms by
measurement signs of statistic and recurrent analysis, complexity indicators. The method of recurrent analysis of
time series was adapted to the analysis of natural language texts. Certain signs weren’t efficient enough in
authorship determination; in 85% of cases at least one of the methods allows to establish authorship; the modified
method of recurrent analysis has the same level of efficiency as statistical and complexity analysis.
Keywords: natural language texts, recurrence analysis, statistic analysis, text complexity, text authorship,
classification
Вступ
Науковий інтерес до автоматичної
обробки текстів виник приблизно шіст-
десят років тому. Особливе місце в цій
сфері займають проблеми виявлення ав-
торства, плагіату та оцінки якості тексту.
На даний час залишається багато невизна-
ченого у цій проблематиці.
Запропонований підхід враховує вза-
ємозв’язок між цими проблемами. Так, за-
масковані запозичення можуть бути опосе-
редковано виявлені за ознаками авторства
та складності текстів.
Постановка проблеми
Виявлення плагіату є однією зі скла-
дових у сфері академічної доброчесності.
Закон «Про освіту» вимагає перевіряти
дисертації, дипломні роботи та наукові
публікації на наявність запозичень.
З іншого боку, проблема встановлен-
ня авторства текстів виникає у юридичній
площині. Питання авторства має велике
значення для усіх сфер, де існує поняття
права власності на об’єкт, де роль авторст-
ва є дуже істотною. Це стосується худож-
ніх творів, наукових та навчальних мате-
ріалів та багатьох інших робіт.
Складність питання полягає у тому,
що для перевірки текстів на плагіат або ви-
явлення запозичення потрібно мати відпо-
відну базу матеріалів для порівняння. Зада-
ча ускладнюється багатомовністю джерел.
Частково цю задачу можна вирішити без
застосування матеріалів для порівняння.
Аналіз останніх досліджень і
публікацій
Частотний аналіз текстів.
Проблему статистичної та частотної струк-
тури текстів, складання частотних словни-
ків мови конкретного автора або окремо
взятих текстів на матеріалах різних мов
(німецької, англійської, російської і т.д.)
досліджували мовознавці [1-4].
Такий аналіз ґрунтується на побудові
ISSN 1561-5359. Штучний інтелект, 2018, № 3
28 © В.І. Шинкаренко, І.М. Демидович
частотного словника автора за обраним
текстом шляхом обчислення частоти вход-
ження кожного зі слововживань [5, 6]. До-
свід складання подібних словників наочно
демонструє, що словесне наповнення будь-
якого, досить довгого тексту, має власну
статистичну структуру. Внаслідок чого,
можна стверджувати, що у кожного автора
є співвідношення часто і рідко вживаних
лексем. Саме це співвідношення читач і
сприймає як багатий чи бідний словник
автора [7, 8].
У подальшому, після проведення час-
тотного аналізу, виділяються визначальні
ознаки для кожного з текстів. Однією з та-
ких характеристик є авторський інваріант
[9]. Це числовий параметр, який дає
можливість розрізняти твір за авторським
стилем. Дуже часто, як показали попередні
дослідження для прози, на цей показник іс-
тотно впливає частота вживання службо-
вих слів (прийменники, сполучники або
частки).
Частотним характеристикам текстів
присвячено багато робіт, де були розгляну-
ті подібності між авторами XIX-XX сто-
літь [10]. Також були проаналізовані по-
дібні словники для різних слов'янських
мов, таких як чеська, польська, сербська,
болгарська та російська [11].
Аналіз на основі N-грам. Одним з
широко використовуваних методів аналізу
тексту є метод N-грам [12]. Він є часто
вживаним у виявленні плагіату [13]. Цей
метод став застосовуватися порівняно
недавно.
N-грамом в алфавіті називають до-
вільний ланцюжок довжиною N. Як ланки
такого ланцюжка можна використовувати
як символи, так і окремі слова. Метод по-
лягає у підрахунку і порівнянні профілів
частоти N-грамів для різних текстів.
У багатьох задачах необхідно визна-
чити, так званий, стиль тексту. Під стилем
тексту розуміється сформована система
мовних засобів, використовуваних у різних
сферах людського спілкування. У лінгвіс-
тиці його прийнято називати функціональ-
ним стилем мови [14]. Стиль тексту багато
в чому визначається частотою і порядком
вживання у ньому різних частин мови [14],
що задовольняє умовами застосування ме-
тоду N-грам.
Аналіз на основі N-грам дає можли-
вість виявити характерні сполучення слів та
їх складність для конкретного твору або ав-
тора. На основі цих даних можна визначити
характерний стиль мовлення автора. Дане
твердження справедливе як для звичайних,
так і для спеціалізованих текстів [15].
Показники складності сприйняття
тексту. Лексику прийнято вважати найкра-
щим показником легкості сприйняття текс-
ту. Середня довжина слів (у буквах або
символах) і речень є статистичними факто-
рами, які часто використовують для оцінки
складності тексту. Ці параметри легко під-
даються кількісному вираженню і придатні
для автоматичної оцінки.
Проблему визначення складності
тексту для розуміння читачем допомага-
ють вирішити цілий ряд показників. На-
приклад, індекси туманності Ганнінга,
Колемана-Лиау та оцінка читабельності
Рейгора [16]. Вони будуються на основі
підрахунку кількості речень, слів, складів,
букв у тексті, також середньої кількості
слів, складів, букв у реченнях та складів і
букв у словах.
Усі перелічені вище показники розра-
ховувались для текстів англійської мови
вузького призначення та для певної ауди-
торії читачів [16]. Тому вони не зовсім від-
повідають меті дослідження, однак почат-
кові кількісні показники мають певну
інформативність.
Ступінь складності текстів може да-
вати відповідну характеристику автору.
Рекурентний аналіз. Рекурентний
аналіз використовується для дослідження
часових рядів. Він був модифікований для
аналізу текстів.
За основу був узятий аналіз рекурент-
них діаграм (recurrence quantification analy-
sis, RQA), у якому для аналізу використову-
ють щільність рекурентних точок [17].
Модифікований метод полягає у
наступному:
ISSN 1561-5359. Штучний інтелект, 2018, № 3
© В.І. Шинкаренко, І.М. Демидович 29
˗ розраховується частота букв у тексті;
˗ отримується часовий ряд, замінюючи
кожний символ обраного тексту на йо-
го частоту. Умовний час – перехід від
одного символу до іншого;
˗ визначається фазовий простір [18], як
візуалізація переходів від стану до ста-
ну (від символа до символа);
˗ розраховується рекурентна діаграма на
основі фазового простору через відо-
браження повторюваних станів у різні
моменти часу;
˗ обчислюються та інтерпретуються за-
гальновживані показники рекурентно-
го аналізу щодо аналізу тексту.
Показник рекурентності (recurrence
rate, RR) визначає щільність рекурентних
точок на досліджуваній діаграмі. Це зна-
чення приблизно відображає загальну кіль-
кість повторень кожного зі статистично
близьких символів
,
1
1,
,
,2
N
ji
m
jiR
N
RR
(1)
де N – кількість розглянутих станів, jiR , –
i,j-та точка рекурентної діаграми, –
радіус околиці точки в момент часу i, m –
розмірність фазового простору.
Показник детермінізму (determinism,
DET) розглядає частотний розподіл дов-
жин l діагональних ліній у діаграмі )(lP ,
де N – абсолютна кількість таких ліній.
Значення DET визначає частоту повторень
усіх сполучень статистично близьких сим-
волів будь-якої довжини:
min
,
i,j
,
( )
.
R
N
l l
N
m
i j
lP l
DET
(2)
Середня довжина діагональних ліній
L визначає середню довжину повторюва-
них статистично близьких символів.
min
min
( )
.
( )
N
l l
N
l l
lP l
L
P l
(3)
Показник дивергенції (divergence,
DIV) є величиною, зворотною максималь-
ній довжині діагональних структур.
1
.
max({ ; 1... })
i l
DIV
l i N
(4)
Ентропія (entropy, ENTR) є показни-
ком частотного розподілу діагональних лі-
ній, для текстів – частотного розподілу
повторюваних поєднань статистично
близьких символів.
N
ll
plpENTR
min
),ln()( (5)
де
min
( )
( ) .
( )
N
l l
P l
p l
P l
(6)
Показник завмирання (laminarity,
LAM) демонструє частотний розподіл дов-
жин v-горизонтальних ліній у діаграмі
)(vP , де N – абсолютна кількість таких
ліній. Показник LAM приблизно визначає
повторення статистично близьких
символів.
min
,
i,j
,
( )
.
R
N
v v
N
m
i j
vP v
LAM
(7)
Показник затримки (trapping time, TT)
відображає середню довжину горизонталь-
них структур. Показник TT визначає серед-
ню довжину поєднань статистично близь-
ких символів.
min
min
( )
.
( )
N
v v
N
v v
vP v
TT
P v
(8)
Показники (1)..(8) відображають
структуру рекурентної діаграми.
Мета дослідження
Задача даної роботи полягає у визна-
ченні ефективності методів статистичного
та рекурентного аналізу, показників склад-
ності тексту щодо встановлення авторства
текстів.
ISSN 1561-5359. Штучний інтелект, 2018, № 3
30 © В.І. Шинкаренко, І.М. Демидович
Експериментальні дослідження
ефективності ознак авторства
Підготовка експерименту. Для про-
ведення експерименту була обрана худож-
ня література через її яскраво виражену ін-
дивідуальність та достовірність інформації
про авторство.
Для коректного проведення експери-
менту була сформована навчальна вибірка
з 20 творів 11 авторів та контрольна вибір-
ка з 33 текстових файлів: по три тексти
кожного автора з навчальної вибірки.
Визначення параметрів рекурент-
ного аналізу. Спочатку наведемо реаліза-
цію модифікованого методу рекурентного
аналізу [18] на прикладі «Заповіту»
Т. Шевченка (рис. 1-4).
Обчислення частоти входження кож-
ного символу українського алфавіту наве-
дені на рис. 1 у вигляді стовпчикової
діаграми.
Рис. 1. Діаграма з частотою символів
На рис. 2 представлено часовий ряд,
сформований на основі обраного тексту з
відповідними (як на рис. 1) частотами.
Рис. 2. Часовий ряд тексту «Заповіт»
За отриманими частотами відповідно
до всього тексту «Заповіту» за канонами
рекурентного аналізу [18] визначено фазо-
вий простір (рис. 3) розмірністю – 2.
Рис. 3. Фазовий простір тексту
Побудована рекурентна діаграма має
відображати особливості авторського текс-
ту. Діаграма згідно з «Заповітом» наведена
на рис. 4. Значення радіусу околиці точок у
фазовому просторі = 0,5.
Рис. 4. Рекурентна діаграма тексту
Для спрощення аналізу діаграми об-
раховуються показники рекурентності
(1)..(8). Для «Заповіту» отримані наступні
значення показників (табл. 1).
Таблиця 1. Показники рекурентного
аналізу «Заповіту»
Назва показників Значення
Міра рекурентності RR 0,021
Міра детермінізму DET 0,002
Дивергенція DIV 0,125
Середня довжина діагоналей L 2,38
Міра ентропії ENTR 0,769
Міра завмирання LAM 0,00018
Міра затримки TT 2
ISSN 1561-5359. Штучний інтелект, 2018, № 3
© В.І. Шинкаренко, І.М. Демидович 31
Виконання експерименту. Виконані
експериментальні дослідження тексту за
частотою літер, довжиною слів та реку-
рентним аналізом.
Авторство тексту визначається за
найменшою відстанню до еталону [19], за
який приймається середнє значення за тво-
рами автора з навчальної вибірки.
Вважаємо, що образ ijX належить до
класу k , якщо найближчий до ijX образ
навчальної вибірки належить
i
( ijX –
вектори у Евклідовому просторі, де i – по-
казник, за яким визначається авторство, j –
номер твору в навчальній або контрольній
вибірці, ijk
x – k-ий елемент вектору ijX ).
Класифікування виконується окремо
за частотою літер ( jX1 ), довжиною слів
( jX 2 ), показниками рекурентного аналізу
( jX 3 ), та усіма показниками разом ( jX 4 ).
Елементи векторів jkx1 – k-ий показник ре-
курентного аналізу (табл. 1); jkx2 – частота
k-ї літери у тексті; jkx3 – кількість слів
довжиною k-літер.
Згідно з текстом «Заповіту» отримані
значення векторів jX1 , jX 2 , jX 3 ,
4 j
X .
2077.038.213.0002.01,1 X ;
02.0...02.006.002.006.01,2 X ;
1447111118211141,3 X ;
4,1
X [ 0.02 0 0.13 2.38 0.77 0 2 0.06
0.02 … 0.02 14 11 2 18 11 11 7 4 4 1].
Для коректності порівняння вектори
були унормовані наступним чином:
*
min( )
max( ) min( )
ijk ijk
j
ijk
ijk ijk
jj
x x
x
x x
.
У результаті обробки контрольної
вибірки були отримані результати,
наведені у табл. 2, де сірим виділені ті
результати, що виявили автора твору, або
були близькі до нього.
Авторство творів у таблиці подано
наступним чином: 1 – О. Довженко, 2 –
І. Багряний, 3 – І. Франко, 4 – М. Коцюбин-
ський, 5 – Л. Українка, 6 – М. Хвильовий, 7 – О.
Вишня, 8 – П. Мирний, 9 – В. Підмогильний,
10 – С. Жадан, 11 – Т. Шевченко.
Таблиця 2. Визначення авторства текстів
з використанням аналізу за одним символом
Автор ЧЛ ЛС РА Загальне
2 2 9,2,6/5 6,2,7/15 2
2 8,1,4/10 11,10,5/75 1,2,7/31 10,11,7/27
2 6,9,4/16 9,8,6/36 1,6,9/24 9,8,6/29
7 6,8,2/14 6,9,3/21 8,4,3/9 6,8,9/17
7 2,6,4/13 2,1,7/20 6,7,9/2 2,1,7/16
7 8,7,4/4 7 4,3,9/23 7
1 8,3,9/14 11,7,10/42 8,4,11/39 7,4,11/13
1 1 6,9,8/50 6,2,1/15 6,9,8/32
1 3,7,8/17 8,3,6/17 1 3,8,9/16
10 2,6,10/9 9,6,8/54 1,2,9/33 9,6,2/49
10 10 10 10 10
10 1,9,2/19 10 10 1,10,4/3
4 4 6,9,8/20 8,6,4/36 6,9,8/19
4 1,4,2/5 6,9,3/30 6,9,1/30 6,8,9/20
4 9,1,4/1 8,9,6/22 7,3,6/50 9,8,4/4
5 6,1,4/17 1,4,8/70 8,4,11/19 4,8,1/40
5 4,7,5/7 4,3,7/74 6,7,2/60 4,3,7/48
5 5 11,4,10/65 10,7,1/47 11,5,10/1
8 4,8,3/15 10,11,7/61 8 10,11,7/27
8 8 8 10,1,9/52 8
8 8 8 2,1,9/29 8
9 6,9,3/1 5,10,11/21 10,1,2/32 10,5,11/55
9 1,4,9/8 1,2,7/40 10,1,9/18 1,2,4/30
9 9 1,2,4/39 4,9,1/22 1,2,4/26
3 2,4,9/10 2,1,6/33 1,7,9/15 2,1,9/43
3 5,4,1/8 11,5,10/80 10,1,2/57 5,10,11/40
3 1,9,4/24 8,9,6/25 2,1,9/22 9,6,5/10
6 4,6,1/4 4,3,1/48 6 4,1,3/23
6 6 7,1,4/56 6 7,1,4/31
6 6 9,6,8/8 7,1,2/14 9,6,2/7
11 10,7,1/18 9,6,8/51 6,3,9/78 6,9,8/42
11 11 8,3,4/73 2,7,9/10 8,3,4/42
11 11 11 11 11
Інші стовпчики у табл. 2: ЧЛ (частота
літер – за вектором jX 2 ); ЛС (кількість лі-
тер у слові – за jX 3 ); РА (рекурентний ана-
ліз – за jX1 ); загальне – результати порів-
няння за об'єднаним вектором jX 4 .
У комірках таблиці – інформація що-
ISSN 1561-5359. Штучний інтелект, 2018, № 3
32 © В.І. Шинкаренко, І.М. Демидович
до визначення найближчих трьох авторів
для обраного твору. Якщо перший резуль-
тат є точним, то наступні не наводяться.
Четверте значення визначає близькість
першого отриманого результату до реаль-
ного авторства наступним чином:
),max( 21
12
ll
ll
p
,
де 1l – відстань між векторами твору та
найближчим еталоном, 2l – відстань між
векторами твору та еталоном творів реаль-
ного автора.
Також було виконано визначення ав-
тора тексту з використанням N-грамів. Цей
метод заснований на розбитті усього тексту
на пари сусідніх символів та визначенні їх
частоти, з якою вони зустрічаються у творі.
При цьому до пари входять символи з на-
хлестом, тобто спочатку обираються пер-
ший та другий символи, потім другий та
третій і т.д. Якщо у слові залишається лише
один символ, то в пару до нього йде перший
символ наступного слова.
Були проведені експерименти для 2-
... 7-грамів із заміною поетичних творів на
прозові.
Авторство творів у таблицях 3, 4
пронумеровано наступним чином: 1 –
І. Багряний, 2 – О. Вишня, 3 – М. Вовчок, 4 –
О. Довженко, 5 –- М. Коцюбинський, 6 –
Г. Квітка-Основ'яненко, 7 – П. Мирний, 8 –
В. Нестайко, 9 – В. Підмогильний, 10 –
І. Франко, 11 – М. Хвильовий.
Найкращий результат був отриманий
при застосуванні 4-грамів (табл. 3).
Аналіз даних у табл. 3 щодо встанов-
лення авторства за допомогою 4-грамів ви-
явив суттєве покращення аналізу з вико-
ристанням частоти символів, але зменшен-
ня ефективності використання рекурентно-
го аналізу.
Також було виконане порівняння за
частотою слів з урахуванням їх закінчень.
Другий стовпчик табл. 4 – ЧС (ре-
зультати порівняння за вектором jX1 з
даними частоти слів у тексті).
Для виявлення авторства розрахована
частота усіх слів у тексті з подальшим
формуванням часового ряду, фазового
простору та рекурентної діаграми за отри-
маними даними (табл. 4).
Таблиця 3. Визначення авторства текстів
за 4-грамами
Автор ЧЛ ЛС РА Загальне
1 1 8 2 1
1 1 7 5 1
1 1 9 9 1
2 2 4 6 2
2 2 8 9 2
2 2 2 5 2
3 3 3 2 3
3 3 7 6 3
3 3 3 3 3
4 4 10 5 4
4 4 7 8 4
4 4 6 8 4
5 5 5 3 5
5 5 5 11 5
5 5 7 3 5
6 6 6 7 6
6 6 6 3 6
6 6 6 9 6
7 4 9 2 4
7 7 9 3 7
7 7 7 7 7
8 8 9 11 8
8 8 5 4 8
8 8 8 11 8
9 2 2 5 2
9 9 1 5 9
9 9 1 5 9
10 1 1 2 1
10 5 10 5 5
10 10 5 9 10
11 11 7 2 11
11 11 4 2 11
11 9 1 3 9
Дані табл. 4 дозволяють стверджува-
ти, що встановлення авторства твору з ви-
ISSN 1561-5359. Штучний інтелект, 2018, № 3
© В.І. Шинкаренко, І.М. Демидович 33
користанням частоти слів дещо гірше за
ефективність аналізу по 4-грамам.
Таблиця 4. Визначення авторства текстів
за словами
Автор ЧЛ ЛС РА Загальне
1 1 8 1 1
1 2 7 9 2
1 1 9 10 1
2 2 4 11 2
2 2 8 6 2
2 2 2 6 2
3 3 3 8 3
3 3 7 2 3
3 3 3 3 3
4 4 10 6 4
4 4 7 1 4
4 2 6 7 2
5 5 5 1 5
5 5 5 10 5
5 5 7 8 5
6 6 6 7 6
6 6 6 11 6
6 6 6 2 6
7 2 9 3 2
7 7 9 2 7
7 7 7 7 7
8 8 9 11 8
8 2 5 2 2
8 8 8 2 8
9 2 5 1 2
9 9 1 10 9
9 9 1 1 9
10 2 1 1 2
10 2 10 7 2
10 10 5 10 10
11 11 7 2 11
11 2 4 6 2
11 11 1 3 11
Висновки
При визначенні авторства текстів
контрольної вибірки при першому прове-
денні експерименту безпомилково визна-
чилися лише автори 2 текстів. Кращий ре-
зультат визначення авторства дав метод з
використанням частоти букв – 12 збігів по
автору. Решта методів визначили автора
всього у 6 випадках та у 7 за даними реку-
рентного аналізу.
Відсоток близькості знаходиться у
широкому діапазоні від 1% до 80%. Окремо
за методами: за даними про частоту літер –
24%, для даних щодо кількості літер у сло-
вах – 80%, для рекурентного аналізу тексту
– 78% та за результатами порівняння з ви-
користанням усіх отриманих даних – 55%.
Також у 22 випадках аналізу тексту
автор визначався другим або третім за від-
станню. Найкращий показник також за да-
ними щодо частоти літер у тексті, а нас-
тупний – за показниками рекурентного
аналізу.
Найкращі результати були отримані
при визначенні авторства творів за допо-
могою 4-грамів та по словах – 85 % та
76 % відповідно за загальним вектором.
Покращення результатів слід очіку-
вати при розширені методів класифікації
за обраними показниками, враховуючи
словосполучення та частини слів. Не до-
сліджено можливості попередньої обробки
часових рядів та кодування отриманих
даних.
Література
1. Wimmer, G., Altmann, G., Hřebíček, L,
Ondrejovič, S., Wimmerová, S. (2003) Úvod do
analýzy textov. Bratislava, – 344 p.
2. Popesku, I.I., Altmann, G. (2006) Some aspects of
word frequencies. Glottometrics. №13, – P. 23-46.
3. Köhler, R., Altmann, G. (2005) Aims and Methods
of Quantitative Linguistics. Problems of
Quantitative Linguistics. Chernivci, – P. 12-42.
4. Перебийніс, В.С. (2002) Статистичні методи для
лінгвістів: Навчальний посібник. Вінниця, – 168 с.
5. Alekseev, P.M. (2005) Frequency dictionaries.
Quantitative Linguistik : ein internationales
Handbuch = Quantitative linguistics : an
international handbook/ edited by Reinhard Kohler,
Gabriel Altmann, Rajmund G. Piotrowski. Berlin –
New York. – P. 312-324.
6. Popescu, I. (2009) Word frequency studies. Berlin–
New York, – 276 p.
7. Сухорольська, С.М., Федоренко, О.І. (2009)
Методи лінгвістичних досліджень: Навч.
посібник. Львів, – 348 с.
8. Чатуев, М.Б., Чеповский, А.М. (2011)
Частотные методы в компьютерной
лингвистике. – М.: МГУП. – 88 с.
9. Фоменко, В.П., Фоменко, Т.Г. (1996). Авторский
инвариант русских литературных текстов. Новая
хронология Греции: Античность в средневековье.
Т. 2. М.: Изд-во МГУ, – С. 768-820.
ISSN 1561-5359. Штучний інтелект, 2018, № 3
34 © В.І. Шинкаренко, І.М. Демидович
10. Баевский, В.С. (2001) Лингвистические,
математические, семиотические и
компьютерные модели в истории и теории
литературы. М., – 312 с.
11. Бук, С. (2011) Слов’янський досвід укладання
частотних словників мови письменника.
Проблеми слов’янознавства. Львів, – С. 217-224.
12. Бузикашвили, Н.Е., Самойлов, Д.В., Крылова,
Г.А. (2000) N-граммы в лингвистике. Сборник:
Методы и средства работы с документами.
М.: Диториал УРРС, – 376 с.
13. Тарануха, В.Ю. (2014) Использование
комбинированных критериев для автоматизи-
рованного определения заимствований.
«Инновации в науке»: сборник статей по
материалам XXXII международной научно-
практической конференции. Новосибирск: Изд.
«СибАК». – С. 15-18.
14. Кожина, М.Н., Дускаева, Л.Р.,
Салимовский, В.А. (2008) Стилистика русского
языка. М.: Флинта: Наука. 464 с.
15. William, B., Cavnar, John M. (1994) Trenkle N-
Gram-Based Text Categorization. Michigan, –
P. 161–175.
16. Рогушина, Ю.В. (2007) Использование
критериев оценки удобочитаемости текста для
поиска информации, соответствующей
реальным потребностям пользователя.
Проблеми програмування. Київ, – С. 76-88.
17. Zbilut, J.P., Webber, Jr.C.L. (1992) Embeddings
and delays as derived from quantification of
recurrence plots. Physics Letters A.– V.171. № 3-4.
– P. 199–203.
18. Ту, Дж., Гонсалес, Р. (1978) Принципы
распознавания образов. М., – 411 с.
19. Киселев, В.Б. (2006) Рекуррентный анализ –
теория и практика. Научно-технический
вестник информационных технологий, механики
и оптики. №29, – СПб. – С. 118-127.
References
1. Wimmer, G., Altmann, G., Hřebíček, L,
Ondrejovič, S., Wimmerová, S. (2003) Úvod do
analýzy textov. Bratislava, – 344 p.
2. Popesku, I.I., Altmann, G. (2006) Some aspects of
word frequencies. Glottometrics. №13, – P. 23-46.
3. Köhler, R., Altmann, G. (2005) Aims and Methods
of Quantitative Linguistics. Problems of
Quantitative Linguistics. Chernivci, – P. 12-42.
4. Perebyjnis, V.S. (2002) Statystychni metody dlja
lingvistiv: Navchal'nyj posibnyk. Vinnycja, – 168 s.
5. Alekseev, P.M. (2005) Frequency dictionaries.
Quantitative Linguistik : ein internationales
Handbuch = Quantitative linguistics : an
international handbook/ edited by Reinhard Kohler,
Gabriel Altmann, Rajmund G. Piotrowski. Berlin –
New York. – P. 312-324.
6. Popescu, I. (2009) Word frequency studies. Berlin–
New York, – 276 p.
7. Suhorol's'ka, S.M., Fedorenko, O.I. (2009) Metody
lingvistychnyh doslidzhen': Navch. posibnyk. L'viv,
– 348 s.
8. Chatuev, M.B., Chepovskii, A.M. (2011)
Chastotnye metody v komp'yuternoi lingvistike. –
M.: MGUP. – 88 s.
9. Fomenko, V.P., Fomenko, T.G. (1996) Avtorskii
invariant russkikh literaturnykh tekstov. Novaya
khronologiya Gretsii: Antichnost' v srednevekov'e.
T. 2. M.: Izd-vo MGU, – S.768-820.
10. Baevskii, V.S. (2001) Lingvisticheskie,
matematicheskie, simeoticheskie i komp'yuternye
modeli v istorii i teorii literatury. M., – 312 s.
11. Buk, S. (2011) Slov’jans'kyj dosvid ukladannja
chastotnyh slovnykiv movy pys'mennyka. Problemy
slov’janoznavstva. L'viv, – S. 217-224.
12. Buzikashvili, N.E., Samoylov, D.V., Kryilova, G.A.
(2000) N-grammyi v lingvistike. Sbornik: Metodyi i
sredstva rabotyi s dokumentami. M.: Ditorial
URRS, – 376 s.
13. Taranuha, V.Yu. (2014) Ispolzovanie
kombinirovannyih kriteriev dlya
avtomatizirovannogo opredeleniya zaimstvovaniy.
«Innovatsii v nauke»: sbornik statey po materialam
XXXII mezhdunarodnoy nauchno-prakticheskoy
konferentsii. Novosibirsk: Izd. «SibAK». – S. 15-18.
14. Kozhina, M.N., Duskaeva, L.R., Salimovskiy, V.A.
(2008) Stilistika russkogo yazyika. M.: Flinta:
Nauka. 464 s.
15. William, B. Cavnar, John M. (1994) Trenkle N-
Gram-Based Text Categorization. Michigan, –
P. 161–175.
16. Rogushina, Yu.V. (2007) Ispolzovanie kriteriev
otsenki udobochitaemosti teksta dlya poiska
informatsii, sootvetstvuyuschey realnyim
potrebnostyam polzovatelya. Problemi
programyuvannya. Kyiv, – S. 76-88.
17. Zbilut, J.P., Webber, Jr.C.L. (1992) Embeddings
and delays as derived from quantification of
recurrence plots. Physics Letters A.– V.171. № 3-4.
– P. 199–203.
18. Tu, Dzh., Gonsales, R. (1978) Printsipyi
raspoznavaniya obrazov. M., – 411 s.
19. Kiselev, V.B. (2006) Rekurrentnyiy analiz – teoriya
i praktika. Nauchno-tehnicheskiy vestnik
informatsionnyih tehnologiy, mehaniki i optiki.
№29, – SPb. – S. 118-127.
RESUME
V.I. Shynkarenko, I.M. Demidovich
Determination of the attributes of
authorship of natural texts
The research has been done in the field
of intellectual processing of natural language
texts and their fragments.
The purpose of this work is to define the
effectiveness of statistical and recurrent ana-
lysis methods, and text complexity indicators
to determine the authorship of texts and their
fragments, as well as to reveal the plagiarism
suspicions.
The parameters for solving these prob-
lems were frequency of symbols in texts,
indicators of recurrent analysis and text
complexity.
ISSN 1561-5359. Штучний інтелект, 2018, № 3
© В.І. Шинкаренко, І.М. Демидович 35
The method of recurrent analysis of
time series has been adapted for natural lan-
guage analysis.
Four groups were formed to determine
the efficiency of each parameter. The first
group has symbols frequency data, the second
words length data, the third recurrent
analysis data and the fourth group has
aggregated data for all three previous groups.
The training and control samples have
been formed from 11 Ukrainian fiction
authors. This type of literature was chosen
because of its strongly marked individuality
and reliable information about its authorship.
For each of the authors the standard has been
calculated – the average values for all of
previous parameters.
The received images of texts from cont-
rol sample were classified by the method of
minimum distance to the standard for all pre-
vious parameters in the Euclidian space of
images.
Texts were processed by the following
ways: character by character, 2-...7-grams and
words with its suffix.
It was established that certain signs
weren't efficient enough in authorship deter-
mining. Only in 85% of cases at least one of
the methods allows to establish the author.
The modified method of recurrent ana-
lysis has the same level of efficiency as statis-
tical and complexity analyzes using the text
symbols frequency, and slightly lower using
N-grams and words analyzes.
The using 4-grams have been the most
effective method in authorship determination.
Improvement of results should be ex-
pected with expanded classification methods
based on selected parameters, including
words combinations and parts of words. The
possibilities of advanced processing of time
series and coding of the received data are not
investigated.
Надійшла до редакції 18.10.2018
|