Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства

Запропонована технологія дозволяє визначати єдиний інформаційний простір акторів соціальних мереж за рахунок ідентифікації семантичної еквівалентності колокацій у текстах. Технологія включає модель формального опису семантико-граматичних характеристик колокатів, ідентифікацію колокацій та визначення...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2017
Hauptverfasser: Петрасова, С.В., Хайрова, Н.Ф.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2017
Schriftenreihe:Кибернетика и системный анализ
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/144691
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства / С.В. Петрасова, Н.Ф. Хайрова // Кибернетика и системный анализ. — 2017. — Т. 53, № 1. — С. 134-144. — Бібліогр.: 23 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-144691
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-1446912025-02-23T17:48:30Z Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства Використання технології ідентифікації семантично зв’язних елементів тексту для визначення єдиного інформаційного простору Using semantically similar text elements identification technology to determine a common information space Петрасова, С.В. Хайрова, Н.Ф. Програмно-технічні комплекси Запропонована технологія дозволяє визначати єдиний інформаційний простір акторів соціальних мереж за рахунок ідентифікації семантичної еквівалентності колокацій у текстах. Технологія включає модель формального опису семантико-граматичних характеристик колокатів, ідентифікацію колокацій та визначення предиката семантичної еквівалентності двослівних колокацій. Предложенная технология позволяет определять единое информационное пространство акторов социальных сетей за счет идентификации семантической эквивалентности коллокаций в текстах. Технология включает модель формального описания семантико-грамматических характеристик коллокатов, идентификацию коллокаций и определение предиката семантической эквивалентности двухсловных коллокаций. The proposed technology allows determining a common information space of social network actors by identifying the semantic equivalence of collocations in texts. The technology includes the model of formal description of the semantic and grammatical characteristics of collocates, identification of collocations, and determination of a semantic equivalence predicate of two-word collocations. 2017 Article Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства / С.В. Петрасова, Н.Ф. Хайрова // Кибернетика и системный анализ. — 2017. — Т. 53, № 1. — С. 134-144. — Бібліогр.: 23 назв. — рос. 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/144691 004.912 ru Кибернетика и системный анализ application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Програмно-технічні комплекси
Програмно-технічні комплекси
spellingShingle Програмно-технічні комплекси
Програмно-технічні комплекси
Петрасова, С.В.
Хайрова, Н.Ф.
Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства
Кибернетика и системный анализ
description Запропонована технологія дозволяє визначати єдиний інформаційний простір акторів соціальних мереж за рахунок ідентифікації семантичної еквівалентності колокацій у текстах. Технологія включає модель формального опису семантико-граматичних характеристик колокатів, ідентифікацію колокацій та визначення предиката семантичної еквівалентності двослівних колокацій.
format Article
author Петрасова, С.В.
Хайрова, Н.Ф.
author_facet Петрасова, С.В.
Хайрова, Н.Ф.
author_sort Петрасова, С.В.
title Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства
title_short Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства
title_full Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства
title_fullStr Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства
title_full_unstemmed Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства
title_sort использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2017
topic_facet Програмно-технічні комплекси
url https://nasplib.isofts.kiev.ua/handle/123456789/144691
citation_txt Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства / С.В. Петрасова, Н.Ф. Хайрова // Кибернетика и системный анализ. — 2017. — Т. 53, № 1. — С. 134-144. — Бібліогр.: 23 назв. — рос.
series Кибернетика и системный анализ
work_keys_str_mv AT petrasovasv ispolʹzovanietehnologiiidentifikaciisemantičeskisvâznyhélementovtekstadlâopredeleniâedinogoinformacionnogoprostranstva
AT hajrovanf ispolʹzovanietehnologiiidentifikaciisemantičeskisvâznyhélementovtekstadlâopredeleniâedinogoinformacionnogoprostranstva
AT petrasovasv vikoristannâtehnologííídentifíkacíísemantičnozvâznihelementívtekstudlâviznačennâêdinogoínformacíjnogoprostoru
AT hajrovanf vikoristannâtehnologííídentifíkacíísemantičnozvâznihelementívtekstudlâviznačennâêdinogoínformacíjnogoprostoru
AT petrasovasv usingsemanticallysimilartextelementsidentificationtechnologytodetermineacommoninformationspace
AT hajrovanf usingsemanticallysimilartextelementsidentificationtechnologytodetermineacommoninformationspace
first_indexed 2025-11-24T04:37:23Z
last_indexed 2025-11-24T04:37:23Z
_version_ 1849645118181605376
fulltext ÓÄÊ 004.912 Ñ.Â. ÏÅÒÐÀÑÎÂÀ, Í.Ô. ÕÀÉÐÎÂÀ ÈÑÏÎËÜÇÎÂÀÍÈÅ ÒÅÕÍÎËÎÃÈÈ ÈÄÅÍÒÈÔÈÊÀÖÈÈ ÑÅÌÀÍÒÈ×ÅÑÊÈ ÑÂßÇÍÛÕ ÝËÅÌÅÍÒΠÒÅÊÑÒÀ ÄËß ÎÏÐÅÄÅËÅÍÈß ÅÄÈÍÎÃÎ ÈÍÔÎÐÌÀÖÈÎÍÍÎÃÎ ÏÐÎÑÒÐÀÍÑÒÂÀ Àííîòàöèÿ. Ïðåäëîæåííàÿ òåõíîëîãèÿ ïîçâîëÿåò îïðåäåëÿòü åäèíîå èíôîð- ìàöèîííîå ïðîñòðàíñòâî àêòîðîâ ñîöèàëüíûõ ñåòåé çà ñ÷åò èäåíòèôèêàöèè ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè êîëëîêàöèé â òåêñòàõ. Òåõíîëîãèÿ âêëþ÷àåò ìîäåëü ôîðìàëüíîãî îïèñàíèÿ ñåìàíòèêî-ãðàììàòè÷åñêèõ õàðàêòåðèñòèê êîëëîêàòîâ, èäåíòèôèêàöèþ êîëëîêàöèé è îïðåäåëåíèå ïðåäèêàòà ñåìàíòè- ÷åñêîé ýêâèâàëåíòíîñòè äâóõñëîâíûõ êîëëîêàöèé. Êëþ÷åâûå ñëîâà: ñåìàíòè÷åñêàÿ ñâÿçíîñòü, èíôîðìàöèîííîå ïðîñòðàíñòâî, ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè, ïðåäèêàò ñåìàíòè÷åñêîé ýêâèâà- ëåíòíîñòè, êîëëîêàò, êîëëîêàöèÿ. ÂÂÅÄÅÍÈÅ Âàæíûì àñïåêòîì ôîðìèðîâàíèÿ èíôîðìàöèîííîãî ïðîñòðàíñòâà ñòàíîâÿòñÿ ñî- öèàëüíûå ñåòè, ôîðóìû, áëîãè, ïðåäñòàâëÿþùèå áàçîâûå îáúåêòû ñîâðåìåííîãî èíôîðìàöèîííîãî îáùåñòâà. Óñòàíîâëåíèå è ðàçâèòèå ñîöèàëüíûõ ñâÿçåé â èí- ôîðìàöèîííîì îáùåñòâå ÿâëÿåòñÿ îáúåêòèâíûì ôàêòîðîì, ïðàêòè÷åñêè íå çàâè- ñÿùèì îò ëè÷íûõ õàðàêòåðèñòèê èíäèâèäà. Ðàçíûå âèäû êîíòàêòîâ (ïðîñòðàí- ñòâåííûå, ñîöèàëüíûå, èíôîðìàöèîííûå) ÿâëÿþòñÿ îäíîâðåìåííî è êîìïîíåí- òàìè ñîöèàëüíûõ ñâÿçåé, è ýòàïàìè èõ ôîðìèðîâàíèÿ. Ãëîáàëüíûå èíôîðìàöèîííûå ñåòè ñòàëè ñðåäîé è èíñòðóìåíòîì ôîðìèðîâà- íèÿ èíôîðìàöèîííûõ ïðîñòðàíñòâ îòäåëüíûõ ïåðñîíàëèé è óñòîé÷èâûõ ñîöèàëü- íûõ ãðóïï, îáðàçîâàâøèõñÿ íà îñíîâå âçàèìíûõ èíòåðåñîâ.  îáùåì ñëó÷àå èí- ôîðìàöèîííîå ïðîñòðàíñòâî ïðåäñòàâëÿåò ñîáîé ïðîäóêò èíòåëëåêòóàëüíîé äåÿ- òåëüíîñòè ÷åëîâåêà, îáúåäèíÿþùåé èíôîðìàöèîííûå ðåñóðñû, òåõíîëîãèè èõ ñîïðîâîæäåíèÿ è èñïîëüçîâàíèÿ, ôóíêöèîíèðóþùèå íà îñíîâå åäèíûõ ïðèíöè- ïîâ, â öåëÿõ óäîâëåòâîðåíèÿ èíôîðìàöèîííîé ïîòðåáíîñòè ïîëüçîâàòåëåé [1]. Ïðè ýòîì îñíîâíîé îöåíêîé èíôîðìàöèîííîãî ñîöèóìà â íàñòîÿùåå âðåìÿ ñòà- íîâèòñÿ íå ïðîñòî èíôîðìàöèÿ, à ýôôåêòèâíàÿ êîììóíèêàöèÿ [2], îñóùåñòâëÿå- ìàÿ ÷åðåç óñòàíîâëåíèå åäèíûõ èíôîðìàöèîííûõ ïðîñòðàíñòâ àêòîðîâ — ñóáú- åêòîâ (èíäèâèäóóìîâ, ñîöèàëüíûõ ãðóïï, îðãàíèçàöèé, èíñòèòóòîâ), ñîâåðøàþ- ùèõ äåéñòâèÿ, íàïðàâëåííûå íà äðóãèå àêòîðû. Óñòàíîâëåíèå òàêèõ ïðîñòðàíñòâ èìååò ðåàëüíóþ êîììåð÷åñêóþ è ñîöèàëüíóþ öåííîñòü, íàïðèìåð, â âèäå ðàçðàáîòêè ðåêëàìû äëÿ öåëåâîé àóäèòîðèè.  ñâÿçè ñ ïîñòîÿííûìè èçìåíåíèÿìè èíôîðìàöèîííîãî ñîîáùåñòâà óíèâåð- ñàëüíîñòü è íåîäíîðîäíîñòü èíôîðìàöèîííîãî ïðîñòðàíñòâà ïîïîëíÿåòñÿ íå- ïðåðûâíîé äèíàìè÷íîñòüþ. Ïîýòîìó äëÿ àäåêâàòíîãî ôîðìèðîâàíèÿ èíôîðìà- öèîííûõ ïðîñòðàíñòâ ñîöèàëüíûõ ñîîáùåñòâ íåîáõîäèìî ïîâûñèòü óðîâåíü àâ- òîìàòèçàöèè îáðàáîòêè òåêñòîâ, â òîì ÷èñëå çà ñ÷åò ðåøåíèÿ çàäà÷ ñåìàíòè÷åñêîé îáðàáîòêè ðåñóðñîâ, ïðåäñòàâëÿþùèõ îïðåäåëåííóþ èíôîðìà- öèþ èíäèâèäóàëüíûõ àêòîðîâ [3]. Òàêîé òåêñòîâîé èíôîðìàöèåé, íàïðèìåð, ÿâ- ëÿåòñÿ ïåðñîíàëüíàÿ èíôîðìàöèÿ èíäèâèäóóìà îòíîñèòåëüíî îáëàñòåé èíòåðå- ñîâ, èìåþùèõñÿ êîíòàêòîâ, âîñòðåáîâàííûõ òåìàõ, îòìå÷àåìûõ â áëîãàõ è ôîðó- ìàõ ñîîáùåíèÿõ. Îïðåäåëåíèå íåêîòîðîé ýêâèâàëåíòíîñòè è òîæäåñòâåííîñòè òåêñòîâîé èíôîðìàöèè àêòîðîâ, îñóùåñòâëÿåìîå çà ñ÷åò ïîäõîäîâ Natural Language Processing, ïîçâîëÿåò âûäåëÿòü åäèíûå èíôîðìàöèîííûå ïðîñòðàíñòâà 134 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 © Ñ.Â. Ïåòðàñîâà, Í.Ô. Õàéðîâà, 2017 îïðåäåëåííûõ ñîöèàëüíûõ ãðóïï, îñíîâàííûõ íà èäåíòè÷íîñòè çíàíèé, îáðàçî- âàíèÿ, âîçðàñòà, ïðåñòèæíîñòè, áîãàòñòâà, ðàñû, ïîëà è ò.ä. ÀÍÀËÈÇ ËÈÒÅÐÀÒÓÐÍÛÕ ÄÀÍÍÛÕ Â îáùåì ñëó÷àå äëÿ ðåøåíèÿ çàäà÷ ñåìàíòè÷åñêîãî àíàëèçà òåêñòà èñïîëüçó- þò ëåêñèêî-ñèíòàêñè÷åñêèå øàáëîíû; N -ãðàììû [4]; òåðìèíîëîãè÷åñêèå øàá- ëîíû; èíäèêàòîðû ñâÿçè è ïðîôèëè êëàñòåðèçóåìîñòè [5]; øàáëîíû ïàð îáúåê- òîâ â ñåãìåíòå òåêñòà [6]; ìåòîäû îïîðíûõ âåêòîðîâ, îñíàùåííûå ÿçûêîâûìè îðèåíòèðîâàííûìè ÿäðàìè [7]; óñëîâíûå ñëó÷àéíûå ïîëÿ [8] è äð.  òî æå âðåìÿ ïîäõîäû ê ðåøåíèþ çàäà÷è âûäåëåíèÿ ýêâèâàëåíòíûõ èëè áëèçêèõ ïî ñìûñëó (òîæäåñòâåííûõ) ëèíãâèñòè÷åñêèõ ýëåìåíòîâ â òåêñòå ðàçíÿòñÿ â çàâèñèìîñòè îò óðîâíÿ òàêèõ ýëåìåíòîâ, â ÷àñòíîñòè ñëîâ èëè ñëîâîñî÷åòàíèé (êîëëîêàöèé). Ïðè ýòîì åñëè äëÿ îïðåäåëåíèÿ ñèíîíèìè÷íîñòè ñëîâ ñóùåñòâóåò äîñòàòî÷íîå êîëè÷åñòâî èññëåäîâàíèé [9–12], òî çàäà÷à âûÿâëåíèÿ ñìûñëîâîé áëèçîñòè êîëëîêàöèé, âêëþ÷àþùàÿ èäåíòèôèêàöèþ êîëëîêàöèé è îïðåäåëåíèå èõ ñèíîíèìèè, ÿâëÿåòñÿ äîñòàòî÷íî íåòðèâèàëüíîé è íà ñåãîäíÿ íå èìååò ýôôåêòèâ- íîãî ðåøåíèÿ.  äàííîì êîíòåêñòå ïîä êîëëîêàöèåé ïîíèìàåì êîìáèíàöèþ äâóõ ñëîâ, èìåþùèõ òåíäåíöèþ ê ñîâìåñòíîé íå ñëó÷àéíîé ïîÿâëÿåìîñòè â òåêñòå ëåê- ñè÷åñêîé åäèíèöû ñ ïðèçíàêàìè ñèíòàêñè÷åñêîé è ñåìàíòè÷åñêîé öåëîñòíîñòè. Áîëüøèíñòâî ðàçðàáîòàííûõ â íàñòîÿùåå âðåìÿ ìåòîäîâ èäåíòèôèêàöèè êîë- ëîêàöèé â òåêñòå áàçèðóåòñÿ íà âûÿâëåíèè ñèíòàãìàòè÷åñêèõ îòíîøåíèé â åñòå- ñòâåííîì ÿçûêå.  ýòîì íàïðàâëåíèè ñóùåñòâóþò äâà îñíîâíûõ ïîäõîäà: ñòàòèñ- òè÷åñêèé ïîäõîä (window-based [13], ìåðû àññîöèàöèè MI, PMI [14], t-scores, Chi-squared ðàñïðåäåëåíèå [15]) è ïîäõîä, îñíîâàííûé íà àíàëèçå ñèíòàêñè÷åñêîé ñòðóêòóðû êîëëîêàöèé [16]. Íà ýòàïå îïðåäåëåíèÿ ñìûñëîâîé áëèçîñòè ñëîâîñî÷åòàíèé òàêæå ó÷èòûâàþò- ñÿ ëèáî ñòàòèñòè÷åñêèå çàêîíîìåðíîñòè, ëèáî îïðåäåëÿþòñÿ èõ ñèíòàêñè÷åñêèå õàðàêòåðèñòèêè. Ïðè ýòîì ÷àñòî ñåìàíòè÷åñêàÿ èíôîðìàöèÿ (ëåêñè÷åñêàÿ èíôîð- ìàöèÿ ñëîâ) íå ó÷èòûâàåòñÿ èëè äîïîëíèòåëüíî ïðèâëåêàþòñÿ òåçàóðóñû. Íàèáî- ëåå ðàçðàáîòàííûìè ìåòîäàìè îïðåäåëåíèÿ ñìûñëîâîé áëèçîñòè ñëîâîñî÷åòàíèé ÿâëÿþòñÿ âûäåëåíèå ñèíîíèìè÷åñêèõ êîëëîêàöèé â ðåçóëüòàòå ñðàâíåíèÿ èõ ïåðå- âîäîâ [17]; âûÿâëåíèå ïåðåôðàçèðîâàíèé çà ñ÷åò ïîäîáèÿ ôðàãìåíòîâ ôðàç [18]; îïðåäåëåíèå ñõîäñòâà êîíòåêñòà íà áàçå àíàëèçà êîðïóñîâ ïàðàëëåëüíûõ ïåðåâî- äîâ [19]. Âñå ïåðå÷èñëåííûå ïîäõîäû ðàáîòàþò ëèáî íà òåêñòàõ äîñòàòî÷íî óçêèõ ïðåäìåòíûõ îáëàñòåé, ëèáî (ïðè ñòàòèñòè÷åñêèõ ïîäõîäàõ) èìåþò äîñòàòî÷íî íèçêóþ òî÷íîñòü îïðåäåëåíèÿ ýêâèâàëåíòíûõ ñëîâîñî÷åòàíèé. Îáà íåäîñòàòêà íå ïîçâîëÿþò èñïîëüçîâàòü äàííûå ïîäõîäû ïðè âûäåëåíèè åäèíûõ èíôîðìàöè- îííûõ ïðîñòðàíñòâ ñîöèàëüíûõ ãðóïï èíôîðìàöèîííûõ ñåòåé. ÏÎÑÒÀÍÎÂÊÀ ÇÀÄÀ×È ÈÑÑËÅÄÎÂÀÍÈß Öåëüþ íàñòîÿùåé ñòàòüè ÿâëÿåòñÿ ðàçðàáîòêà òåõíîëîãèè, ïîçâîëÿþùåé èñ- ïîëüçîâàòü ñìûñëîâóþ ýêâèâàëåíòíîñòü ëèíãâèñòè÷åñêèõ åäèíèö äëÿ îïðåäå- ëåíèÿ ñåìàíòè÷åñêîé ñâÿçíîñòè äàííûõ â òåêñòîâîì èíôîðìàöèîííîì ïðî- ñòðàíñòâå. Ïðè ýòîì àíàëèç ïîêàçûâàåò, ÷òî ðàññìîòðåíèå òîëüêî ñèíîíèìèè ñëîâ íåäîñòàòî÷íî, íåîáõîäèìî óñòàíîâèòü ôîðìàëüíûå ïðèçíàêè ñåìàíòè÷åñ- êèõ ñâÿçåé åäèíèö áîëåå âûñîêîãî óðîâíÿ ëèíãâèñòè÷åñêîé ñèñòåìû — ñëîâî- ñî÷åòàíèé èëè êîëëîêàöèé.  äàííîé ðàáîòå ïðåäëàãàåòñÿ òåõíîëîãèÿ îïðåäåëåíèÿ ñåìàíòè÷åñêè ñâÿçíûõ ýëåìåíòîâ òåêñòà, èñïîëüçóþùàÿ ëîãèêî-ëèíãâèñòè÷åñêóþ ìîäåëü èäåíòèôèêàöèè ýêâèâàëåíòíûõ êîëëîêàöèé [20]. Ìîäåëü áàçèðóåòñÿ íà èíñòðóìåíòàðèè êîìïî- íåíòíîãî àíàëèçà è àïïàðàòå àëãåáðû êîíå÷íûõ ïðåäèêàòîâ. Çäåñü ðàññìàòðèâàþò- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 135 ñÿ ñóáñòàíòèâíûå, àäúåêòèâíûå è ãëàãîëüíûå òèïû êîëëîêàöèé óêðàèíñêîãî ÿçû- êà. Ñóáñòàíòèâíûå êîëëîêàöèè ïðåäñòàâëåíû äâóìÿ ñâÿçíûìè ñóùåñòâèòåëüíûìè.  àäúåêòèâíûõ êîëëîêàöèÿõ ãëàâíûì ñëîâîì âûñòóïàåò ñóùåñòâèòåëüíîå, à çàâè- ñèìûì ñëîâîì — ïðèëàãàòåëüíîå. Ãëàãîëüíûå êîëëîêàöèè ïðåäñòàâëåíû ãëàãîëîì (ãëàâíûé êîëëîêàò) è ñóùåñòâèòåëüíûì (çàâèñèìûé êîëëîêàò). ÎÏÈÑÀÍÈÅ ÒÅÕÍÎËÎÃÈÈ ÈÄÅÍÒÈÔÈÊÀÖÈÈ ÑÅÌÀÍÒÈ×ÅÑÊÈ ÑÂßÇÍÛÕ ÝËÅÌÅÍÒΠÒÅÊÑÒÀ Ïðåäëàãàåìàÿ òåõíîëîãèÿ àâòîìàòè÷åñêîé èäåíòèôèêàöèè ñåìàíòè÷åñêè ñâÿç- íûõ äàííûõ âêëþ÷àåò ñëåäóþùèå ýòàïû: 1) âûäåëåíèå ñåìàíòèêî-ãðàììàòè- ÷åñêèõ õàðàêòåðèñòèê êîëëîêàòîâ — ñëîâ, êîòîðûå ïîòåíöèàëüíî ìîãóò ÿâ- ëÿòüñÿ ýëåìåíòàìè ñóáñòàíòèâíûõ, àäúåêòèâíûõ è ãëàãîëüíûõ ñëîâîñî÷åòàíèé; 2) èäåíòèôèêàöèÿ êîëëîêàöèé — ñëîâîñî÷åòàíèé, îáðàçîâàííûõ äâóìÿ ðÿäîì ñòîÿùèìè ñëîâîôîðìàìè; 3) îïðåäåëåíèå ñèíîíèìè÷íûõ êîëëîêàòîâ — ñëîâ, áëèçêèõ ïî ñìûñëó, îáðàçóþùèõ ñëîâîñî÷åòàíèÿ; 4) èäåíòèôèêàöèÿ ñåìàíòè- ÷åñêîé ýêâèâàëåíòíîñòè äâóõñëîâíûõ êîëëîêàöèé — ñëîâîñî÷åòàíèé, èìåþ- ùèõ îáùèå ýëåìåíòû ñìûñëà. Âûäåëåíèå ñåìàíòèêî-ãðàììàòè÷åñêèõ õàðàêòåðèñòèê êîëëîêàòîâ. Íà ïåðâîì ýòàïå âûðàçèì ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè ïîòåíöèàëü- íûõ êîëëîêàòîâ â âèäå ïàðàäèãìàòè÷åñêîé òàáëèöû (òàáë. 1), ñâÿçûâàþùåé õà- ðàêòåðèñòèêè ñëîâ ñ âîçìîæíîé èõ ðîëüþ â ñóáñòàíòèâíûõ, àäúåêòèâíûõ è ãëà- ãîëüíûõ ñëîâîñî÷åòàíèÿõ. Çäåñü x îïðåäåëÿåò ãëàâíîå, à y — çàâèñèìîå ñëîâà ñëîâîñî÷åòàíèé, ãäå òèï êîëëîêàöèè x y1 1 — ñóáñòàíòèâíûé, x y2 2 — àäúåêòèâ- íûé, x y3 3 — ãëàãîëüíûé, c îïðåäåëÿåò ñåìàíòè÷åñêèé õàðàêòåð, a — ãðàììàòè- ÷åñêèé õàðàêòåð. Äëÿ îïèñàíèÿ ñåìàíòè÷åñêèõ è ãðàììàòè÷åñêèõ îòíîøåíèé ââîäÿòñÿ ïðåä- ìåòíûå ïåðåìåííûå à1, à2 , à3 , ñ: � ïðåäìåòíàÿ ïåðåìåííàÿ a1 îïðåäåëÿåò ÷àñòü ðå÷è (N — ñóùåñòâèòåëüíîå, A — ïðèëàãàòåëüíîå, V — ãëàãîë); � ïðåäìåòíàÿ ïåðåìåííàÿ a2 îïðåäåëÿåò ïàäåæ ñóùåñòâèòåëüíûõ N è ïðè- ëàãàòåëüíûõ A (Nom — èìåíèòåëüíûé ïàäåæ, Gen — ðîäèòåëüíûé ïàäåæ, Acc — âèíèòåëüíûé ïàäåæ, Dat — äàòåëüíûé ïàäåæ, In — òâîðèòåëüíûé ïàäåæ, Prt — ïðåäëîæíûé ïàäåæ); � ïðåäìåòíàÿ ïåðåìåííàÿ a3 îïðåäåëÿåò âîçâðàòíîñòü ãëàãîëà V (Ref — âîç- âðàòíûé ãëàãîë, NonRef — íåâîçâðàòíûé ãëàãîë); � ïðåäìåòíàÿ ïåðåìåííàÿ ñ îïðåäåëÿåò âîçìîæíûå ñåìàíòè÷åñêèå ðîëè ñëîâ- ñóùåñòâèòåëüíûõ N ; çíà÷åíèÿ ñ ïðåäñòàâëåíû â ïåðâîì ñòîëáöå òàáëèöû (Ag — àãåíñ, Att — àòðèáóò, Pac — ïàöèåíñ, Adr — àäðåñàò, Ins — èíñòðóìåíò, M — ìåñòî). 136 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 Ò à á ë è ö à 1 c a x1 y1 y2 x2 x3 y3 N N A N V N Ref NonRef Ag Nom q1 q12 q18 q24 q25 Att Gen q2 q7 q13 q19 q26 Pac Acc q3 q8 q14 q20 q27 Adr Dat q4 q9 q15 q21 q28 Ins In q5 q10 q16 q22 q29 M Prt q6 q11 q17 q23 q30 Ôîðìàëüíûìè íîìåðàìè ÿ÷ååê q �1 30, ïàðàäèãìàòè÷åñêîé òàáëèöû îáîçíà- ÷àþòñÿ âîçìîæíûå ñîãëàñîâàííûå çíà÷åíèÿ ãðàììàòè÷åñêèõ è ñåìàíòè÷åñêèõ õà- ðàêòåðèñòèê ñëîâ (ïîòåíöèàëüíûõ êîëëîêàòîâ): q a a cN Nom Ag1 1 2 � ; q a a cN Gen Att2 1 2 � ; q a a cN Acc Pac3 1 2 � ; q a a cN Dat Adr4 1 2 � ; q a a cN In Ins5 1 2 � ; q a a cN Prt M6 1 2 � ; q a a cN Gen Att7 1 2 � ; q a a cN Acc Pac8 1 2 � ; q a a cN Dat Adr9 1 2 � ; q a a cN In Ins10 1 2 � ; q a a cN Prt M11 1 2 � ; q a aA Nom12 1 2 � ; q a aA Gen13 1 2 � ; q a aA Acc14 1 2 � ; q a aA Dat15 1 2 � ; q a aN In16 1 2 � ; q a aA Prt17 1 2 � ; (1) q a a cN Nom Ag18 1 2 � ; q a a cN Gen Att19 1 2 � ; q a a cN Acc Pac20 1 2 � ; q a a cN Dat Adr21 1 2 � ; q a a cN In Ins22 1 2 � ; q a a cN Prt M23 1 2 � ; q a aV Ref24 1 3 � ; q a aV NonRef25 1 3 � ; q a a cN Gen Att26 1 2 � ; q a a cN Acc Pac27 1 2 � ; q a a cN Dat Adr28 1 2 � ; q a a cN In Ins29 1 2 � ; q a a cN Prt M30 1 2 � . Âûïîëíÿÿ îïåðàöèþ ïî÷ëåííîé êîíúþíêöèè, ìîæíî âûÿâèòü ïîâòîðíûå ýëåìåíòû ìíîæåñòâà q: a a c q qN Nom Ag 1 2 1 18 � � ; a a c q q q qN Gen Att 1 2 2 7 19 26 � � � � ; a a c q q q qN Acc Pac 1 2 3 8 20 27 � � � � ; a a c q q q qN Dat Adr 1 2 4 9 21 28 � � � � ; a a c q q q qN In Ins 1 2 5 10 22 29 � � � � ; a a c q q q qN Prt M 1 2 6 11 23 30 � � � � ; a a qA Nom 1 2 12 � ; a a qA Gen 1 2 13 � ; a a qA Acc 1 2 14 � ; a a qA Dat 1 2 15 � ; a a qA In 1 2 16 � ; a a qA Prt 1 2 17 � ; a a qV Ref 1 3 24 � ; a a qV NonRef 1 3 25 � . Óïðîùàÿ ìíîæåñòâî óðàâíåíèé (1), ïåðåîïðåäåëÿåì ïåðåìåííóþ q , çàäåéñòâóÿ ïåðåìåííóþ r: r q q1 1 18 � � ; r q q q q2 2 7 19 26 � � � � ; r q q q q3 3 8 20 27 � � � � ; r q q q q4 4 9 21 28 � � � � ; r q q q q5 5 10 22 29 � � � � ; r q q q q6 6 11 23 30 � � � � ; r q7 12 � ; r q8 13 � ; r q9 14 � ; r q10 15 � ; r q11 16 � ; r q12 17 � ; r q13 24 � ; r q14 25 � . Òîãäà ïàðàäèãìàòè÷åñêóþ òàáë. 1 ìîæíî ïåðåïèñàòü â óïðîùåííîì íîðìàëè- çîâàííîì âèäå (òàáë. 2). Ïåðåïèøåì ñèñòåìó óðàâíåíèé (1) ñ ó÷åòîì çàâèñè- ìîñòè ïåðåìåííîé r îò ïðåäìåòíûõ ïåðåìåííûõ, âûðàæàþùèõ ñåìàíòèêî- ãðàììàòè÷åñêèå õàðàêòåðèñòèêè a1, a2 , a3 , ñ: r a a cN Nom Ag1 1 2 � ; r a a cN Gen Att2 1 2 � ; r a a cN Acc Pac3 1 2 � ; r a a cN Dat Adr4 1 2 � ; r a a cN In Ins5 1 2 � ; r a a cN Prt M6 1 2 � ; r a aA Nom7 1 2 � ; r a aA Gen8 1 2 � ; r a aA Acc9 1 2 � , r a aA Dat10 1 2 � ; r a aA In11 1 2 � ; r a aA Prt12 1 2 � ; r a aV Ref13 1 3 � ; r a aV NonRef14 1 3 � . ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 137 Ââîäèìîå áèíàðíîå îòíîøåíèå Ð ïîçâîëÿåò ñâÿçàòü ïåðåìåííóþ r ñ ïðåä- ìåòíûìè ïåðåìåííûìè a1, a2 , a3 , ñ. Áèíàðíûé ïðåäèêàò P1 ñâÿçûâàåò ïåðåìåííóþ r ñ ïðåäìåòíîé ïåðåìåííîé a1, îïðåäåëÿþùåé ãðàììàòè÷åñêóþ õàðàêòåðèñòèêó (÷àñòü ðå÷è): P a r a r r r r r rN 1 1 1 1 2 3 4 5 6( , ) ( )� � � � � � � � � � � � � � �a r r r r r r a r rA V 1 7 8 9 10 11 12 1 13 14( ) ( ). Áèíàðíûé ïðåäèêàò P2 ñâÿçûâàåò ïåðåìåííóþ r ñ ïðåäìåòíîé ïåðåìåííîé a2 , îïðåäåëÿþùåé ãðàììàòè÷åñêóþ õàðàêòåðèñòèêó (ãðàììàòè÷åñêèé ïàäåæ): P a r a r r a r r a r rNom Gen Acc 2 2 2 1 7 2 2 8 2 3 9( , ) ( ) ( ) ( )� � � � � � � � � � � � �a r r a r r a r rDat In Prt 2 4 10 2 5 11 2 6 12( ) ( ) ( ). Áèíàðíûé ïðåäèêàò P3 ñâÿçûâàåò ïåðåìåííóþ r ñ ïðåäìåòíîé ïåðåìåííîé a3 , îïðåäåëÿþùåé ãðàììàòè÷åñêóþ õàðàêòåðèñòèêó (âîçâðàòíîñòü ãëàãîëà): P a r a r a rRef NonRef 3 3 3 13 3 14( , ) � � . Áèíàðíûé ïðåäèêàò P4 ñâÿçûâàåò ïåðåìåííóþ r ñ ïðåäìåòíîé ïåðåìåííîé ñ, îïðåäåëÿþùåé ñåìàíòè÷åñêóþ õàðàêòåðèñòèêó (ñåìàíòè÷åñêóþ ðîëü): P c r c r c r c r c r c r c rAg Att Pac Adr Ins M 4 1 2 3 4 5 6( , ) � � � � � � . Òàêèì îáðàçîì, ìîæåì ââåñòè ïðåäèêàò èäåíòèôèêàöèè ïîòåíöèàëüíûõ êîë- ëîêàòîâ, êîòîðûé õàðàêòåðèçóåòñÿ ñèñòåìîé áèíàðíûõ îòíîøåíèé P1–P4 : P a a a c r P a r P a r P a r P c r( , , , , ) ( , ) ( , ) ( , ) ( , )1 2 3 1 1 2 2 3 3 4� � � � � � � � �a a c a a c a a c a a cN Nom Ag N Gen Att N Acc Pac N Dat Ad 1 2 1 2 1 2 1 2 r � � � � � �a a c a a c a a a a a aN In Ins N Prt M A Nom A Gen A Acc 1 2 1 2 1 2 1 2 1 2 � � � � � �a a a a a a a a a aA Dat A In A Prt V Ref V NonRef 1 2 1 2 1 2 1 3 1 3 . Èäåíòèôèêàöèÿ êîëëîêàöèé. Ñòðîèì ïàðàäèãìàòè÷åñêóþ òàáëèöó (òàáë. 3), â êîòîðîé æèðíûì øðèôòîì âûäåëÿåì ñåìàíòèêî-ãðàììàòè÷åñêèå õà- ðàêòåðèñòèêè ðÿäîì ñòîÿùèõ ñëîâ, îáðàçóþùèõ êîëëîêàöèè. 138 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 Ò à á ë è ö à 2 c a x1 y1 y2 x2 x3 y3 N N A N V N Ref NonRef Ag Nom r1 r7 r1 r13 r14 Att Gen r2 r2 r8 r2 r2 Pac Acc r3 r3 r9 r3 r3 Adr Dat r4 r4 r10 r4 r4 Ins In r5 r5 r11 r5 r5 M Prt r6 r6 r12 r6 r6 Íàïðèìåð, x1 ñ íàáîðîì ñåìàíòèêî-ãðàììàòè÷åñêèõ õàðàêòåðèñòèê {( )a a cN Nom Ag 1 2 , ( )a a cN Gen Att 1 2 , ( )a a cN Acc Pac 1 2 , ( )a a cN Dat Adr 1 2 , ( )a a cN In Ins 1 2 , ( )a a cN Prt M 1 2 } îáðàçóåò êîëëîêàöèþ ñ çàâèñèìûì ñëîâîì y1, îáëàäàþùèì íàáî- ðîì ñåìàíòèêî-ãðàììàòè÷åñêèõ õàðàêòåðèñòèê {a a cN Gen Att 1 2 }. Âûðàæàåì çàâèñèìîñòü ïåðåìåííîé r îò ïðåäìåòíûõ ïåðåìåííûõ x , y, îáîçíà- ÷àþùèõ ãëàâíûé è çàâèñèìûé êîëëîêàòû: — äëÿ ñóáñòàíòèâíûõ êîëëîêàöèé ( )N Nx y ( )r r r r r r rx x x x x x y 1 2 3 4 5 6 2 � � � � � � � � � � � �(x x x x xNNomAg NGenAtt NAccPac NDatAdr NInIns x yNPrtM NGenAtt) ; — äëÿ àäúåêòèâíûõ êîëëîêàöèé ( )A Ny x r r y xy x ANom NNomAg7 1 � ; r r y xy x AGen NGenAtt8 2 � ; r r y xy x AAcc NAccPac9 3 � ; r r y xy x ADat NDatAdr10 4 � ; r r y xy x AIn NInIns11 5 � ; r r y xy x APrt NPrtM12 6 � ; — äëÿ ãëàãîëüíûõ êîëëîêàöèé ( )V Nx y r r x yx y VNonRef NAccPac14 3 � . Ââîäèìîå áèíàðíîå îòíîøåíèå Ð ïîçâîëÿåò ñâÿçàòü ïåðåìåííóþ r ñ ïðåä- ìåòíûìè ïåðåìåííûìè x è y: P r r r r r r r r rx y x x x x x x y5 1 2 3 4 5 6 2( , ) ( )� � � � � � , (2) P r r r r r r r r r r r r ry x y x y x y x y x y x y6 7 1 8 2 9 3 10 4 11 5 1( , ) � � � � � � 2 6rx , (3) P r r r rx y x y7 14 3( , ) � , (4) ãäå óðàâíåíèå (2) îïðåäåëÿåò ñóáñòàíòèâíûå êîëëîêàöèè, óðàâíåíèå (3) — àäúåêòèâíûå êîëëîêàöèè è óðàâíåíèå (4) — ãëàãîëüíûå êîëëîêàöèè. Ââåäåì ïðåäèêàò èäåíòèôèêàöèè êîëëîêàöèé P x y( , ), êîòîðûé õàðàêòåðè- çóåòñÿ ñèñòåìîé áèíàðíûõ îòíîøåíèé P5–P7 : P x y P r r P r r P r r x xx y y x x y NNomAg NGe( , ) ( , ) ( , ) ( , ) (� � � � �5 6 7 nAtt NAccPacx� � � � � � �x x x y y x yNDatAdr NInIns NPrtM NGenAtt ANom NNomAg AG) en NGenAttx � � � � �y x y x y x y xAAcc NAccPac ADat NDatAdr AIn NInIns APrt NPrtM VNonRef NAccPacx y� . ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 139 Ò à á ë è ö à 3 c a x1 y1 y2 x2 x3 y3 N N A N V N Ref NonRef Ag Nom rx 1 ry 7 rx 1 rx 13 rx 14 Att Gen rx 2 ry 2 ry 8 rx 2 ry 2 Pac Acc rx 3 ry 3 ry 9 rx 3 ry 3 Adr Dat rx 4 ry 4 ry 10 rx 4 ry 4 Ins In rx 5 ry 5 ry 11 rx 5 ry 5 M Prt rx 6 ry 6 ry 12 rx 6 ry 6 Ïðåäèêàò P x y( , ) �1, åñëè ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè äâóõ ðÿäîì ñòîÿùèõ ñëîâîôîðì ìíîæåñòâà M m mn� { }1, ... , ïîçâîëÿþò ñîçäàòü ñëîâî- ñî÷åòàíèå, è P x y( , ) � 0 â ïðîòèâíîì ñëó÷àå (òàáë. 4). Îïðåäåëåíèå ñèíîíèìè÷íûõ êîëëîêàòîâ. Íà ñëåäóþùåì ýòàïå äëÿ óñòà- íîâëåíèÿ ñèíîíèìèè ìåæäó êîëëîêàòàìè èñïîëüçóåòñÿ ìåòîä àâòîìàòè÷åñêîé èäåíòèôèêàöèè ñåìàíòè÷åñêèõ êîððåëÿöèé òîëåðàíòíîñòè è ýêâèâàëåíòíîñòè, äåòàëüíî îïèñàííûé â ðàáîòå [21]. Ýòîò ìåòîä äëÿ îïðåäåëåíèÿ ñåìàíòè÷åñêè ñâÿçíûõ äàííûõ èñïîëüçóåò ìåðó ñåìàíòè÷åñêîé áëèçîñòè f t t( , )� �� ìåæäó äâóìÿ ÿçûêîâûìè åäèíèöàìè �t è ��t . Ìåðà ñåìàíòè÷åñêîé áëèçîñòè âûðàæàåòñÿ îòíîøå- íèåì òåîðåòèêî-ìíîæåñòâåííîãî ïåðåñå÷åíèÿ è îáúåäèíåíèÿ ìíîæåñòâ òåðìèíîâ äåôèíèöèé ãëîññàðèÿ. Íàïðèìåð, ÷òîáû âû÷èñëèòü ìåðó ñèíîíèìèè (èëè ìåðó ñåìàíòè÷åñêîé áëè- çîñòè) f äëÿ òåðìèíîâ t1 � «àâòîðèçàö³ÿ», t2 � «àóòåíòèô³êàö³ÿ» è t3 � «³äåí- òèô³êàö³ÿ» â ãëîññàðèè [22], îïðåäåëÿåòñÿ ïåðåñå÷åíèå è îáúåäèíåíèå ìíîæåñòâ ñëîâ êàæäîé äåôèíèöèè: f t t N d d N d d ( , ) ( ) ( ) � �� � �2 1 2 1 2 � � , ãäå f t t( , )� �� — âåëè÷èíà ñåìàíòè÷åñêîé áëèçîñòè ìåæäó òåðìèíàìè �t è ��t ; d d1 2, — äåôèíèöèè ëèíãâèñòè÷åñêèõ åäèíèö òîëêîâîãî ñëîâàðÿ �t è ��t ; N x x( )1 2� — êîëè÷åñòâî îáùèõ ñëîâ â îïðåäåëåíèÿõ òåðìèíîâ �t è ��t ; N x x( )1 2� — êîëè÷åñòâî âñåõ ñëîâ â îïðåäåëåíèÿõ òåðìèíîâ �t è ��t . Ðåçóëüòàò îïðåäåëåíèÿ ìåðû ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè ìåæäó t1, t2 , t3 : f t t( , )1 2 � 0,4; f t t( , )2 3 � 0,45; f t t( , )1 3 � 0,39.  ðàáîòå [21] äîêàçûâàåòñÿ, ÷òî ïðè çíà÷åíèè êîýôôèöèåíòà ñåìàíòè÷åñêîé áëèçîñòè áîëüøå 0,35 ñëîâà t1 � «àâòîðèçàö³ÿ», t2 � «àóòåíòèô³êàö³ÿ» è t3 � «³äåíòèô³êàö³ÿ» ñ÷èòàþòñÿ ñâÿçàííûìè îòíîøåíèåì ýêâèâàëåíòíîñòè. Èäåíòèôèêàöèÿ ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè äâóõñëîâíûõ êîëëî- êàöèé. Ñèíîíèìè÷íûå ñëîâà ìîãóò îáðàçîâûâàòü áëèçêèå ïî ñìûñëó ñëîâîñî÷å- òàíèÿ, íàïðèìåð «çáåð³ãàòè äàí³» � «ì³ñòèòè â³äîìîñò³», è ïðè ýòîì ìîãóò ôîðìèðîâàòü íåñâÿçíûå ïî ñìûñëó ñëîâîñî÷åòàíèÿ, íàïðèìåð «çáåð³ãàííÿ äà- íèõ» «³íôîðìàö³ÿ ðåïîçèòàð³þ». Äëÿ âûäåëåíèÿ ñåìàíòè÷åñêè ñâÿçíûõ êîëëîêàöèé èñïîëüçóåòñÿ ëîãèêî-ëèíã- âèñòè÷åñêàÿ ìîäåëü [20]. Ââåäåì ïðåäèêàò ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè äâóõ- ñëîâíûõ êîëëîêàöèé P x y P x y x y x y P x y P x yi( , ) * ( , ) ( , , , ) ( , ) ( ,1 1 2 2 1 1 2 2 1 1 2 2� � �� ), ãäå ñèìâîë * îáîçíà÷àåò îïåðàöèþ îïðåäåëåíèÿ ñìûñëîâîé áëèçîñòè, çíàê � îïðåäåëÿåò êîíúþíêöèþ, ïðåäèêàò � i x y x y( , , , ) 1 1 2 2 èñêëþ÷àåò êîëëîêàöèè, 140 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 Ò à á ë è ö à 4 a A Nom a A Gen a A Acc a A Dat a A In a A Prt a c NGen Att a c NAcc Pac a c NDat Adr a c NIn Ins a N M Prt c a V Ref a V Non Ref a cNNom Ag 1 0 0 0 0 0 1 0 0 0 0 0 0 a cNGen Att 0 1 0 0 0 0 1 0 0 0 0 0 0 a cNAcc Pac 0 0 1 0 0 0 1 0 0 0 0 0 0 a cNDat Adr 0 0 0 1 0 0 1 0 0 0 0 0 0 a cNIn Ins 0 0 0 0 1 0 1 0 0 0 0 0 0 a N MPrtc 0 0 0 0 0 1 1 0 0 0 0 0 0 a V Ref 0 0 0 0 0 0 0 0 0 0 0 0 0 a V NonRef 0 0 0 0 0 0 0 1 0 0 0 0 0 yi xi ìåæäó êîòîðûìè íå ìîæåò áûòü óñòàíîâëåíà ñìûñëîâàÿ ýêâèâàëåíòíîñòü. Ïðåäèêàò � 1 1 1 2 2 1 1 2 2 ( , , , )x y x y x y x yVNonRef NAccPac VNonRef NAccP � ac ïîêàçûâàåò ñåìàíòè÷åñêóþ áëèçîñòü ãëàãîëüíûõ êîëëîêàöèé ( )V Nx y , íàïðèìåð âèçíà÷àòè x VNonRef 1 â³äîìîñò³ y NAccPac 1 � âñòàíîâëþâàòè x VNonRef 2 äàí³ y NAccPac 2 . Ïðåäèêàò � 2 1 1 2 2 1 1 2 2 ( , , , )x y x y x y x yNNomAg NGenAtt NNomAg NGenAtt � ïîêàçûâàåò ñåìàíòè÷åñêóþ áëèçîñòü ñóáñòàíòèâíûõ êîëëîêàöèé ( )N Nx y , òàêèõ êàê øâèäê³ñòü x NNomAg 1 ïåðåäà÷³ y NGenAtt 1 � òåìï x NNomAg 2 â³äïðàâëåííÿ y NGenAtt 2 . Ïðåäèêàò � 3 1 1 2 2 1 1 2 2 ( , , , )x y x y y x y xANom NNomAg ANom NNomAg � ïîêàçûâàåò ñå- ìàíòè÷åñêóþ áëèçîñòü ìåæäó àäúåêòèâíûìè êîëëîêàöèÿìè ( )A Ny x , íàïðèìåð áóëåâà yANom 1 îïåðàö³ÿ x NNomAg 1 � ëîã³÷íà yANom 2 ïðîöåäóðà x NNomAg 2 . Òàêèì îáðàçîì, ïðåäèêàò ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè êîëëîêàöèé, ñî- ñòîÿùèõ èç âûÿâëåííûõ íà ïðåäûäóùèõ ýòàïàõ ïîïàðíî ñèíîíèìè÷íûõ êîëëîêàòîâ, èìååò âèä �( , , , ) (x y x y y x y x yANom NNomAg AGen NGenAtt AA 1 1 2 2 1 1 1 1 1� � cc NAccPac ADat NDatAdrx y x1 1 1� � � � �y x y x y x yAIn AInIns APrt NPrtM ANom NNomAg AGe 1 1 1 1 2 2 2)( n NGenAtt AAcc NAccPacx y x2 2 2� � � � � �y x y x y x xADat NDatAdr AIn NInIns APrt NPrtM N 2 2 2 2 2 2 1 ) ( NomAg NGenAttx� � 1 � � � �x x x x y xNAccPac NDatAdr NInIns NPrtM NGenAtt 1 1 1 1 2 2) ( NNomAg NGenAtt NAccPacx x� � �2 2 � � � �x x x y x yNDatAdr NInIns NPrtM NGenAtt VNonRef N 2 2 2 2 1 1) AccPac VNonRef NAccPacx y 2 2 . (5) Åñëè ïðåäèêàò � ( , , , )x y x y1 1 2 2 1� , òî ñëîâà ñ ñîîòâåòñòâóþùèìè õàðàêòå- ðèñòèêàìè îáðàçóþò äâà ýêâèâàëåíòíûõ ïî ñìûñëó ñëîâîñî÷åòàíèÿ.  ïðîòèâ- íîì ñëó÷àå ðàññìàòðèâàåìûå ñëîâîñî÷åòàíèÿ íå ýêâèâàëåíòíû ïî ñìûñëó. Ñëåäîâàòåëüíî, êîëëîêàöèè ìîãóò ñ÷èòàòüñÿ áëèçêèìè ïî ñìûñëó, åñëè: — ãëàâíîå ñëîâî õ1 â ïåðâîé êîëëîêàöèè îïðåäåëåíî êàê ñèíîíèìè÷íîå ãëàâíîìó ñëîâó õ2 âî âòîðîé êîëëîêàöèè ( )x x1 2� , à çàâèñèìîå ñëîâî ó1 â ïåð- âîé êîëëîêàöèè ñèíîíèìè÷íî çàâèñèìîìó ñëîâó ó2 âî âòîðîé êîëëîêàöèè ( )y y1 2� ; — ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè êîëëîêàòîâ ñëîâîñî÷åòàíèé ( )x y1 1 è (x y2 2) óäîâëåòâîðÿþò ïðåäèêàòó ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè (5). Íàïðèìåð, êîëëîêàöèè coll1 � «ïðîöåñ àóòåíòèô³êàö³¿», coll2 � «ïðîöåäóðà ³äåíòèô³êàö³¿» èìåþò ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè coll1 � � x yNNomAg NGenAtt 1 1 , coll x yNNomAg NGenAtt 2 2 2 � (îïðåäåëåíû íà ïåðâîì è âòîðîì ýòàïàõ òåõíîëîãèè); ìåæäó ãëàâíûìè êîëëîêàòàìè è çàâèñèìûìè êîëëîêàòàìè ñëîâîñî÷åòàíèé óñòàíîâëåíû îòíîøåíèÿ ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè x x1 2� , y y1 2� (îïðåäåëåíû íà òðåòüåì ýòàïå).  ðåçóëüòàòå ïðåäèêàò � 2 1 1 2 2( , , , )x y x y ïîêàçûâàåò ñâÿçíûå ïî ñìûñëó êîë- ëîêàöèè (÷åòâåðòûé ýòàï ïðåäëîæåííîé òåõíîëîãèè): ïðîöåñ xNNomAg 1 àóòåíòèô³êàö³¿ yNGenAtt 1 � � ïðîöåäóðà x NNomAg 2 ³äåíòèô³êàö³¿ y NGenAtt 2 . ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 141 ÏÅÐÑÏÅÊÒÈÂÍÛÅ ÂÀÐÈÀÍÒÛ ÈÑÏÎËÜÇÎÂÀÍÈß ÐÀÇÐÀÁÎÒÀÍÍÎÉ ÒÅÕÍÎËÎÃÈÈ Ðàçðàáîòàííàÿ òåõíîëîãèÿ èäåíòèôèêàöèè ñåìàíòè÷åñêè ñâÿçíûõ ýëåìåíòîâ òåêñòà ìîæåò áûòü èñïîëüçîâàíà ðàçëè÷íûìè èíñòðóìåíòàðèÿìè ñîöèàëüíûõ ñåòåé, áëîãîâ, ôîðóìîâ. Íàïðèìåð, âñòðàèâàíèå ðàçðàáîòàííîé òåõíîëîãèè â ñåìàíòè÷åñêèé èíñòðóìåíòàðèé SIOC (Semantically Interlinked Online Com- munities) [23], îïèñûâàþùèé ìåòàäàííûå íà ïëàòôîðìå RDF, ïîçâîëÿåò èñ- ïîëüçîâàòü ýëåìåíòû ðàçìåòêè Twitter äëÿ îïðåäåëåíèÿ åäèíîãî èíôîðìàöèîí- íîãî ïðîñòðàíñòâà ñîöèàëüíîé ñåòè.  ðàññìàòðèâàåìîì ôðàãìåíòå ñâÿçíûõ òâèòîâ (ðèñ. 1) ýëåìåíòû content ïðîñòðàíñòâà èìåí sioc ïåðâîãî ñîîáùåíèÿ ñîäåðæàò òåêñò sioc:content «… ïî- òðåáóº ìîí³òîðèòè êîíòåíò ñîö³àëüíî¿ ìåðåæ³ …»; âòîðîãî ñîîáùåíèÿ — òåêñò sioc:content «… Íüþñìåéêåð â³äñë³äêîâóº çì³ñò îô³ö³éíîãî ñàéòó …»; òðåòüåãî ñîîáùåíèÿ — òåêñò sioc:content «… çàâäàííÿ ïîñò³éíî îö³íþâàòè íà- ïîâíåííÿ ñàéòó êîìïàí³¿ …». Èñïîëüçîâàíèå òåõíîëîãèè ïîçâîëÿåò îïðåäåëèòü ýêâèâàëåíòíûé ñìûñë. Ïðåäèêàò � 1 1 1 2 2( , , , )x y x y ïîêàçûâàåò ñåìàíòè÷åñêóþ áëèçîñòü ãëàãîëüíûõ êîë- ëîêàöèé: ìîí³òîðèòè x V NonRef 1 êîíòåíò y N Acc Pac 1 � â³äñë³äêîâóâàòè x V NonRef 2 çì³ñò y N Acc Pac 2 � îö³íþâàòè x V NonRef 3 íàïîâíåííÿ y N Acc Pac 3 , ïðè ýòîì x õ õ1 2 3� � , y ó ó1 2 3� � , ïðèíàäëåæàùèõ ðàçëè÷íûì òâèòàì. Íàëè÷èå íåñêîëü- êèõ ïîäîáíûõ ñèíîíèìè÷íûõ ýëåìåíòîâ ìîæåò ñòàòü äîïîëíèòåëüíûì óñëîâèåì âûäåëåíèÿ åäèíîãî èíôîðìàöèîííîãî ïðîñòðàíñòâà. ÇÀÊËÞ×ÅÍÈÅ Ïðåäëîæåííàÿ òåõíîëîãèÿ èäåíòèôèêàöèè ñåìàíòè÷åñêè ñâÿçíûõ ýëåìåíòîâ òåêñòà ïîçâîëÿåò îïðåäåëèòü åäèíîå èíôîðìàöèîííîå ïðîñòðàíñòâî àêòîðîâ ñîöèàëüíûõ ñåòåé. Èñïîëüçîâàíèå äàííîé òåõíîëîãèè âî âçàèìîäåéñòâèè ñî ñòàòèñòè÷åñêèìè ìåòîäàìè îáðàáîòêè ïîçâîëèò ýôôåêòèâíî îïðåäåëÿòü áëèç- 142 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 Ðèñ. 1. Ïðèìåð ñåìàíòè÷åñêè ñâÿçíîãî êîíòåíòà â èíôîðìàöèîííîì ïðîñòðàíñòâå Twitter sioc:content «... ïîòðåáóº ìîí³òîðèòè êîíòåíò ñîö³àëüíî¿ ìåðåæ³ ...» sioc:content «... çàâäàííÿ ïîñò³éíî îö³íþâàòè íàïîâíåííÿ ñàéòó êîìïàí³¿ ...» sioc:content «... Íüþñìåéêåð â³äñë³äêîâóº çì³ñò îô³ö³éíîãî ñàéòó...» rd fs :s ee A sl o rdfs: seeAslo rdfs:seeAslo twitter.com/Resource_1 twitter.com/Resource_2 twitter.com/Resource_3 êèå ïî ñìûñëó ôðàãìåíòû òåêñòîâ â èíôîðìàöèîííî-ïîèñêîâûõ, ýêñïåðòíûõ, àíàëèòè÷åñêèõ èíôîðìàöèîííûõ ñèñòåìàõ øèðîêîãî íàçíà÷åíèÿ. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. Äîäîíîâ À.Ã., Ëàíäý Ä.Â., Ïóòÿòèí Â.Ã. Êîìïüþòåðíûå ñåòè è àíàëèòè÷åñêèå èññëåäîâàíèÿ. Êèåâ: ÈÏÐÈ ÍÀÍ Óêðàèíû, 2014. 486 ñ. 2. Êàñòåëüñ Ì. Èíôîðìàöèîííàÿ ýïîõà: ýêîíîìèêà, îáùåñòâî è êóëüòóðà. Ìîñêâà: ÃÓ-ÂØÝ, 2000. 606 ñ. 3. Õàéðîâà Í.Ô., Ïåòðàñîâà Ñ.Â. Èíôîðìàöèîííûå èíòåëëåêòóàëüíûå ñèñòåìû è ñåìàíòè÷åñêèé âåá: ó÷åáíîå ïîñîáèå. Õàðüêîâ: ÍÒÓ «ÕÏÈ», 2015. 169 ñ. 4. Arefyev N.V., Panchenko A.I., Lukanin A.V. et al. Evaluating three corpus-based semantic similarity systems for Russian. Êîìïüþòåðíàÿ ëèíãâèñòèêà è èíòåëëåêòóàëüíûå òåõíîëîãèè: ïî ìàòåðèàëàì åæåãîäíîé ìåæäóíàðîäíîé êîíôåðåíöèè «Äèàëîã» (Ìîñêâà, 27–30 ìàÿ 2015 ã.). ¹ 14(21):  2 ò. Ò. 2: Äîêëàäû ñïåöèàëüíûõ ñåêöèé. Ìîñêâà: Èçä-âî ÐÃÃÓ, 2015. C. 106–119. 5. Ñàëîìàòèíà Í.Â., Ãóñåâ Â.Ä., Èëüèíà Ë.Þ. Î âîçìîæíîñòÿõ àâòîìàòèçàöèè âûÿâëåíèÿ ñâÿçåé ìåæäó òåðìèíàìè ïðåäìåòíîé îáëàñòè (íà ïðèìåðå êàòàëèçà). Êîìïüþòåðíàÿ ëèíãâèñòèêà è èíòåëëåêòóàëüíûå òåõíîëîãèè: ïî ìàòåðèàëàì åæåãîäíîé ìåæäóíàðîäíîé êîíôåðåíöèè «Äèàëîã» (Áåêàñîâî, 26–30 ìàÿ 2010 ã.). ¹ 9(16). Ìîñêâà: Èçä-âî ÐÃÃÓ, 2010. Ñ. 430–436. 6. Hasegawa T., Sekine S., Grishman R. Discovering relations among named entities from large corpora. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL ‘04). Stroudsburg, PA, USA, 2004. Ð. 415–422. 7. Bunescu R., Mooney R. Learning to extract relations from the web using minimal supervision. Proceedings of the 45th Annual Meeting on Association for Computational Linguistics (ACL ‘07). Prague, Czech Republic, 2007. Ð. 576–583. 8. Culotta A., McCallum A., Betz J. Integrating probabilistic extraction models and data mining to discover relations and patterns in text. Proceedings of Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. New York, 2006. Ð. 296–303. 9. Nakov S. Automatic acquisition of synonyms using the web as a corpus. Proceedings of the 3rd Annual South-East European Doctoral Student Conference. 2008. Vol. 2. Ð. 216–229. 10. Hua Wu, Ming Zhou. Optimizing synonym extraction using monolingual and bilingual Re-sources. Proceedings of the Second International Workshop on Para-phrasing (PARAPHRASE ‘03). Stroudsburg, PA, USA, 2003. Vol. 16. Ð. 72–79. 11. Ìèñóíî È.Ñ., Ðà÷êîâñêèé Ä.À., Ñëèï÷åíêî Ñ.Â. Âåêòîðíûå è ðàñïðåäåëåííûå ïðåäñòàâëåíèÿ, îòðàæàþùèå ìåðó ñåìàíòè÷åñêîé ñâÿçè ñëîâ. Ìàòåìàòè÷åñêèå ìàøèíû è ñèñòåìû. 2005. ¹ 3. Ñ. 50–66. 12. Ìèòðîôàíîâà Î.À. Ñåìàíòè÷åñêèå ðàññòîÿíèÿ: ïðîáëåìû è ïåðñïåêòèâû. Ìàòåðèàëû ÕÕÕIV ìåæäóíàð. ôèëîë. êîíô. ÑÏáÃÓ, 2005. Ñ. 59–63. 13. Church K.W., Hanks P. Word association norms, mutual information, and lexicography. Computational Linguistics. 1990. Vol. 16, Iss. 1. P. 22–29. 14. Evert S., Krenn B. Methods for the qualitative evaluation of lexical association measures. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics (ACL ‘01). Stroudsburg, PA, USA, 2001. P. 188–195. 15. Çàõàðîâ Â.Ï., Õîõëîâà Ì.Â. Âûäåëåíèå òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé èç ñïåöèàëüíûõ òåêñòîâ íà îñíîâå ðàçëè÷íûõ ìåð àññîöèàöèè. Èíòåðíåò è ñîâðåìåííîå îáùåñòâî «IMS-2014». Ñ.-Ïåòåðáóðã: Óíèâåðñèòåò ÈÒÌÎ, 2014. Ñ. 290–293. 16. Akinina Y.S., Kuznetsov I.O., Toldova S.Y. The impact of syntactic structure on verb-noun collocation extraction. Êîìïüþòåðíàÿ ëèíãâèñòèêà è èíòåëëåêòóàëüíûå òåõíîëîãèè: ïî ìàòå- ðèàëàì åæåãîäíîé ìåæäóíàðîäíîé êîíôåðåíöèè «Äèàëîã» (Áåêàñîâî, 29 ìàÿ–2 èþíÿ 2013 ã.). ¹ 12(19):  2 ò. Ò. 1: Îñíîâíàÿ ïðîãðàììà êîíôåðåíöèè. Ìîñêâà: Èçä-âî ÐÃÃÓ, 2013. Ñ. 2–17. 17. Hua Wu, Ming Zhou. Synonymous collocation extraction using translation information. Proceedings of the 41th Annual Meeting on Association for Computational Linguistics (ACL ‘03). Stroudsburg, PA, USA, 2003. Vol. 1. P. 120–127. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 143 18. Marius P., P�ter D. Aligning needles in a haystack: Paraphrase acquisition across the web. Proceedings of the Second International Joint Conference: Natural Language Processing (IJCNLP 2005). Jeju Island, Korea, 2005. P. 119–130. 19. Barzilay R., McKeown Kathleen R. Extracting paraphrases from a parallel corpus. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics (ACL’01). Stroudsburg, PA, USA, 2001. P. 50–57. 20. Khairova N., Petrasova S., Gautam A.P.S. The logical and linguistic model for automatic extraction of collocation similarity. Econtechmod: An International Quarterly Journal on Economics in Technology, New Technologies and Modelling Processes. Lublin; Rzeszow, 2015. Vol. 4, N 4. P. 43–48. 21. Õàéðîâà Í.Ô., Ïåòðàñîâà Ñ.Â., Ëåíêîâ Ñ.Â. Ìåòîä àâòîìàòè÷åñêîé èäåíòèôèêàöèè ñåìàíòè- ÷åñêèõ êîððåëÿöèé òåðìèíîâ ãëîññàðèÿ. Çá³ðíèê íàóê. ïðàöü ³éñüêîâîãî ³í-òó Êè¿â. íàö. óí-òó ³ì. Òàðàñà Øåâ÷åíêà. 2014. Âèï. 46. Ñ. 222–228. 22. ϳâíÿê Ã.Ã., Áóñèã³í Á.Ñ., ijâ³ç³íþê Ì.Ì. òà ³í. Òëóìà÷íèé ñëîâíèê ç ³íôîðìàòèêè. Äîíåöüê: Íàö. ã³ðíè÷. óí-ò, 2010. 600 ñ. 23. Breslin J.G., Harth A., Bojars U., Decker S. Towards semantically-interlinked online communities. Proceedings of the Second European Conference on the Semantic Web: Research and Applications. Berlin; Heidelberg: Springer-Verlag, 2005. Ð. 500–514. Íàä³éøëà äî ðåäàêö³¿ 15.06.2016 Ñ.Â. Ïåòðàñîâà, Í.Ô. Õàéðîâà ÂÈÊÎÐÈÑÒÀÍÍß ÒÅÕÍÎËÎò¯ ²ÄÅÍÒÈÔ²ÊÀÖ²¯ ÑÅÌÀÍÒÈ×ÍÎ ÇÂ’ßÇÍÈÕ ÅËÅÌÅÍҲ ÒÅÊÑÒÓ ÄËß ÂÈÇÍÀ×ÅÍÍß ªÄÈÍÎÃÎ ²ÍÔÎÐÌÀÖ²ÉÍÎÃÎ ÏÐÎÑÒÎÐÓ Àíîòàö³ÿ. Çàïðîïîíîâàíà òåõíîëîã³ÿ äîçâîëÿº âèçíà÷àòè ºäèíèé ³íôîð- ìàö³éíèé ïðîñò³ð àêòîð³â ñîö³àëüíèõ ìåðåæ çà ðàõóíîê ³äåíòèô³êàö³¿ ñåìàí- òè÷íî¿ åêâ³âàëåíòíîñò³ êîëîêàö³é ó òåêñòàõ. Òåõíîëîã³ÿ âêëþ÷ຠìîäåëü ôîðìàëüíîãî îïèñó ñåìàíòèêî-ãðàìàòè÷íèõ õàðàêòåðèñòèê êîëîêàò³â, ³äåí- òèô³êàö³þ êîëîêàö³é òà âèçíà÷åííÿ ïðåäèêàòà ñåìàíòè÷íî¿ åêâ³âàëåíòíîñò³ äâîñë³âíèõ êîëîêàö³é. Êëþ÷îâ³ ñëîâà: ñåìàíòè÷íà çâ’ÿçí³ñòü, ³íôîðìàö³éíèé ïðîñò³ð, ñåìàíòè- êî-ãðàìàòè÷í³ õàðàêòåðèñòèêè, ïðåäèêàò ñåìàíòè÷íî¿ ýêâ³âàëåíòíîñò³, êîëî- êàò, êîëîêàö³ÿ. S.V. Petrasova, N.F. Khairova USING SEMANTICALLY SIMILAR TEXT ELEMENTS IDENTIFICATION TECHNOLOGY TO DETERMINE A COMMON INFORMATION SPACE Abstract. The proposed technology allows determining a common information space of social network actors by identifying the semantic equivalence of collocations in texts. The technology includes the model of formal description of the semantic and grammatical characteristics of collocates, identification of collocations, and determination of a semantic equivalence predicate of two-word collocations. Keywords: semantic similarity, information space, semantic and grammatical characteristics, semantic equivalence predicate, collocate, collocation. Ïåòðàñîâà Ñâåòëàíà Âàëåíòèíîâíà, àñïèðàíòêà Íàöèîíàëüíîãî òåõíè÷åñêîãî óíèâåðñèòåòà «Õàðüêîâñêèé ïîëèòåõíè÷åñêèé èíñòèòóò», e-mail: svetapetrasova@gmail.com. Õàéðîâà Íèíà Ôåëèêñîâíà, äîêòîð òåõí. íàóê, ïðîôåññîð Íàöèîíàëüíîãî òåõíè÷åñêîãî óíèâåðñèòåòà «Õàðüêîâñêèé ïîëèòåõ- íè÷åñêèé èíñòèòóò», e-mail: nina_khajrova@yahoo.com. 144 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1