Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства
Запропонована технологія дозволяє визначати єдиний інформаційний простір акторів соціальних мереж за рахунок ідентифікації семантичної еквівалентності колокацій у текстах. Технологія включає модель формального опису семантико-граматичних характеристик колокатів, ідентифікацію колокацій та визначення...
Gespeichert in:
| Datum: | 2017 |
|---|---|
| Hauptverfasser: | , |
| Format: | Artikel |
| Sprache: | Russian |
| Veröffentlicht: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2017
|
| Schriftenreihe: | Кибернетика и системный анализ |
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/144691 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства / С.В. Петрасова, Н.Ф. Хайрова // Кибернетика и системный анализ. — 2017. — Т. 53, № 1. — С. 134-144. — Бібліогр.: 23 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-144691 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-1446912025-02-23T17:48:30Z Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства Використання технології ідентифікації семантично зв’язних елементів тексту для визначення єдиного інформаційного простору Using semantically similar text elements identification technology to determine a common information space Петрасова, С.В. Хайрова, Н.Ф. Програмно-технічні комплекси Запропонована технологія дозволяє визначати єдиний інформаційний простір акторів соціальних мереж за рахунок ідентифікації семантичної еквівалентності колокацій у текстах. Технологія включає модель формального опису семантико-граматичних характеристик колокатів, ідентифікацію колокацій та визначення предиката семантичної еквівалентності двослівних колокацій. Предложенная технология позволяет определять единое информационное пространство акторов социальных сетей за счет идентификации семантической эквивалентности коллокаций в текстах. Технология включает модель формального описания семантико-грамматических характеристик коллокатов, идентификацию коллокаций и определение предиката семантической эквивалентности двухсловных коллокаций. The proposed technology allows determining a common information space of social network actors by identifying the semantic equivalence of collocations in texts. The technology includes the model of formal description of the semantic and grammatical characteristics of collocates, identification of collocations, and determination of a semantic equivalence predicate of two-word collocations. 2017 Article Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства / С.В. Петрасова, Н.Ф. Хайрова // Кибернетика и системный анализ. — 2017. — Т. 53, № 1. — С. 134-144. — Бібліогр.: 23 назв. — рос. 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/144691 004.912 ru Кибернетика и системный анализ application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Програмно-технічні комплекси Програмно-технічні комплекси |
| spellingShingle |
Програмно-технічні комплекси Програмно-технічні комплекси Петрасова, С.В. Хайрова, Н.Ф. Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства Кибернетика и системный анализ |
| description |
Запропонована технологія дозволяє визначати єдиний інформаційний простір акторів соціальних мереж за рахунок ідентифікації семантичної еквівалентності колокацій у текстах. Технологія включає модель формального опису семантико-граматичних характеристик колокатів, ідентифікацію колокацій та визначення предиката семантичної еквівалентності двослівних колокацій. |
| format |
Article |
| author |
Петрасова, С.В. Хайрова, Н.Ф. |
| author_facet |
Петрасова, С.В. Хайрова, Н.Ф. |
| author_sort |
Петрасова, С.В. |
| title |
Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства |
| title_short |
Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства |
| title_full |
Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства |
| title_fullStr |
Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства |
| title_full_unstemmed |
Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства |
| title_sort |
использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| publishDate |
2017 |
| topic_facet |
Програмно-технічні комплекси |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/144691 |
| citation_txt |
Использование технологии идентификации семантически связных элементов текста для определения единого информационного пространства / С.В. Петрасова, Н.Ф. Хайрова // Кибернетика и системный анализ. — 2017. — Т. 53, № 1. — С. 134-144. — Бібліогр.: 23 назв. — рос. |
| series |
Кибернетика и системный анализ |
| work_keys_str_mv |
AT petrasovasv ispolʹzovanietehnologiiidentifikaciisemantičeskisvâznyhélementovtekstadlâopredeleniâedinogoinformacionnogoprostranstva AT hajrovanf ispolʹzovanietehnologiiidentifikaciisemantičeskisvâznyhélementovtekstadlâopredeleniâedinogoinformacionnogoprostranstva AT petrasovasv vikoristannâtehnologííídentifíkacíísemantičnozvâznihelementívtekstudlâviznačennâêdinogoínformacíjnogoprostoru AT hajrovanf vikoristannâtehnologííídentifíkacíísemantičnozvâznihelementívtekstudlâviznačennâêdinogoínformacíjnogoprostoru AT petrasovasv usingsemanticallysimilartextelementsidentificationtechnologytodetermineacommoninformationspace AT hajrovanf usingsemanticallysimilartextelementsidentificationtechnologytodetermineacommoninformationspace |
| first_indexed |
2025-11-24T04:37:23Z |
| last_indexed |
2025-11-24T04:37:23Z |
| _version_ |
1849645118181605376 |
| fulltext |
ÓÄÊ 004.912
Ñ.Â. ÏÅÒÐÀÑÎÂÀ, Í.Ô. ÕÀÉÐÎÂÀ
ÈÑÏÎËÜÇÎÂÀÍÈÅ ÒÅÕÍÎËÎÃÈÈ ÈÄÅÍÒÈÔÈÊÀÖÈÈ ÑÅÌÀÍÒÈ×ÅÑÊÈ
ÑÂßÇÍÛÕ ÝËÅÌÅÍÒΠÒÅÊÑÒÀ ÄËß ÎÏÐÅÄÅËÅÍÈß ÅÄÈÍÎÃÎ
ÈÍÔÎÐÌÀÖÈÎÍÍÎÃÎ ÏÐÎÑÒÐÀÍÑÒÂÀ
Àííîòàöèÿ. Ïðåäëîæåííàÿ òåõíîëîãèÿ ïîçâîëÿåò îïðåäåëÿòü åäèíîå èíôîð-
ìàöèîííîå ïðîñòðàíñòâî àêòîðîâ ñîöèàëüíûõ ñåòåé çà ñ÷åò èäåíòèôèêàöèè
ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè êîëëîêàöèé â òåêñòàõ. Òåõíîëîãèÿ âêëþ÷àåò
ìîäåëü ôîðìàëüíîãî îïèñàíèÿ ñåìàíòèêî-ãðàììàòè÷åñêèõ õàðàêòåðèñòèê
êîëëîêàòîâ, èäåíòèôèêàöèþ êîëëîêàöèé è îïðåäåëåíèå ïðåäèêàòà ñåìàíòè-
÷åñêîé ýêâèâàëåíòíîñòè äâóõñëîâíûõ êîëëîêàöèé.
Êëþ÷åâûå ñëîâà: ñåìàíòè÷åñêàÿ ñâÿçíîñòü, èíôîðìàöèîííîå ïðîñòðàíñòâî,
ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè, ïðåäèêàò ñåìàíòè÷åñêîé ýêâèâà-
ëåíòíîñòè, êîëëîêàò, êîëëîêàöèÿ.
ÂÂÅÄÅÍÈÅ
Âàæíûì àñïåêòîì ôîðìèðîâàíèÿ èíôîðìàöèîííîãî ïðîñòðàíñòâà ñòàíîâÿòñÿ ñî-
öèàëüíûå ñåòè, ôîðóìû, áëîãè, ïðåäñòàâëÿþùèå áàçîâûå îáúåêòû ñîâðåìåííîãî
èíôîðìàöèîííîãî îáùåñòâà. Óñòàíîâëåíèå è ðàçâèòèå ñîöèàëüíûõ ñâÿçåé â èí-
ôîðìàöèîííîì îáùåñòâå ÿâëÿåòñÿ îáúåêòèâíûì ôàêòîðîì, ïðàêòè÷åñêè íå çàâè-
ñÿùèì îò ëè÷íûõ õàðàêòåðèñòèê èíäèâèäà. Ðàçíûå âèäû êîíòàêòîâ (ïðîñòðàí-
ñòâåííûå, ñîöèàëüíûå, èíôîðìàöèîííûå) ÿâëÿþòñÿ îäíîâðåìåííî è êîìïîíåí-
òàìè ñîöèàëüíûõ ñâÿçåé, è ýòàïàìè èõ ôîðìèðîâàíèÿ.
Ãëîáàëüíûå èíôîðìàöèîííûå ñåòè ñòàëè ñðåäîé è èíñòðóìåíòîì ôîðìèðîâà-
íèÿ èíôîðìàöèîííûõ ïðîñòðàíñòâ îòäåëüíûõ ïåðñîíàëèé è óñòîé÷èâûõ ñîöèàëü-
íûõ ãðóïï, îáðàçîâàâøèõñÿ íà îñíîâå âçàèìíûõ èíòåðåñîâ.  îáùåì ñëó÷àå èí-
ôîðìàöèîííîå ïðîñòðàíñòâî ïðåäñòàâëÿåò ñîáîé ïðîäóêò èíòåëëåêòóàëüíîé äåÿ-
òåëüíîñòè ÷åëîâåêà, îáúåäèíÿþùåé èíôîðìàöèîííûå ðåñóðñû, òåõíîëîãèè èõ
ñîïðîâîæäåíèÿ è èñïîëüçîâàíèÿ, ôóíêöèîíèðóþùèå íà îñíîâå åäèíûõ ïðèíöè-
ïîâ, â öåëÿõ óäîâëåòâîðåíèÿ èíôîðìàöèîííîé ïîòðåáíîñòè ïîëüçîâàòåëåé [1].
Ïðè ýòîì îñíîâíîé îöåíêîé èíôîðìàöèîííîãî ñîöèóìà â íàñòîÿùåå âðåìÿ ñòà-
íîâèòñÿ íå ïðîñòî èíôîðìàöèÿ, à ýôôåêòèâíàÿ êîììóíèêàöèÿ [2], îñóùåñòâëÿå-
ìàÿ ÷åðåç óñòàíîâëåíèå åäèíûõ èíôîðìàöèîííûõ ïðîñòðàíñòâ àêòîðîâ — ñóáú-
åêòîâ (èíäèâèäóóìîâ, ñîöèàëüíûõ ãðóïï, îðãàíèçàöèé, èíñòèòóòîâ), ñîâåðøàþ-
ùèõ äåéñòâèÿ, íàïðàâëåííûå íà äðóãèå àêòîðû. Óñòàíîâëåíèå òàêèõ ïðîñòðàíñòâ
èìååò ðåàëüíóþ êîììåð÷åñêóþ è ñîöèàëüíóþ öåííîñòü, íàïðèìåð, â âèäå
ðàçðàáîòêè ðåêëàìû äëÿ öåëåâîé àóäèòîðèè.
 ñâÿçè ñ ïîñòîÿííûìè èçìåíåíèÿìè èíôîðìàöèîííîãî ñîîáùåñòâà óíèâåð-
ñàëüíîñòü è íåîäíîðîäíîñòü èíôîðìàöèîííîãî ïðîñòðàíñòâà ïîïîëíÿåòñÿ íå-
ïðåðûâíîé äèíàìè÷íîñòüþ. Ïîýòîìó äëÿ àäåêâàòíîãî ôîðìèðîâàíèÿ èíôîðìà-
öèîííûõ ïðîñòðàíñòâ ñîöèàëüíûõ ñîîáùåñòâ íåîáõîäèìî ïîâûñèòü óðîâåíü àâ-
òîìàòèçàöèè îáðàáîòêè òåêñòîâ, â òîì ÷èñëå çà ñ÷åò ðåøåíèÿ çàäà÷
ñåìàíòè÷åñêîé îáðàáîòêè ðåñóðñîâ, ïðåäñòàâëÿþùèõ îïðåäåëåííóþ èíôîðìà-
öèþ èíäèâèäóàëüíûõ àêòîðîâ [3]. Òàêîé òåêñòîâîé èíôîðìàöèåé, íàïðèìåð, ÿâ-
ëÿåòñÿ ïåðñîíàëüíàÿ èíôîðìàöèÿ èíäèâèäóóìà îòíîñèòåëüíî îáëàñòåé èíòåðå-
ñîâ, èìåþùèõñÿ êîíòàêòîâ, âîñòðåáîâàííûõ òåìàõ, îòìå÷àåìûõ â áëîãàõ è ôîðó-
ìàõ ñîîáùåíèÿõ. Îïðåäåëåíèå íåêîòîðîé ýêâèâàëåíòíîñòè è òîæäåñòâåííîñòè
òåêñòîâîé èíôîðìàöèè àêòîðîâ, îñóùåñòâëÿåìîå çà ñ÷åò ïîäõîäîâ Natural
Language Processing, ïîçâîëÿåò âûäåëÿòü åäèíûå èíôîðìàöèîííûå ïðîñòðàíñòâà
134 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1
© Ñ.Â. Ïåòðàñîâà, Í.Ô. Õàéðîâà, 2017
îïðåäåëåííûõ ñîöèàëüíûõ ãðóïï, îñíîâàííûõ íà èäåíòè÷íîñòè çíàíèé, îáðàçî-
âàíèÿ, âîçðàñòà, ïðåñòèæíîñòè, áîãàòñòâà, ðàñû, ïîëà è ò.ä.
ÀÍÀËÈÇ ËÈÒÅÐÀÒÓÐÍÛÕ ÄÀÍÍÛÕ
 îáùåì ñëó÷àå äëÿ ðåøåíèÿ çàäà÷ ñåìàíòè÷åñêîãî àíàëèçà òåêñòà èñïîëüçó-
þò ëåêñèêî-ñèíòàêñè÷åñêèå øàáëîíû; N -ãðàììû [4]; òåðìèíîëîãè÷åñêèå øàá-
ëîíû; èíäèêàòîðû ñâÿçè è ïðîôèëè êëàñòåðèçóåìîñòè [5]; øàáëîíû ïàð îáúåê-
òîâ â ñåãìåíòå òåêñòà [6]; ìåòîäû îïîðíûõ âåêòîðîâ, îñíàùåííûå ÿçûêîâûìè
îðèåíòèðîâàííûìè ÿäðàìè [7]; óñëîâíûå ñëó÷àéíûå ïîëÿ [8] è äð.
 òî æå âðåìÿ ïîäõîäû ê ðåøåíèþ çàäà÷è âûäåëåíèÿ ýêâèâàëåíòíûõ èëè
áëèçêèõ ïî ñìûñëó (òîæäåñòâåííûõ) ëèíãâèñòè÷åñêèõ ýëåìåíòîâ â òåêñòå ðàçíÿòñÿ
â çàâèñèìîñòè îò óðîâíÿ òàêèõ ýëåìåíòîâ, â ÷àñòíîñòè ñëîâ èëè ñëîâîñî÷åòàíèé
(êîëëîêàöèé). Ïðè ýòîì åñëè äëÿ îïðåäåëåíèÿ ñèíîíèìè÷íîñòè ñëîâ ñóùåñòâóåò
äîñòàòî÷íîå êîëè÷åñòâî èññëåäîâàíèé [9–12], òî çàäà÷à âûÿâëåíèÿ ñìûñëîâîé
áëèçîñòè êîëëîêàöèé, âêëþ÷àþùàÿ èäåíòèôèêàöèþ êîëëîêàöèé è îïðåäåëåíèå èõ
ñèíîíèìèè, ÿâëÿåòñÿ äîñòàòî÷íî íåòðèâèàëüíîé è íà ñåãîäíÿ íå èìååò ýôôåêòèâ-
íîãî ðåøåíèÿ. Â äàííîì êîíòåêñòå ïîä êîëëîêàöèåé ïîíèìàåì êîìáèíàöèþ äâóõ
ñëîâ, èìåþùèõ òåíäåíöèþ ê ñîâìåñòíîé íå ñëó÷àéíîé ïîÿâëÿåìîñòè â òåêñòå ëåê-
ñè÷åñêîé åäèíèöû ñ ïðèçíàêàìè ñèíòàêñè÷åñêîé è ñåìàíòè÷åñêîé öåëîñòíîñòè.
Áîëüøèíñòâî ðàçðàáîòàííûõ â íàñòîÿùåå âðåìÿ ìåòîäîâ èäåíòèôèêàöèè êîë-
ëîêàöèé â òåêñòå áàçèðóåòñÿ íà âûÿâëåíèè ñèíòàãìàòè÷åñêèõ îòíîøåíèé â åñòå-
ñòâåííîì ÿçûêå. Â ýòîì íàïðàâëåíèè ñóùåñòâóþò äâà îñíîâíûõ ïîäõîäà: ñòàòèñ-
òè÷åñêèé ïîäõîä (window-based [13], ìåðû àññîöèàöèè MI, PMI [14], t-scores,
Chi-squared ðàñïðåäåëåíèå [15]) è ïîäõîä, îñíîâàííûé íà àíàëèçå ñèíòàêñè÷åñêîé
ñòðóêòóðû êîëëîêàöèé [16].
Íà ýòàïå îïðåäåëåíèÿ ñìûñëîâîé áëèçîñòè ñëîâîñî÷åòàíèé òàêæå ó÷èòûâàþò-
ñÿ ëèáî ñòàòèñòè÷åñêèå çàêîíîìåðíîñòè, ëèáî îïðåäåëÿþòñÿ èõ ñèíòàêñè÷åñêèå
õàðàêòåðèñòèêè. Ïðè ýòîì ÷àñòî ñåìàíòè÷åñêàÿ èíôîðìàöèÿ (ëåêñè÷åñêàÿ èíôîð-
ìàöèÿ ñëîâ) íå ó÷èòûâàåòñÿ èëè äîïîëíèòåëüíî ïðèâëåêàþòñÿ òåçàóðóñû. Íàèáî-
ëåå ðàçðàáîòàííûìè ìåòîäàìè îïðåäåëåíèÿ ñìûñëîâîé áëèçîñòè ñëîâîñî÷åòàíèé
ÿâëÿþòñÿ âûäåëåíèå ñèíîíèìè÷åñêèõ êîëëîêàöèé â ðåçóëüòàòå ñðàâíåíèÿ èõ ïåðå-
âîäîâ [17]; âûÿâëåíèå ïåðåôðàçèðîâàíèé çà ñ÷åò ïîäîáèÿ ôðàãìåíòîâ ôðàç [18];
îïðåäåëåíèå ñõîäñòâà êîíòåêñòà íà áàçå àíàëèçà êîðïóñîâ ïàðàëëåëüíûõ ïåðåâî-
äîâ [19].
Âñå ïåðå÷èñëåííûå ïîäõîäû ðàáîòàþò ëèáî íà òåêñòàõ äîñòàòî÷íî óçêèõ
ïðåäìåòíûõ îáëàñòåé, ëèáî (ïðè ñòàòèñòè÷åñêèõ ïîäõîäàõ) èìåþò äîñòàòî÷íî
íèçêóþ òî÷íîñòü îïðåäåëåíèÿ ýêâèâàëåíòíûõ ñëîâîñî÷åòàíèé. Îáà íåäîñòàòêà
íå ïîçâîëÿþò èñïîëüçîâàòü äàííûå ïîäõîäû ïðè âûäåëåíèè åäèíûõ èíôîðìàöè-
îííûõ ïðîñòðàíñòâ ñîöèàëüíûõ ãðóïï èíôîðìàöèîííûõ ñåòåé.
ÏÎÑÒÀÍÎÂÊÀ ÇÀÄÀ×È ÈÑÑËÅÄÎÂÀÍÈß
Öåëüþ íàñòîÿùåé ñòàòüè ÿâëÿåòñÿ ðàçðàáîòêà òåõíîëîãèè, ïîçâîëÿþùåé èñ-
ïîëüçîâàòü ñìûñëîâóþ ýêâèâàëåíòíîñòü ëèíãâèñòè÷åñêèõ åäèíèö äëÿ îïðåäå-
ëåíèÿ ñåìàíòè÷åñêîé ñâÿçíîñòè äàííûõ â òåêñòîâîì èíôîðìàöèîííîì ïðî-
ñòðàíñòâå. Ïðè ýòîì àíàëèç ïîêàçûâàåò, ÷òî ðàññìîòðåíèå òîëüêî ñèíîíèìèè
ñëîâ íåäîñòàòî÷íî, íåîáõîäèìî óñòàíîâèòü ôîðìàëüíûå ïðèçíàêè ñåìàíòè÷åñ-
êèõ ñâÿçåé åäèíèö áîëåå âûñîêîãî óðîâíÿ ëèíãâèñòè÷åñêîé ñèñòåìû — ñëîâî-
ñî÷åòàíèé èëè êîëëîêàöèé.
 äàííîé ðàáîòå ïðåäëàãàåòñÿ òåõíîëîãèÿ îïðåäåëåíèÿ ñåìàíòè÷åñêè ñâÿçíûõ
ýëåìåíòîâ òåêñòà, èñïîëüçóþùàÿ ëîãèêî-ëèíãâèñòè÷åñêóþ ìîäåëü èäåíòèôèêàöèè
ýêâèâàëåíòíûõ êîëëîêàöèé [20]. Ìîäåëü áàçèðóåòñÿ íà èíñòðóìåíòàðèè êîìïî-
íåíòíîãî àíàëèçà è àïïàðàòå àëãåáðû êîíå÷íûõ ïðåäèêàòîâ. Çäåñü ðàññìàòðèâàþò-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 135
ñÿ ñóáñòàíòèâíûå, àäúåêòèâíûå è ãëàãîëüíûå òèïû êîëëîêàöèé óêðàèíñêîãî ÿçû-
êà. Ñóáñòàíòèâíûå êîëëîêàöèè ïðåäñòàâëåíû äâóìÿ ñâÿçíûìè ñóùåñòâèòåëüíûìè.
 àäúåêòèâíûõ êîëëîêàöèÿõ ãëàâíûì ñëîâîì âûñòóïàåò ñóùåñòâèòåëüíîå, à çàâè-
ñèìûì ñëîâîì — ïðèëàãàòåëüíîå. Ãëàãîëüíûå êîëëîêàöèè ïðåäñòàâëåíû ãëàãîëîì
(ãëàâíûé êîëëîêàò) è ñóùåñòâèòåëüíûì (çàâèñèìûé êîëëîêàò).
ÎÏÈÑÀÍÈÅ ÒÅÕÍÎËÎÃÈÈ ÈÄÅÍÒÈÔÈÊÀÖÈÈ ÑÅÌÀÍÒÈ×ÅÑÊÈ ÑÂßÇÍÛÕ
ÝËÅÌÅÍÒÎÂ ÒÅÊÑÒÀ
Ïðåäëàãàåìàÿ òåõíîëîãèÿ àâòîìàòè÷åñêîé èäåíòèôèêàöèè ñåìàíòè÷åñêè ñâÿç-
íûõ äàííûõ âêëþ÷àåò ñëåäóþùèå ýòàïû: 1) âûäåëåíèå ñåìàíòèêî-ãðàììàòè-
÷åñêèõ õàðàêòåðèñòèê êîëëîêàòîâ — ñëîâ, êîòîðûå ïîòåíöèàëüíî ìîãóò ÿâ-
ëÿòüñÿ ýëåìåíòàìè ñóáñòàíòèâíûõ, àäúåêòèâíûõ è ãëàãîëüíûõ ñëîâîñî÷åòàíèé;
2) èäåíòèôèêàöèÿ êîëëîêàöèé — ñëîâîñî÷åòàíèé, îáðàçîâàííûõ äâóìÿ ðÿäîì
ñòîÿùèìè ñëîâîôîðìàìè; 3) îïðåäåëåíèå ñèíîíèìè÷íûõ êîëëîêàòîâ — ñëîâ,
áëèçêèõ ïî ñìûñëó, îáðàçóþùèõ ñëîâîñî÷åòàíèÿ; 4) èäåíòèôèêàöèÿ ñåìàíòè-
÷åñêîé ýêâèâàëåíòíîñòè äâóõñëîâíûõ êîëëîêàöèé — ñëîâîñî÷åòàíèé, èìåþ-
ùèõ îáùèå ýëåìåíòû ñìûñëà.
Âûäåëåíèå ñåìàíòèêî-ãðàììàòè÷åñêèõ õàðàêòåðèñòèê êîëëîêàòîâ. Íà
ïåðâîì ýòàïå âûðàçèì ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè ïîòåíöèàëü-
íûõ êîëëîêàòîâ â âèäå ïàðàäèãìàòè÷åñêîé òàáëèöû (òàáë. 1), ñâÿçûâàþùåé õà-
ðàêòåðèñòèêè ñëîâ ñ âîçìîæíîé èõ ðîëüþ â ñóáñòàíòèâíûõ, àäúåêòèâíûõ è ãëà-
ãîëüíûõ ñëîâîñî÷åòàíèÿõ. Çäåñü x îïðåäåëÿåò ãëàâíîå, à y — çàâèñèìîå ñëîâà
ñëîâîñî÷åòàíèé, ãäå òèï êîëëîêàöèè x y1 1 — ñóáñòàíòèâíûé, x y2 2 — àäúåêòèâ-
íûé, x y3 3 — ãëàãîëüíûé, c îïðåäåëÿåò ñåìàíòè÷åñêèé õàðàêòåð, a — ãðàììàòè-
÷åñêèé õàðàêòåð.
Äëÿ îïèñàíèÿ ñåìàíòè÷åñêèõ è ãðàììàòè÷åñêèõ îòíîøåíèé ââîäÿòñÿ ïðåä-
ìåòíûå ïåðåìåííûå à1, à2 , à3 , ñ:
� ïðåäìåòíàÿ ïåðåìåííàÿ a1 îïðåäåëÿåò ÷àñòü ðå÷è (N — ñóùåñòâèòåëüíîå,
A — ïðèëàãàòåëüíîå, V — ãëàãîë);
� ïðåäìåòíàÿ ïåðåìåííàÿ a2 îïðåäåëÿåò ïàäåæ ñóùåñòâèòåëüíûõ N è ïðè-
ëàãàòåëüíûõ A (Nom — èìåíèòåëüíûé ïàäåæ, Gen — ðîäèòåëüíûé ïàäåæ, Acc —
âèíèòåëüíûé ïàäåæ, Dat — äàòåëüíûé ïàäåæ, In — òâîðèòåëüíûé ïàäåæ, Prt —
ïðåäëîæíûé ïàäåæ);
� ïðåäìåòíàÿ ïåðåìåííàÿ a3 îïðåäåëÿåò âîçâðàòíîñòü ãëàãîëà V (Ref — âîç-
âðàòíûé ãëàãîë, NonRef — íåâîçâðàòíûé ãëàãîë);
� ïðåäìåòíàÿ ïåðåìåííàÿ ñ îïðåäåëÿåò âîçìîæíûå ñåìàíòè÷åñêèå ðîëè ñëîâ-
ñóùåñòâèòåëüíûõ N ; çíà÷åíèÿ ñ ïðåäñòàâëåíû â ïåðâîì ñòîëáöå òàáëèöû (Ag —
àãåíñ, Att — àòðèáóò, Pac — ïàöèåíñ, Adr — àäðåñàò, Ins — èíñòðóìåíò, M —
ìåñòî).
136 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1
Ò à á ë è ö à 1
c a
x1 y1 y2 x2 x3 y3
N N A N
V
N
Ref NonRef
Ag Nom q1 q12 q18
q24 q25
Att Gen q2 q7 q13 q19 q26
Pac Acc q3 q8 q14 q20 q27
Adr Dat q4 q9 q15 q21 q28
Ins In q5 q10 q16 q22 q29
M Prt q6 q11 q17 q23 q30
Ôîðìàëüíûìè íîìåðàìè ÿ÷ååê q �1 30, ïàðàäèãìàòè÷åñêîé òàáëèöû îáîçíà-
÷àþòñÿ âîçìîæíûå ñîãëàñîâàííûå çíà÷åíèÿ ãðàììàòè÷åñêèõ è ñåìàíòè÷åñêèõ õà-
ðàêòåðèñòèê ñëîâ (ïîòåíöèàëüíûõ êîëëîêàòîâ):
q a a cN Nom Ag1
1 2
� ; q a a cN Gen Att2
1 2
� ; q a a cN Acc Pac3
1 2
� ; q a a cN Dat Adr4
1 2
� ;
q a a cN In Ins5
1 2
� ; q a a cN Prt M6
1 2
� ; q a a cN Gen Att7
1 2
� ; q a a cN Acc Pac8
1 2
� ;
q a a cN Dat Adr9
1 2
� ; q a a cN In Ins10
1 2
� ; q a a cN Prt M11
1 2
� ; q a aA Nom12
1 2
� ;
q a aA Gen13
1 2
� ; q a aA Acc14
1 2
� ; q a aA Dat15
1 2
� ; q a aN In16
1 2
� ; q a aA Prt17
1 2
� ;
(1)
q a a cN Nom Ag18
1 2
� ; q a a cN Gen Att19
1 2
� ; q a a cN Acc Pac20
1 2
� ;
q a a cN Dat Adr21
1 2
� ; q a a cN In Ins22
1 2
� ; q a a cN Prt M23
1 2
� ; q a aV Ref24
1 3
� ;
q a aV NonRef25
1 3
� ; q a a cN Gen Att26
1 2
� ; q a a cN Acc Pac27
1 2
� ;
q a a cN Dat Adr28
1 2
� ; q a a cN In Ins29
1 2
� ; q a a cN Prt M30
1 2
� .
Âûïîëíÿÿ îïåðàöèþ ïî÷ëåííîé êîíúþíêöèè, ìîæíî âûÿâèòü ïîâòîðíûå
ýëåìåíòû ìíîæåñòâà q:
a a c q qN Nom Ag
1 2
1 18
� � ; a a c q q q qN Gen Att
1 2
2 7 19 26
� � � � ;
a a c q q q qN Acc Pac
1 2
3 8 20 27
� � � � ; a a c q q q qN Dat Adr
1 2
4 9 21 28
� � � � ;
a a c q q q qN In Ins
1 2
5 10 22 29
� � � � ; a a c q q q qN Prt M
1 2
6 11 23 30
� � � � ;
a a qA Nom
1 2
12
� ; a a qA Gen
1 2
13
� ; a a qA Acc
1 2
14
� ; a a qA Dat
1 2
15
� ;
a a qA In
1 2
16
� ; a a qA Prt
1 2
17
� ; a a qV Ref
1 3
24
� ; a a qV NonRef
1 3
25
� .
Óïðîùàÿ ìíîæåñòâî óðàâíåíèé (1), ïåðåîïðåäåëÿåì ïåðåìåííóþ q ,
çàäåéñòâóÿ ïåðåìåííóþ r:
r q q1 1 18
� � ; r q q q q2 2 7 19 26
� � � � ; r q q q q3 3 8 20 27
� � � � ;
r q q q q4 4 9 21 28
� � � � ; r q q q q5 5 10 22 29
� � � � ;
r q q q q6 6 11 23 30
� � � � ; r q7 12
� ; r q8 13
� ;
r q9 14
� ; r q10 15
� ; r q11 16
� ; r q12 17
� ; r q13 24
� ; r q14 25
� .
Òîãäà ïàðàäèãìàòè÷åñêóþ òàáë. 1 ìîæíî ïåðåïèñàòü â óïðîùåííîì íîðìàëè-
çîâàííîì âèäå (òàáë. 2). Ïåðåïèøåì ñèñòåìó óðàâíåíèé (1) ñ ó÷åòîì çàâèñè-
ìîñòè ïåðåìåííîé r îò ïðåäìåòíûõ ïåðåìåííûõ, âûðàæàþùèõ ñåìàíòèêî-
ãðàììàòè÷åñêèå õàðàêòåðèñòèêè a1, a2 , a3 , ñ:
r a a cN Nom Ag1
1 2
� ; r a a cN Gen Att2
1 2
� ; r a a cN Acc Pac3
1 2
� ; r a a cN Dat Adr4
1 2
� ;
r a a cN In Ins5
1 2
� ; r a a cN Prt M6
1 2
� ; r a aA Nom7
1 2
� ; r a aA Gen8
1 2
� ; r a aA Acc9
1 2
� ,
r a aA Dat10
1 2
� ; r a aA In11
1 2
� ; r a aA Prt12
1 2
� ; r a aV Ref13
1 3
� ; r a aV NonRef14
1 3
� .
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 137
Ââîäèìîå áèíàðíîå îòíîøåíèå Ð ïîçâîëÿåò ñâÿçàòü ïåðåìåííóþ r ñ ïðåä-
ìåòíûìè ïåðåìåííûìè a1, a2 , a3 , ñ.
Áèíàðíûé ïðåäèêàò P1 ñâÿçûâàåò ïåðåìåííóþ r ñ ïðåäìåòíîé ïåðåìåííîé
a1, îïðåäåëÿþùåé ãðàììàòè÷åñêóþ õàðàêòåðèñòèêó (÷àñòü ðå÷è):
P a r a r r r r r rN
1 1 1
1 2 3 4 5 6( , ) ( )� � � � � � �
� � � � � � � �a r r r r r r a r rA V
1
7 8 9 10 11 12
1
13 14( ) ( ).
Áèíàðíûé ïðåäèêàò P2 ñâÿçûâàåò ïåðåìåííóþ r ñ ïðåäìåòíîé ïåðåìåííîé a2 ,
îïðåäåëÿþùåé ãðàììàòè÷åñêóþ õàðàêòåðèñòèêó (ãðàììàòè÷åñêèé ïàäåæ):
P a r a r r a r r a r rNom Gen Acc
2 2 2
1 7
2
2 8
2
3 9( , ) ( ) ( ) ( )� � � � � � �
� � � � � �a r r a r r a r rDat In Prt
2
4 10
2
5 11
2
6 12( ) ( ) ( ).
Áèíàðíûé ïðåäèêàò P3 ñâÿçûâàåò ïåðåìåííóþ r ñ ïðåäìåòíîé ïåðåìåííîé a3 ,
îïðåäåëÿþùåé ãðàììàòè÷åñêóþ õàðàêòåðèñòèêó (âîçâðàòíîñòü ãëàãîëà):
P a r a r a rRef NonRef
3 3 3
13
3
14( , ) � � .
Áèíàðíûé ïðåäèêàò P4 ñâÿçûâàåò ïåðåìåííóþ r ñ ïðåäìåòíîé ïåðåìåííîé ñ,
îïðåäåëÿþùåé ñåìàíòè÷åñêóþ õàðàêòåðèñòèêó (ñåìàíòè÷åñêóþ ðîëü):
P c r c r c r c r c r c r c rAg Att Pac Adr Ins M
4
1 2 3 4 5 6( , ) � � � � � � .
Òàêèì îáðàçîì, ìîæåì ââåñòè ïðåäèêàò èäåíòèôèêàöèè ïîòåíöèàëüíûõ êîë-
ëîêàòîâ, êîòîðûé õàðàêòåðèçóåòñÿ ñèñòåìîé áèíàðíûõ îòíîøåíèé P1–P4 :
P a a a c r P a r P a r P a r P c r( , , , , ) ( , ) ( , ) ( , ) ( , )1 2 3 1 1 2 2 3 3 4� � � � �
� � � �a a c a a c a a c a a cN Nom Ag N Gen Att N Acc Pac N Dat Ad
1 2 1 2 1 2 1 2
r
�
� � � � �a a c a a c a a a a a aN In Ins N Prt M A Nom A Gen A Acc
1 2 1 2 1 2 1 2 1 2
�
� � � � �a a a a a a a a a aA Dat A In A Prt V Ref V NonRef
1 2 1 2 1 2 1 3 1 3
.
Èäåíòèôèêàöèÿ êîëëîêàöèé. Ñòðîèì ïàðàäèãìàòè÷åñêóþ òàáëèöó
(òàáë. 3), â êîòîðîé æèðíûì øðèôòîì âûäåëÿåì ñåìàíòèêî-ãðàììàòè÷åñêèå õà-
ðàêòåðèñòèêè ðÿäîì ñòîÿùèõ ñëîâ, îáðàçóþùèõ êîëëîêàöèè.
138 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1
Ò à á ë è ö à 2
c a
x1 y1 y2 x2 x3 y3
N N A N
V
N
Ref NonRef
Ag Nom r1 r7 r1
r13 r14
Att Gen r2 r2 r8 r2 r2
Pac Acc r3 r3 r9 r3 r3
Adr Dat r4 r4 r10 r4 r4
Ins In r5 r5 r11 r5 r5
M Prt r6 r6 r12 r6 r6
Íàïðèìåð, x1 ñ íàáîðîì ñåìàíòèêî-ãðàììàòè÷åñêèõ õàðàêòåðèñòèê
{( )a a cN Nom Ag
1 2 , ( )a a cN Gen Att
1 2 , ( )a a cN Acc Pac
1 2 , ( )a a cN Dat Adr
1 2 , ( )a a cN In Ins
1 2 ,
( )a a cN Prt M
1 2 } îáðàçóåò êîëëîêàöèþ ñ çàâèñèìûì ñëîâîì y1, îáëàäàþùèì íàáî-
ðîì ñåìàíòèêî-ãðàììàòè÷åñêèõ õàðàêòåðèñòèê {a a cN Gen Att
1 2
}.
Âûðàæàåì çàâèñèìîñòü ïåðåìåííîé r îò ïðåäìåòíûõ ïåðåìåííûõ x , y, îáîçíà-
÷àþùèõ ãëàâíûé è çàâèñèìûé êîëëîêàòû:
— äëÿ ñóáñòàíòèâíûõ êîëëîêàöèé ( )N Nx y
( )r r r r r r rx x x x x x y
1 2 3 4 5 6 2
� � � � � �
� � � � � �(x x x x xNNomAg NGenAtt NAccPac NDatAdr NInIns x yNPrtM NGenAtt) ;
— äëÿ àäúåêòèâíûõ êîëëîêàöèé ( )A Ny x
r r y xy x
ANom NNomAg7 1
� ; r r y xy x
AGen NGenAtt8 2
� ; r r y xy x
AAcc NAccPac9 3
� ;
r r y xy x
ADat NDatAdr10 4
� ; r r y xy x
AIn NInIns11 5
� ; r r y xy x
APrt NPrtM12 6
� ;
— äëÿ ãëàãîëüíûõ êîëëîêàöèé ( )V Nx y
r r x yx y
VNonRef NAccPac14 3
� .
Ââîäèìîå áèíàðíîå îòíîøåíèå Ð ïîçâîëÿåò ñâÿçàòü ïåðåìåííóþ r ñ ïðåä-
ìåòíûìè ïåðåìåííûìè x è y:
P r r r r r r r r rx y x x x x x x y5
1 2 3 4 5 6 2( , ) ( )� � � � � � , (2)
P r r r r r r r r r r r r ry x y x y x y x y x y x y6
7 1 8 2 9 3 10 4 11 5 1( , ) � � � � � �
2 6rx , (3)
P r r r rx y x y7
14 3( , ) � , (4)
ãäå óðàâíåíèå (2) îïðåäåëÿåò ñóáñòàíòèâíûå êîëëîêàöèè, óðàâíåíèå (3) —
àäúåêòèâíûå êîëëîêàöèè è óðàâíåíèå (4) — ãëàãîëüíûå êîëëîêàöèè.
Ââåäåì ïðåäèêàò èäåíòèôèêàöèè êîëëîêàöèé P x y( , ), êîòîðûé õàðàêòåðè-
çóåòñÿ ñèñòåìîé áèíàðíûõ îòíîøåíèé P5–P7 :
P x y P r r P r r P r r x xx y y x x y
NNomAg NGe( , ) ( , ) ( , ) ( , ) (� � � � �5 6 7
nAtt NAccPacx� �
� � � � �x x x y y x yNDatAdr NInIns NPrtM NGenAtt ANom NNomAg AG) en NGenAttx �
� � � �y x y x y x y xAAcc NAccPac ADat NDatAdr AIn NInIns APrt NPrtM VNonRef NAccPacx y� .
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 139
Ò à á ë è ö à 3
c a
x1 y1 y2 x2 x3 y3
N N A N
V
N
Ref NonRef
Ag Nom rx
1
ry
7
rx
1
rx
13
rx
14
Att Gen rx
2
ry
2
ry
8
rx
2 ry
2
Pac Acc rx
3 ry
3
ry
9
rx
3
ry
3
Adr Dat rx
4 ry
4
ry
10
rx
4 ry
4
Ins In rx
5 ry
5
ry
11
rx
5 ry
5
M Prt rx
6 ry
6
ry
12
rx
6 ry
6
Ïðåäèêàò P x y( , ) �1, åñëè ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè äâóõ
ðÿäîì ñòîÿùèõ ñëîâîôîðì ìíîæåñòâà M m mn� { }1, ... , ïîçâîëÿþò ñîçäàòü ñëîâî-
ñî÷åòàíèå, è P x y( , ) � 0 â ïðîòèâíîì ñëó÷àå (òàáë. 4).
Îïðåäåëåíèå ñèíîíèìè÷íûõ êîëëîêàòîâ. Íà ñëåäóþùåì ýòàïå äëÿ óñòà-
íîâëåíèÿ ñèíîíèìèè ìåæäó êîëëîêàòàìè èñïîëüçóåòñÿ ìåòîä àâòîìàòè÷åñêîé
èäåíòèôèêàöèè ñåìàíòè÷åñêèõ êîððåëÿöèé òîëåðàíòíîñòè è ýêâèâàëåíòíîñòè,
äåòàëüíî îïèñàííûé â ðàáîòå [21]. Ýòîò ìåòîä äëÿ îïðåäåëåíèÿ ñåìàíòè÷åñêè
ñâÿçíûõ äàííûõ èñïîëüçóåò ìåðó ñåìàíòè÷åñêîé áëèçîñòè f t t( , )� �� ìåæäó äâóìÿ
ÿçûêîâûìè åäèíèöàìè �t è ��t . Ìåðà ñåìàíòè÷åñêîé áëèçîñòè âûðàæàåòñÿ îòíîøå-
íèåì òåîðåòèêî-ìíîæåñòâåííîãî ïåðåñå÷åíèÿ è îáúåäèíåíèÿ ìíîæåñòâ òåðìèíîâ
äåôèíèöèé ãëîññàðèÿ.
Íàïðèìåð, ÷òîáû âû÷èñëèòü ìåðó ñèíîíèìèè (èëè ìåðó ñåìàíòè÷åñêîé áëè-
çîñòè) f äëÿ òåðìèíîâ t1 � «àâòîðèçàö³ÿ», t2 � «àóòåíòèô³êàö³ÿ» è t3 � «³äåí-
òèô³êàö³ÿ» â ãëîññàðèè [22], îïðåäåëÿåòñÿ ïåðåñå÷åíèå è îáúåäèíåíèå ìíîæåñòâ
ñëîâ êàæäîé äåôèíèöèè:
f t t
N d d
N d d
( , )
( )
( )
� �� �
�2 1 2
1 2
�
�
,
ãäå f t t( , )� �� — âåëè÷èíà ñåìàíòè÷åñêîé áëèçîñòè ìåæäó òåðìèíàìè �t è ��t ;
d d1 2, — äåôèíèöèè ëèíãâèñòè÷åñêèõ åäèíèö òîëêîâîãî ñëîâàðÿ �t è ��t ;
N x x( )1 2� — êîëè÷åñòâî îáùèõ ñëîâ â îïðåäåëåíèÿõ òåðìèíîâ �t è ��t ;
N x x( )1 2� — êîëè÷åñòâî âñåõ ñëîâ â îïðåäåëåíèÿõ òåðìèíîâ �t è ��t .
Ðåçóëüòàò îïðåäåëåíèÿ ìåðû ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè ìåæäó t1, t2 , t3 :
f t t( , )1 2 � 0,4; f t t( , )2 3 � 0,45; f t t( , )1 3 � 0,39.
 ðàáîòå [21] äîêàçûâàåòñÿ, ÷òî ïðè çíà÷åíèè êîýôôèöèåíòà ñåìàíòè÷åñêîé
áëèçîñòè áîëüøå 0,35 ñëîâà t1 � «àâòîðèçàö³ÿ», t2 � «àóòåíòèô³êàö³ÿ» è
t3 � «³äåíòèô³êàö³ÿ» ñ÷èòàþòñÿ ñâÿçàííûìè îòíîøåíèåì ýêâèâàëåíòíîñòè.
Èäåíòèôèêàöèÿ ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè äâóõñëîâíûõ êîëëî-
êàöèé. Ñèíîíèìè÷íûå ñëîâà ìîãóò îáðàçîâûâàòü áëèçêèå ïî ñìûñëó ñëîâîñî÷å-
òàíèÿ, íàïðèìåð «çáåð³ãàòè äàí³» � «ì³ñòèòè â³äîìîñò³», è ïðè ýòîì ìîãóò
ôîðìèðîâàòü íåñâÿçíûå ïî ñìûñëó ñëîâîñî÷åòàíèÿ, íàïðèìåð «çáåð³ãàííÿ äà-
íèõ» «³íôîðìàö³ÿ ðåïîçèòàð³þ».
Äëÿ âûäåëåíèÿ ñåìàíòè÷åñêè ñâÿçíûõ êîëëîêàöèé èñïîëüçóåòñÿ ëîãèêî-ëèíã-
âèñòè÷åñêàÿ ìîäåëü [20]. Ââåäåì ïðåäèêàò ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè äâóõ-
ñëîâíûõ êîëëîêàöèé
P x y P x y x y x y P x y P x yi( , ) * ( , ) ( , , , ) ( , ) ( ,1 1 2 2 1 1 2 2 1 1 2 2� � �� ),
ãäå ñèìâîë * îáîçíà÷àåò îïåðàöèþ îïðåäåëåíèÿ ñìûñëîâîé áëèçîñòè, çíàê �
îïðåäåëÿåò êîíúþíêöèþ, ïðåäèêàò � i x y x y( , , , )
1 1 2 2 èñêëþ÷àåò êîëëîêàöèè,
140 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1
Ò à á ë è ö à 4
a A
Nom
a A
Gen
a A
Acc
a A
Dat
a A
In
a A
Prt
a
c
NGen
Att
a
c
NAcc
Pac
a
c
NDat
Adr
a
c
NIn
Ins
a N
M
Prt
c
a V
Ref
a V Non
Ref
a cNNom Ag 1 0 0 0 0 0 1 0 0 0 0 0 0
a cNGen Att 0 1 0 0 0 0 1 0 0 0 0 0 0
a cNAcc Pac 0 0 1 0 0 0 1 0 0 0 0 0 0
a cNDat Adr 0 0 0 1 0 0 1 0 0 0 0 0 0
a cNIn Ins 0 0 0 0 1 0 1 0 0 0 0 0 0
a N MPrtc 0 0 0 0 0 1 1 0 0 0 0 0 0
a V Ref 0 0 0 0 0 0 0 0 0 0 0 0 0
a V NonRef 0 0 0 0 0 0 0 1 0 0 0 0 0
yi
xi
ìåæäó êîòîðûìè íå ìîæåò áûòü óñòàíîâëåíà ñìûñëîâàÿ ýêâèâàëåíòíîñòü.
Ïðåäèêàò � 1 1 1 2 2 1 1 2 2
( , , , )x y x y x y x yVNonRef NAccPac VNonRef NAccP
�
ac ïîêàçûâàåò
ñåìàíòè÷åñêóþ áëèçîñòü ãëàãîëüíûõ êîëëîêàöèé ( )V Nx y , íàïðèìåð
âèçíà÷àòè x
VNonRef
1
â³äîìîñò³ y NAccPac
1 � âñòàíîâëþâàòè x
VNonRef
2
äàí³ y NAccPac
2
.
Ïðåäèêàò � 2 1 1 2 2 1 1 2 2
( , , , )x y x y x y x yNNomAg NGenAtt NNomAg NGenAtt
� ïîêàçûâàåò
ñåìàíòè÷åñêóþ áëèçîñòü ñóáñòàíòèâíûõ êîëëîêàöèé ( )N Nx y , òàêèõ êàê
øâèäê³ñòü x NNomAg
1
ïåðåäà÷³ y NGenAtt
1
� òåìï x NNomAg
2
â³äïðàâëåííÿ y NGenAtt
2
.
Ïðåäèêàò � 3 1 1 2 2 1 1 2 2
( , , , )x y x y y x y xANom NNomAg ANom NNomAg
� ïîêàçûâàåò ñå-
ìàíòè÷åñêóþ áëèçîñòü ìåæäó àäúåêòèâíûìè êîëëîêàöèÿìè ( )A Ny x , íàïðèìåð
áóëåâà yANom
1
îïåðàö³ÿ x NNomAg
1
� ëîã³÷íà yANom
2
ïðîöåäóðà x NNomAg
2
.
Òàêèì îáðàçîì, ïðåäèêàò ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè êîëëîêàöèé, ñî-
ñòîÿùèõ èç âûÿâëåííûõ íà ïðåäûäóùèõ ýòàïàõ ïîïàðíî ñèíîíèìè÷íûõ
êîëëîêàòîâ, èìååò âèä
�( , , , ) (x y x y y x y x yANom NNomAg AGen NGenAtt AA
1 1 2 2 1 1 1 1 1� �
cc NAccPac ADat NDatAdrx y x1 1 1� �
� � �y x y x y x yAIn AInIns APrt NPrtM ANom NNomAg AGe
1 1 1 1 2 2 2)( n NGenAtt AAcc NAccPacx y x2 2 2� �
� � � �y x y x y x xADat NDatAdr AIn NInIns APrt NPrtM N
2 2 2 2 2 2 1
) ( NomAg NGenAttx� �
1
� � � �x x x x y xNAccPac NDatAdr NInIns NPrtM NGenAtt
1 1 1 1 2 2) ( NNomAg NGenAtt NAccPacx x� � �2 2
� � � �x x x y x yNDatAdr NInIns NPrtM NGenAtt VNonRef N
2 2 2 2 1 1) AccPac VNonRef NAccPacx y
2 2 . (5)
Åñëè ïðåäèêàò � ( , , , )x y x y1 1 2 2 1� , òî ñëîâà ñ ñîîòâåòñòâóþùèìè õàðàêòå-
ðèñòèêàìè îáðàçóþò äâà ýêâèâàëåíòíûõ ïî ñìûñëó ñëîâîñî÷åòàíèÿ.  ïðîòèâ-
íîì ñëó÷àå ðàññìàòðèâàåìûå ñëîâîñî÷åòàíèÿ íå ýêâèâàëåíòíû ïî ñìûñëó.
Ñëåäîâàòåëüíî, êîëëîêàöèè ìîãóò ñ÷èòàòüñÿ áëèçêèìè ïî ñìûñëó, åñëè:
— ãëàâíîå ñëîâî õ1 â ïåðâîé êîëëîêàöèè îïðåäåëåíî êàê ñèíîíèìè÷íîå
ãëàâíîìó ñëîâó õ2 âî âòîðîé êîëëîêàöèè ( )x x1 2� , à çàâèñèìîå ñëîâî ó1 â ïåð-
âîé êîëëîêàöèè ñèíîíèìè÷íî çàâèñèìîìó ñëîâó ó2 âî âòîðîé êîëëîêàöèè
( )y y1 2� ;
— ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè êîëëîêàòîâ ñëîâîñî÷åòàíèé
( )x y1 1 è (x y2 2) óäîâëåòâîðÿþò ïðåäèêàòó ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè (5).
Íàïðèìåð, êîëëîêàöèè coll1 � «ïðîöåñ àóòåíòèô³êàö³¿», coll2 � «ïðîöåäóðà
³äåíòèô³êàö³¿» èìåþò ñåìàíòèêî-ãðàììàòè÷åñêèå õàðàêòåðèñòèêè coll1 �
� x yNNomAg NGenAtt
1 1
, coll x yNNomAg NGenAtt
2 2 2
� (îïðåäåëåíû íà ïåðâîì è âòîðîì
ýòàïàõ òåõíîëîãèè); ìåæäó ãëàâíûìè êîëëîêàòàìè è çàâèñèìûìè êîëëîêàòàìè
ñëîâîñî÷åòàíèé óñòàíîâëåíû îòíîøåíèÿ ñåìàíòè÷åñêîé ýêâèâàëåíòíîñòè
x x1 2� , y y1 2� (îïðåäåëåíû íà òðåòüåì ýòàïå).
 ðåçóëüòàòå ïðåäèêàò � 2 1 1 2 2( , , , )x y x y ïîêàçûâàåò ñâÿçíûå ïî ñìûñëó êîë-
ëîêàöèè (÷åòâåðòûé ýòàï ïðåäëîæåííîé òåõíîëîãèè):
ïðîöåñ xNNomAg
1 àóòåíòèô³êàö³¿ yNGenAtt
1 �
� ïðîöåäóðà x NNomAg
2
³äåíòèô³êàö³¿ y NGenAtt
2
.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 141
ÏÅÐÑÏÅÊÒÈÂÍÛÅ ÂÀÐÈÀÍÒÛ ÈÑÏÎËÜÇÎÂÀÍÈß ÐÀÇÐÀÁÎÒÀÍÍÎÉ ÒÅÕÍÎËÎÃÈÈ
Ðàçðàáîòàííàÿ òåõíîëîãèÿ èäåíòèôèêàöèè ñåìàíòè÷åñêè ñâÿçíûõ ýëåìåíòîâ
òåêñòà ìîæåò áûòü èñïîëüçîâàíà ðàçëè÷íûìè èíñòðóìåíòàðèÿìè ñîöèàëüíûõ
ñåòåé, áëîãîâ, ôîðóìîâ. Íàïðèìåð, âñòðàèâàíèå ðàçðàáîòàííîé òåõíîëîãèè
â ñåìàíòè÷åñêèé èíñòðóìåíòàðèé SIOC (Semantically Interlinked Online Com-
munities) [23], îïèñûâàþùèé ìåòàäàííûå íà ïëàòôîðìå RDF, ïîçâîëÿåò èñ-
ïîëüçîâàòü ýëåìåíòû ðàçìåòêè Twitter äëÿ îïðåäåëåíèÿ åäèíîãî èíôîðìàöèîí-
íîãî ïðîñòðàíñòâà ñîöèàëüíîé ñåòè.
 ðàññìàòðèâàåìîì ôðàãìåíòå ñâÿçíûõ òâèòîâ (ðèñ. 1) ýëåìåíòû content
ïðîñòðàíñòâà èìåí sioc ïåðâîãî ñîîáùåíèÿ ñîäåðæàò òåêñò sioc:content «… ïî-
òðåáóº ìîí³òîðèòè êîíòåíò ñîö³àëüíî¿ ìåðåæ³ …»; âòîðîãî ñîîáùåíèÿ —
òåêñò sioc:content «… Íüþñìåéêåð â³äñë³äêîâóº çì³ñò îô³ö³éíîãî ñàéòó …»;
òðåòüåãî ñîîáùåíèÿ — òåêñò sioc:content «… çàâäàííÿ ïîñò³éíî îö³íþâàòè íà-
ïîâíåííÿ ñàéòó êîìïàí³¿ …».
Èñïîëüçîâàíèå òåõíîëîãèè ïîçâîëÿåò îïðåäåëèòü ýêâèâàëåíòíûé ñìûñë.
Ïðåäèêàò �
1 1 1 2 2( , , , )x y x y ïîêàçûâàåò ñåìàíòè÷åñêóþ áëèçîñòü ãëàãîëüíûõ êîë-
ëîêàöèé: ìîí³òîðèòè x
V NonRef
1
êîíòåíò y
N Acc Pac
1
� â³äñë³äêîâóâàòè x
V NonRef
2
çì³ñò y
N Acc Pac
2
� îö³íþâàòè x
V NonRef
3
íàïîâíåííÿ y
N Acc Pac
3
, ïðè ýòîì
x õ õ1 2 3� � , y ó ó1 2 3� � , ïðèíàäëåæàùèõ ðàçëè÷íûì òâèòàì. Íàëè÷èå íåñêîëü-
êèõ ïîäîáíûõ ñèíîíèìè÷íûõ ýëåìåíòîâ ìîæåò ñòàòü äîïîëíèòåëüíûì óñëîâèåì
âûäåëåíèÿ åäèíîãî èíôîðìàöèîííîãî ïðîñòðàíñòâà.
ÇÀÊËÞ×ÅÍÈÅ
Ïðåäëîæåííàÿ òåõíîëîãèÿ èäåíòèôèêàöèè ñåìàíòè÷åñêè ñâÿçíûõ ýëåìåíòîâ
òåêñòà ïîçâîëÿåò îïðåäåëèòü åäèíîå èíôîðìàöèîííîå ïðîñòðàíñòâî àêòîðîâ
ñîöèàëüíûõ ñåòåé. Èñïîëüçîâàíèå äàííîé òåõíîëîãèè âî âçàèìîäåéñòâèè ñî
ñòàòèñòè÷åñêèìè ìåòîäàìè îáðàáîòêè ïîçâîëèò ýôôåêòèâíî îïðåäåëÿòü áëèç-
142 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1
Ðèñ. 1. Ïðèìåð ñåìàíòè÷åñêè ñâÿçíîãî êîíòåíòà â èíôîðìàöèîííîì ïðîñòðàíñòâå Twitter
sioc:content «... ïîòðåáóº
ìîí³òîðèòè êîíòåíò
ñîö³àëüíî¿ ìåðåæ³ ...»
sioc:content «... çàâäàííÿ
ïîñò³éíî îö³íþâàòè
íàïîâíåííÿ ñàéòó
êîìïàí³¿ ...»
sioc:content «... Íüþñìåéêåð
â³äñë³äêîâóº çì³ñò
îô³ö³éíîãî ñàéòó...»
rd
fs
:s
ee
A
sl
o
rdfs:
seeAslo
rdfs:seeAslo
twitter.com/Resource_1
twitter.com/Resource_2
twitter.com/Resource_3
êèå ïî ñìûñëó ôðàãìåíòû òåêñòîâ â èíôîðìàöèîííî-ïîèñêîâûõ, ýêñïåðòíûõ,
àíàëèòè÷åñêèõ èíôîðìàöèîííûõ ñèñòåìàõ øèðîêîãî íàçíà÷åíèÿ.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. Äîäîíîâ À.Ã., Ëàíäý Ä.Â., Ïóòÿòèí Â.Ã. Êîìïüþòåðíûå ñåòè è àíàëèòè÷åñêèå èññëåäîâàíèÿ.
Êèåâ: ÈÏÐÈ ÍÀÍ Óêðàèíû, 2014. 486 ñ.
2. Êàñòåëüñ Ì. Èíôîðìàöèîííàÿ ýïîõà: ýêîíîìèêà, îáùåñòâî è êóëüòóðà. Ìîñêâà: ÃÓ-ÂØÝ,
2000. 606 ñ.
3. Õàéðîâà Í.Ô., Ïåòðàñîâà Ñ.Â. Èíôîðìàöèîííûå èíòåëëåêòóàëüíûå ñèñòåìû è ñåìàíòè÷åñêèé
âåá: ó÷åáíîå ïîñîáèå. Õàðüêîâ: ÍÒÓ «ÕÏÈ», 2015. 169 ñ.
4. Arefyev N.V., Panchenko A.I., Lukanin A.V. et al. Evaluating three corpus-based semantic
similarity systems for Russian. Êîìïüþòåðíàÿ ëèíãâèñòèêà è èíòåëëåêòóàëüíûå òåõíîëîãèè:
ïî ìàòåðèàëàì åæåãîäíîé ìåæäóíàðîäíîé êîíôåðåíöèè «Äèàëîã» (Ìîñêâà, 27–30 ìàÿ
2015 ã.). ¹ 14(21): Â 2 ò. Ò. 2: Äîêëàäû ñïåöèàëüíûõ ñåêöèé. Ìîñêâà: Èçä-âî ÐÃÃÓ, 2015.
C. 106–119.
5. Ñàëîìàòèíà Í.Â., Ãóñåâ Â.Ä., Èëüèíà Ë.Þ. Î âîçìîæíîñòÿõ àâòîìàòèçàöèè âûÿâëåíèÿ ñâÿçåé
ìåæäó òåðìèíàìè ïðåäìåòíîé îáëàñòè (íà ïðèìåðå êàòàëèçà). Êîìïüþòåðíàÿ ëèíãâèñòèêà
è èíòåëëåêòóàëüíûå òåõíîëîãèè: ïî ìàòåðèàëàì åæåãîäíîé ìåæäóíàðîäíîé êîíôåðåíöèè
«Äèàëîã» (Áåêàñîâî, 26–30 ìàÿ 2010 ã.). ¹ 9(16). Ìîñêâà: Èçä-âî ÐÃÃÓ, 2010. Ñ. 430–436.
6. Hasegawa T., Sekine S., Grishman R. Discovering relations among named entities from large
corpora. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics
(ACL ‘04). Stroudsburg, PA, USA, 2004. Ð. 415–422.
7. Bunescu R., Mooney R. Learning to extract relations from the web using minimal supervision.
Proceedings of the 45th Annual Meeting on Association for Computational Linguistics (ACL ‘07).
Prague, Czech Republic, 2007. Ð. 576–583.
8. Culotta A., McCallum A., Betz J. Integrating probabilistic extraction models and data mining to
discover relations and patterns in text. Proceedings of Human Language Technology Conference of
the North American Chapter of the Association of Computational Linguistics. New York, 2006.
Ð. 296–303.
9. Nakov S. Automatic acquisition of synonyms using the web as a corpus. Proceedings of the 3rd
Annual South-East European Doctoral Student Conference. 2008. Vol. 2. Ð. 216–229.
10. Hua Wu, Ming Zhou. Optimizing synonym extraction using monolingual and bilingual Re-sources.
Proceedings of the Second International Workshop on Para-phrasing (PARAPHRASE ‘03).
Stroudsburg, PA, USA, 2003. Vol. 16. Ð. 72–79.
11. Ìèñóíî È.Ñ., Ðà÷êîâñêèé Ä.À., Ñëèï÷åíêî Ñ.Â. Âåêòîðíûå è ðàñïðåäåëåííûå ïðåäñòàâëåíèÿ,
îòðàæàþùèå ìåðó ñåìàíòè÷åñêîé ñâÿçè ñëîâ. Ìàòåìàòè÷åñêèå ìàøèíû è ñèñòåìû. 2005.
¹ 3. Ñ. 50–66.
12. Ìèòðîôàíîâà Î.À. Ñåìàíòè÷åñêèå ðàññòîÿíèÿ: ïðîáëåìû è ïåðñïåêòèâû. Ìàòåðèàëû ÕÕÕIV
ìåæäóíàð. ôèëîë. êîíô. ÑÏáÃÓ, 2005. Ñ. 59–63.
13. Church K.W., Hanks P. Word association norms, mutual information, and lexicography.
Computational Linguistics. 1990. Vol. 16, Iss. 1. P. 22–29.
14. Evert S., Krenn B. Methods for the qualitative evaluation of lexical association measures.
Proceedings of the 39th Annual Meeting on Association for Computational Linguistics (ACL ‘01).
Stroudsburg, PA, USA, 2001. P. 188–195.
15. Çàõàðîâ Â.Ï., Õîõëîâà Ì.Â. Âûäåëåíèå òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé èç ñïåöèàëüíûõ
òåêñòîâ íà îñíîâå ðàçëè÷íûõ ìåð àññîöèàöèè. Èíòåðíåò è ñîâðåìåííîå îáùåñòâî «IMS-2014».
Ñ.-Ïåòåðáóðã: Óíèâåðñèòåò ÈÒÌÎ, 2014. Ñ. 290–293.
16. Akinina Y.S., Kuznetsov I.O., Toldova S.Y. The impact of syntactic structure on verb-noun
collocation extraction. Êîìïüþòåðíàÿ ëèíãâèñòèêà è èíòåëëåêòóàëüíûå òåõíîëîãèè: ïî ìàòå-
ðèàëàì åæåãîäíîé ìåæäóíàðîäíîé êîíôåðåíöèè «Äèàëîã» (Áåêàñîâî, 29 ìàÿ–2 èþíÿ 2013 ã.).
¹ 12(19): Â 2 ò. Ò. 1: Îñíîâíàÿ ïðîãðàììà êîíôåðåíöèè. Ìîñêâà: Èçä-âî ÐÃÃÓ, 2013. Ñ. 2–17.
17. Hua Wu, Ming Zhou. Synonymous collocation extraction using translation information. Proceedings
of the 41th Annual Meeting on Association for Computational Linguistics (ACL ‘03). Stroudsburg,
PA, USA, 2003. Vol. 1. P. 120–127.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1 143
18. Marius P., P�ter D. Aligning needles in a haystack: Paraphrase acquisition across the web.
Proceedings of the Second International Joint Conference: Natural Language Processing (IJCNLP
2005). Jeju Island, Korea, 2005. P. 119–130.
19. Barzilay R., McKeown Kathleen R. Extracting paraphrases from a parallel corpus. Proceedings of
the 39th Annual Meeting on Association for Computational Linguistics (ACL’01). Stroudsburg, PA,
USA, 2001. P. 50–57.
20. Khairova N., Petrasova S., Gautam A.P.S. The logical and linguistic model for automatic extraction
of collocation similarity. Econtechmod: An International Quarterly Journal on Economics in
Technology, New Technologies and Modelling Processes. Lublin; Rzeszow, 2015. Vol. 4, N 4.
P. 43–48.
21. Õàéðîâà Í.Ô., Ïåòðàñîâà Ñ.Â., Ëåíêîâ Ñ.Â. Ìåòîä àâòîìàòè÷åñêîé èäåíòèôèêàöèè ñåìàíòè-
÷åñêèõ êîððåëÿöèé òåðìèíîâ ãëîññàðèÿ. Çá³ðíèê íàóê. ïðàöü ³éñüêîâîãî ³í-òó Êè¿â. íàö.
óí-òó ³ì. Òàðàñà Øåâ÷åíêà. 2014. Âèï. 46. Ñ. 222–228.
22. ϳâíÿê Ã.Ã., Áóñèã³í Á.Ñ., ijâ³ç³íþê Ì.Ì. òà ³í. Òëóìà÷íèé ñëîâíèê ç ³íôîðìàòèêè. Äîíåöüê:
Íàö. ã³ðíè÷. óí-ò, 2010. 600 ñ.
23. Breslin J.G., Harth A., Bojars U., Decker S. Towards semantically-interlinked online communities.
Proceedings of the Second European Conference on the Semantic Web: Research and Applications.
Berlin; Heidelberg: Springer-Verlag, 2005. Ð. 500–514.
Íàä³éøëà äî ðåäàêö³¿ 15.06.2016
Ñ.Â. Ïåòðàñîâà, Í.Ô. Õàéðîâà
ÂÈÊÎÐÈÑÒÀÍÍß ÒÅÕÍÎËÎò¯ ²ÄÅÍÒÈÔ²ÊÀÖ²¯ ÑÅÌÀÍÒÈ×ÍÎ ÇÂ’ßÇÍÈÕ ÅËÅÌÅÍÒ²Â
ÒÅÊÑÒÓ ÄËß ÂÈÇÍÀ×ÅÍÍß ªÄÈÍÎÃÎ ²ÍÔÎÐÌÀÖ²ÉÍÎÃÎ ÏÐÎÑÒÎÐÓ
Àíîòàö³ÿ. Çàïðîïîíîâàíà òåõíîëîã³ÿ äîçâîëÿº âèçíà÷àòè ºäèíèé ³íôîð-
ìàö³éíèé ïðîñò³ð àêòîð³â ñîö³àëüíèõ ìåðåæ çà ðàõóíîê ³äåíòèô³êàö³¿ ñåìàí-
òè÷íî¿ åêâ³âàëåíòíîñò³ êîëîêàö³é ó òåêñòàõ. Òåõíîëîã³ÿ âêëþ÷ຠìîäåëü
ôîðìàëüíîãî îïèñó ñåìàíòèêî-ãðàìàòè÷íèõ õàðàêòåðèñòèê êîëîêàò³â, ³äåí-
òèô³êàö³þ êîëîêàö³é òà âèçíà÷åííÿ ïðåäèêàòà ñåìàíòè÷íî¿ åêâ³âàëåíòíîñò³
äâîñë³âíèõ êîëîêàö³é.
Êëþ÷îâ³ ñëîâà: ñåìàíòè÷íà çâ’ÿçí³ñòü, ³íôîðìàö³éíèé ïðîñò³ð, ñåìàíòè-
êî-ãðàìàòè÷í³ õàðàêòåðèñòèêè, ïðåäèêàò ñåìàíòè÷íî¿ ýêâ³âàëåíòíîñò³, êîëî-
êàò, êîëîêàö³ÿ.
S.V. Petrasova, N.F. Khairova
USING SEMANTICALLY SIMILAR TEXT ELEMENTS IDENTIFICATION
TECHNOLOGY TO DETERMINE A COMMON INFORMATION SPACE
Abstract. The proposed technology allows determining a common information
space of social network actors by identifying the semantic equivalence of
collocations in texts. The technology includes the model of formal description of
the semantic and grammatical characteristics of collocates, identification of
collocations, and determination of a semantic equivalence predicate of two-word
collocations.
Keywords: semantic similarity, information space, semantic and grammatical
characteristics, semantic equivalence predicate, collocate, collocation.
Ïåòðàñîâà Ñâåòëàíà Âàëåíòèíîâíà,
àñïèðàíòêà Íàöèîíàëüíîãî òåõíè÷åñêîãî óíèâåðñèòåòà «Õàðüêîâñêèé ïîëèòåõíè÷åñêèé èíñòèòóò»,
e-mail: svetapetrasova@gmail.com.
Õàéðîâà Íèíà Ôåëèêñîâíà,
äîêòîð òåõí. íàóê, ïðîôåññîð Íàöèîíàëüíîãî òåõíè÷åñêîãî óíèâåðñèòåòà «Õàðüêîâñêèé ïîëèòåõ-
íè÷åñêèé èíñòèòóò», e-mail: nina_khajrova@yahoo.com.
144 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2017, òîì 53, ¹ 1
|