Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке

Описан метод итеративного построения терминологий в коллекциях научных текстов на украинском языке. Освещена проблематика автоматизированного построения тезаурусов по составлению научной терминологии. Значительное внимание уделено анализу лексикографических особенностей характеристических фрагментов...

Full description

Saved in:
Bibliographic Details
Published in:Кибернетика и системный анализ
Date:2014
Main Authors: Глибовец, А.Н., Решетнёв, И.В.
Format: Article
Language:Russian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2014
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/124739
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке / А.Н. Глибовец, И.В. Решетнёв // Кибернетика и системный анализ. — 2014. — Т. 50, № 6. — С. 53-62. — Бібліогр.: 12 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859477841378279424
author Глибовец, А.Н.
Решетнёв, И.В.
author_facet Глибовец, А.Н.
Решетнёв, И.В.
citation_txt Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке / А.Н. Глибовец, И.В. Решетнёв // Кибернетика и системный анализ. — 2014. — Т. 50, № 6. — С. 53-62. — Бібліогр.: 12 назв. — рос.
collection DSpace DC
container_title Кибернетика и системный анализ
description Описан метод итеративного построения терминологий в коллекциях научных текстов на украинском языке. Освещена проблематика автоматизированного построения тезаурусов по составлению научной терминологии. Значительное внимание уделено анализу лексикографических особенностей характеристических фрагментов текста документов. Учтена специфика украиноязычных документов. Основное внимание уделяется решению прикладной задачи построения терминологии с описанием связей в формате RDF из входящих текстов в широкоупотребляемом формате pdf. Описано метод ітеративної побудови термінологій в колекціях наукових текстів українською мовою. Висвітлено проблематику автоматизованої побудови тезаурусів з складання наукової термінології. Значну увагу приділено аналізу лексикографічних особливостей характеристичних фрагментів тексту документів. Враховано специфіку україномовних документів. Основну увагу приділено розв’язанню прикладної задачі побудови термінології з описом зв’язків в форматі RDF з вхідних текстів в загальновживаному форматі pdf. We propose a combined method of acquisition of valuable terms and relations from raw texts with corresponding iterative algorithm for automated terminology extraction over Ukrainian-language scientific texts. Special attention is paid to the analysis of lexicographical features of characteristic text fragments of documents. The specific features of Ukrainian-language documents are taken into account. The paper is focused on solving the applied problem of terminology acquisition from raw texts in the widely-used pdf format, with output of term relations described in RDF format.
first_indexed 2025-11-24T11:44:26Z
format Article
fulltext ÓÄÊ 681.3:658.56 À.Í. ÃËÈÁÎÂÅÖ, È.Â. ÐÅØÅÒͨ ÌÅÒÎÄ ÈÒÅÐÀÒÈÂÍÎÃÎ ÏÎÑÒÐÎÅÍÈß ÒÅÐÌÈÍÎËÎÃÈÈ Â ÊÎËËÅÊÖÈßÕ ÍÀÓ×ÍÛÕ ÒÅÊÑÒΠÍÀ ÓÊÐÀÈÍÑÊÎÌ ßÇÛÊÅ Àííîòàöèÿ. Îïèñàí ìåòîä èòåðàòèâíîãî ïîñòðîåíèÿ òåðìèíîëîãèé â êîëëåêöèÿõ íàó÷íûõ òåêñòîâ íà óêðàèíñêîì ÿçûêå. Îñâåùåíà ïðîáëåìàòèêà àâòîìàòèçèðîâàííîãî ïîñòðîåíèÿ òåçàóðóñîâ ïî ñîñòàâëåíèþ íàó÷íîé òåðìèíîëîãèè. Çíà÷èòåëüíîå âíèìàíèå óäåëåíî àíà- ëèçó ëåêñèêîãðàôè÷åñêèõ îñîáåííîñòåé õàðàêòåðèñòè÷åñêèõ ôðàãìåíòîâ òåêñòà äîêóìåí- òîâ. Ó÷òåíà ñïåöèôèêà óêðàèíîÿçû÷íûõ äîêóìåíòîâ. Îñíîâíîå âíèìàíèå óäåëÿåòñÿ ðåøå- íèþ ïðèêëàäíîé çàäà÷è ïîñòðîåíèÿ òåðìèíîëîãèè ñ îïèñàíèåì ñâÿçåé â ôîðìàòå RDF èç âõîäÿùèõ òåêñòîâ â øèðîêîóïîòðåáëÿåìîì ôîðìàòå pdf. Êëþ÷åâûå ñëîâà: ñòàòèñòè÷åñêèå ìåòîäû, ëåêñèêîãðàôè÷åñêèå ìåòîäû, òåçàóðóñ, òåðìèí, ñâÿçü «îáùåå–÷àñòíîå», ãèïîíèìèÿ. ÂÂÅÄÅÍÈÅ Ñîçäàíèå è àêòóàëèçàöèÿ ñïåöèàëèçèðîâàííûõ ñëîâàðåé íå óñïåâàþò çà ïðîã- ðåññîì â èññëåäîâàíèÿõ â ñèëó îáúåêòèâíûõ ïðè÷èí: ñëîæíîñòè èçó÷àåìûõ ñôåð è èçìåí÷èâîñòè ïîíÿòèé ñî âðåìåíåì [1]. Âìåñòå ñ òåì äëÿ èññëåäîâàòå- ëåé îñòàåòñÿ îñòðîé íåîáõîäèìîñòü âçàèìîïîíèìàíèÿ íà ïîíÿòèéíîì óðîâíå, ÷òî òðåáóåò êàê óíèôèöèðîâàííîé è äîñòóïíîé òåðìèíîëîãè÷åñêîé áàçû, òàê è êà÷åñòâåííîé ïîèñêîâîé ñèñòåìû íàó÷íûõ äîêóìåíòîâ. Îäíèì èç ýôôåêòèâíûõ ñïîñîáîâ óëó÷øåíèÿ ðåëåâàíòíîñòè ïîèñêîâîé âûäà÷è òàêèõ ñèñòåì — èñïîëüçîâàíèå òåçàóðóñà [2]. Ñðåäè ìåòîäîâ ïîñòðîåíèÿ òåçàóðóñîâ àâòîìàòèçèðîâàííûé ìåòîä ëó÷øå âñåãî ïîäõîäèò äëÿ ñôåðû íàó÷íûõ èññëåäîâàíèé â ñèëó âûñîêèõ òåìïîâ îáíîâëÿåìîñòè èíôîðìàöèè è ñâÿçàííîé ñ ýòèì âûñîêîé ñå- áåñòîèìîñòüþ ó÷àñòèÿ ýêñïåðòîâ â òàêîé ðàáîòå.  ðàìêàõ ðÿäà èññëåäîâàíèé, ïðîâå- äåííûõ íà êàôåäðå èíôîðìàòèêè Íàöèîíàëüíîãî óíèâåðñèòåòà «Êèåâî-Ìîãèëÿíñêàÿ Àêàäåìèÿ» (ÍàÓÊÌÀ) ïî ñîçäàíèþ ïîèñêîâîé ñèñòåìû íàó÷íûõ äîêóìåíòîâ, ðàçðà- áîòêà êîìïîíåíòà àâòîìàòèçèðîâàííîãî ïîñòðîåíèÿ òåçàóðóñà óëó÷øàåò åå êà÷åñòâî. Îñíîâíûå öåëè äàííîé ïóáëèêàöèè — îïèñàíèå è ðåàëèçàöèÿ ìåòîäà èçâëå÷å- íèÿ òåðìèíîëîãèè èç âõîäÿùèõ íàó÷íûõ òåêñòîâ, ïîëîæåííûõ â îñíîâó òàêîé ñèñ- òåìû.  ðàáîòå ïðîàíàëèçèðîâàíû ñóùåñòâóþùèå ïîäõîäû ê ïîñòðîåíèþ òåçàóðó- ñîâ è îïèñàí ðàçðàáîòàííûé ìåòîä àâòîìàòèçèðîâàííîãî îïðåäåëåíèÿ âàæíûõ óêðà- èíîÿçû÷íûõ òåðìèíîâ è òåðìèíîëîãè÷åñêèõ ñâÿçåé ìåæäó íèìè, êîòîðûé ðåàëèçîâàí â âèäå âåá-ñåðâèñà. Àíàëèç ýôôåêòèâíîñòè ìåòîäà ïðîâåäåí íà ðåàëüíûõ äàííûõ íàó÷íîé óêðàèíîÿçû÷íîé ïåðèîäèêè. Ðàçðàáîòàííûé êîìïîíåíò ñòàë åñòåñò- âåííîé ñîñòàâëÿþùåé ïîèñêîâîé ñèñòåìû óêðàèíîÿçû÷íûõ íàó÷íûõ äîêóìåíòîâ. Ïðè ðàçðàáîòêå ìåòîäà ó÷èòûâàëàñü îãðàíè÷åííîñòü âûïóùåííûõ äîêóìåí- òàðíûõ êîëëåêöèé íà óêðàèíñêîì ÿçûêå, ÷òî ïîòðåáîâàëî ó÷åòà âîçìîæíîñòè èòå- ðàòèâíîãî äîáàâëåíèÿ íàó÷íûõ äîêóìåíòîâ â òåðìèíîëîãè÷åñêèå áàçû ñ ïîñëåäó- þùèì îáíîâëåíèåì ñîäåðæàíèÿ òåçàóðóñà. Àêöåíòèðóåòñÿ âíèìàíèå íà îïèñàíèè ðåøåíèÿ ïðèêëàäíîé çàäà÷è ïîñòðîåíèÿ òåðìèíîëîãèè ñ îïèñàíèåì ñâÿçåé â ôîð- ìàòå RDF èç âõîäÿùèõ òåêñòîâ â øèðîêî óïîòðåáëÿåìîì ôîðìàòå pdf. 1. ÎÁÇÎÐ ÑÓÙÅÑÒÂÓÞÙÈÕ ÏÎÄÕÎÄΠ1.1. Ðîëü òåçàóðóñà â èíôîðìàöèîííîì ïîèñêå. Òåçàóðóñîì íàçûâàþò óïðàâ- ëÿåìûé ñëîâàðü, ñîäåðæàùèé ñåìàíòè÷åñêèå ñâÿçè ìåæäó òåðìèíàìè è óëó÷- øàþùèé ïðîöåññ ïîèñêà ñâÿçàííûõ òåðìèíîâ [3]. Îáû÷íî èíôîðìàöèîííàÿ ïîòðåáíîñòü ïîëüçîâàòåëÿ ïîèñêîâîé ñèñòåìû íå ñîîòâåòñòâóåò òåðìèíàì, êîòîðûå âñòðå÷àþòñÿ â äîêóìåíòàõ, èëè ïîëüçîâàòåëü ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 53 © À.Í. Ãëèáîâåö, È.Â. Ðåøåòí¸â, 2014 íåïðàâèëüíî ïîíèìàåò òåðìèíîëîãèþ îáëàñòè çíàíèé, â êîòîðîé îí îñóùåñòâëÿ- åò ïîèñê. Ïðè òàêèõ óñëîâèÿõ îäíèì èç ìåòîäîâ óëó÷øåíèÿ ïîèñêîâîé âûäà÷è ÿâëÿåòñÿ èñïîëüçîâàíèå òåçàóðóñîâ òåðìèíîâ ïðåäìåòíûõ îáëàñòåé [4]. Òåçàóðó- ñû ïðåäñòàâëÿþò ñîáîé òàáëèöû òåðìèíîâ è ñâÿçåé ìåæäó íèìè ñ óêàçàíèåì òèïà ñâÿçè (NT, BT, USE, RT) [3]. Èíôîðìàöèîííûå ñèñòåìû ìîãóò èñïîëüçîâàòü òåçàóðóñû íà ýòàïå èíäåêñàöèè äîêóìåíòîâ äëÿ áîëåå ïðàâèëüíîé êëàññèôèêà- öèè äîêóìåíòîâ ïî êàòåãîðèÿì èëè âî âðåìÿ ïîèñêà, ðàñøèðÿÿ ïîèñêîâûé çàïðîñ ïîëüçîâàòåëÿ ñâÿçàííûìè òåðìèíàìè. Ãëàâíàÿ ïðîáëåìà ñîñòàâëåíèÿ òåçàóðóñîâ çàêëþ÷àåòñÿ â òîì, ÷òî äëÿ áîëü- øèíñòâà êîììåð÷åñêèõ áàç äàííûõ, êîòîðûå ðàñïðîñòðàíÿþò íàó÷íóþ èíôîðìà- öèþ, îíè ñîñòàâëÿþòñÿ ýêñïåðòàìè èç îáëàñòåé çíàíèé, à òàêæå ñïåöèàëèñòàìè ïî ñîñòàâëåíèþ òåçàóðóñîâ.  íîâåéøèõ îáëàñòÿõ çíàíèé, ãäå ñîîòâåòñòâóþùàÿ òåðìèíîëîãèÿ òîëüêî ôîðìèðóåòñÿ è âûïóñêàåòñÿ áîëüøîå êîëè÷åñòâî íîâûõ ïóáëèêàöèé, òàêèõ êàê áèîèíôîðìàòèêà èëè êîìïüþòåðíàÿ èíæåíåðèÿ, òåðìèíî- ëîãè÷åñêèå ñëîâàðè î÷åíü áûñòðî óñòàðåâàþò, è èõ íóæíî îáíîâëÿòü ÷àùå, ñíîâà ïðèâëåêàÿ ýêñïåðòîâ.  ïðîòèâîïîëîæíîñòü òàêîìó ïîäõîäó ñóùåñòâóþò ìåòîäû àâòîìàòèçèðîâàííîãî ïîñòðîåíèÿ òåçàóðóñîâ, êîòîðûå â êà÷åñòâå êîðïóñà ïðèíè- ìàþò âñå íîâåéøèå ïóáëèêàöèè ïî òåìå è ñòðîÿò íà èõ îñíîâå âçàèìîñâÿçè ìåæ- äó òåðìèíàìè. Ñ ïîìîùüþ òàêîé ñèñòåìû îáíîâëÿòü òåðìèíîëîãè÷åñêèå ñâÿçè çíà÷èòåëüíî ïðîùå è äåøåâëå.  [2] ðàññìîòðåíû îñíîâíûå ìåòîäû àâòîìàòèçè- ðîâàííîãî ïîñòðîåíèÿ òåçàóðóñîâ, êîòîðûå èìåþò êàê ðàçëè÷íóþ ýôôåêòèâíîñòü è âðåìåííóþ îöåíêó ñëîæíîñòè, òàê è ïðèíöèïû: ñòàòèñòè÷åñêèé è ëåêñèêîãðà- ôè÷åñêèé. Îïèñàíèþ ðàçðàáîòêè íîâîãî ìåòîäà, èñïîëüçóþùåãî êîìáèíàöèþ èäåé, âñòðå÷àþùèõñÿ â ýòèõ ïîäõîäàõ, è ïîñâÿùåíà äàííàÿ ðàáîòà.  [5] äàåòñÿ ñëåäóþùåå îáîçíà÷åíèå òåçàóðóñà. Òåçàóðóñ — ýòî ëåêñèêî-ñå- ìàíòè÷åñêàÿ ìîäåëü êîíöåïòóàëüíîé ðåàëüíîñòè èëè åå ïðåäñòàâèòåëÿ, êîòîðàÿ âûðàæåíà â ôîðìå ñèñòåìû òåðìèíîâ è èõ âçàèìîñâÿçåé, ïðåäëàãàåò äîñòóï ñ ïî- ìîùüþ ìíîãèõ àñïåêòîâ è èñïîëüçóåòñÿ êàê ñèñòåìà îáðàáîòêè è ïîèñêà âíóòðè ìîäóëÿ èíôîðìàöèîííîé ïîèñêîâîé ñèñòåìû. Îòìåòèì, ÷òî àâòîð àêöåíòèðóåò âíèìàíèå íà ïðèíöèïèàëüíîé íåðàçðûâíîñòè òåîðåòè÷åñêîé ìîäåëè òåçàóðóñà è ïðàêòè÷åñêîãî ïðèìåíåíèÿ ïðîãðàììíûõ ìîäóëåé ñ òàêîé ôóíêöèîíàëüíîñòüþ. 1.2. RDF êàê ôîðìàò ïðåäñòàâëåíèÿ òåçàóðóñîâ. Ôîðìàò RDF — îäèí èç ñàìûõ ðàñïðîñòðàíåííûõ ñïîñîáîâ ïðåäñòàâëåíèÿ äàííûõ è ìåòàäàííûõ äëÿ òåõíîëîãèé ñåìàíòè÷åñêîãî âåáà. Íåñêîëüêî óïðîùàÿ, ìîæíî ñêàçàòü, ÷òî â îñíî- âå äàííîãî ôîðìàòà ëåæèò èäåÿ ïðåäñòàâëåíèÿ èíôîðìàöèè â âèäå òðèïëåòîâ «ñóáúåêò – ïðåäèêàò – îáúåêò». Òàêàÿ îáùàÿ è ïðîñòàÿ, íà ïåðâûé âçãëÿä, ìîäåëü ìîæåò óäà÷íî óäîâëåòâîðèòü ïîòðåáíîñòÿì òåçàóðóñà äëÿ îïèñàíèÿ åãî ñîäåðæà- íèÿ. Ñëåäóþùàÿ âàæíàÿ îñîáåííîñòü ôîðìàòà — øèðîêàÿ ìåæäóíàðîäíàÿ ïîä- äåðæêà íà óðîâíå ðåàëèçàöèè ïðèêëàäíûõ ñèñòåì. Êàê îòìå÷àëîñü ðàíåå, ðîëü òåçàóðóñà îïðåäåëÿåòñÿ íå òîëüêî òî÷íîñòüþ è îáúåìîì ïðåäñòàâëåííûõ òåðìè- íîëîãè÷åñêèõ ñâÿçåé, íî è ïðàêòè÷åñêîé ïðèìåíèìîñòüþ ïðîãðàììíîãî ìîäóëÿ, ïðîñòîòîé äîñòóïà è ïðèãîäíîñòüþ ê ìàøèííîé îáðàáîòêå. Èìåííî áëàãîäàðÿ âîçìîæíîñòè ïóáëèêàöèè äàííûõ, îáðàáîòàííûõ ñ ïîìîùüþ ïðîãðàììíîé ÷àñòè òåçàóðóñà, íåïîñðåäñòâåííî â Èíòåðíåò â îáùåïðèíÿòîì ôîðìàòå, àâòîðû ïðåä- ëîæèëè ôîðìàò RDF è îáåñïå÷èâàþùóþ ñèñòåìó âåá-ñåðâèñîâ ñ ïðîãðàììíûì èíòåðôåéñîì â êà÷åñòâå êîíå÷íîãî ôîðìàòà äîñòóïà ê òåçàóðóñó. Ñðåäè êîíêðåòíûõ ñïåöèôèêàöèé RDF ôîðìàò JSON-LD, ïðåäñòàâëåííûé â ñòàíäàðòå ISO-25964 [6], ïî ìíåíèþ àâòîðîâ íàñòîÿùåé ñòàòüè, íàèëó÷øèì îá- ðàçîì ñîîòâåòñòâóåò ïîñòàâëåííîé çàäà÷å ïóáëèêàöèè ðåñóðñîâ òåçàóðóñà â âèäå âåá-ñåðâèñà. Ê áàçîâûì êîíöåïöèÿì ôîðìàòà îòíîñÿòñÿ [7]: IRI — èíòåðíàöèî- íàëüíûå èäåíòèôèêàòîðû ðåñóðñîâ; êîíòåêñò, êîòîðûé ñëóæèò, â îñíîâíîì, äëÿ çàäàíèÿ ñîêðàùåíèé ê IRI; èäåíòèôèêàòîðû óçëîâ è òèïèçèðîâàííûå çíà÷åíèÿ. Ïðåäëîæåííûõ áàçîâûõ ýëåìåíòîâ ôîðìàòà äîñòàòî÷íî, ÷òîáû äàííûå òåçà- óðóñà ìèíèìàëüíî óäîâëåòâîðÿëè ñòàíäàðòó. 54 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 1.3. Àâòîìàòèçèðîâàííûå ìåòîäû ïîñòðîåíèÿ òåçàóðóñîâ. Ìåòîäû àâòî- ìàòèçèðîâàííîãî ñîñòàâëåíèÿ òåçàóðóñîâ ìîæíî ðàçäåëèòü íà äâà ïðèíöèïèàëü- íûõ êëàññà: ñòàòèñòè÷åñêèå, èíòåíñèâíî èñïîëüçóþùèå ÷àñòîòíûå è ïîçèöèîí- íûå õàðàêòåðèñòèêè òåðìèíîâ â äîêóìåíòàõ â êà÷åñòâå îñíîâû äëÿ ðàçëè÷íûõ ìîäåëåé âûÿâëåíèÿ ñâÿçåé ìåæäó òåðìèíàìè, è ëåêñèêîãðàôè÷åñêèå, èñïîëüçóþ- ùèå ñâåäåíèÿ èç ñôåðû îáðàáîòêè ÷åëîâå÷åñêîé ðå÷è äëÿ îñóùåñòâëåíèÿ ñèíòàê- ñè÷åñêîãî, ìîðôîëîãè÷åñêîãî è äðóãèõ âèäîâ àíàëèçà òåêñòà äëÿ óñòàíîâëåíèÿ ñåìàíòè÷åñêèõ ñâÿçåé íà îñíîâå èíôîðìàöèè, ïîëó÷åííîé èñêëþ÷èòåëüíî èç òåêñòà.  ëåêñèêîãðàôè÷åñêèõ ìåòîäàõ îáû÷íî èñïîëüçóþòñÿ ñîáðàííûå ýêñïåð- òàìè êîðïóñû ÿçûêîâ, êîòîðûå ñîäåðæàò ïðàâèëà îáùåãî óïîòðåáëåíèÿ ñëîâ, ñëîâîôîðìû è ñèíîíèìè÷åñêèå ðÿäû. Ðåàëèçàöèè ìíîæåñòâà ìåòîäîâ ñïîñîáñò- âóþò ïðîãðàììíûå ïàêåòû äëÿ ïðîâåäåíèÿ ïåðâîíà÷àëüíîãî àíàëèçà ñâîáîäíîãî òåêñòà.  ñâîþ î÷åðåäü, äëÿ ñòàòèñòè÷åñêèõ ìåòîäîâ òàêèì èíñòðóìåíòîì ÿâëÿ- þòñÿ óòèëèòû èíäåêñèðîâàíèÿ è ðàíæèðîâàíèÿ òåðìèíîâ. Îñíîâîé äëÿ ìíîãèõ ñòàòèñòè÷åñêèõ ìåòîäîâ ïîèñêà çàâèñèìîñòåé ìåæäó òåðìèíàìè ñëóæèò ñîçäàíèå èíäåêñà òåðìèíîâ, îïèñûâàþùèõ ñîäåðæàíèå äîêó- ìåíòîâ íàèëó÷øèì îáðàçîì, ÷òî îáû÷íî òðåáóåò ðàíæèðîâàíèÿ òåðìèíîâ ïî ñòå- ïåíè âàæíîñòè. Íàèáîëåå ïðèìåíÿåìûìè òåõíèêàìè âçâåøèâàíèÿ, ðàçðàáîòàí- íûìè äëÿ àëãîðèòìîâ ïîèñêîâûõ ñèñòåì, ÿâëÿåòñÿ èñïîëüçîâàíèå ÷àñòîòû òåðìèíà (TF), îáðàòíîé äîêóìåíòàðíîé ÷àñòîòû (IDF), à òàêæå èõ êîìáèíàöèé. Ìåòîä ñîâìåñòíîãî óïîòðåáëåíèÿ òåðìèíîâ — îäèí èç ïîäõîäîâ â èíôîðìà- öèîííîì ïîèñêå ê ôîðìèðîâàíèþ ìíîãîñëîâíûõ òåðìèíîâ [8]. Îñíîâíûå ýëå- ìåíòû äëÿ âû÷èñëåíèé â ìåòîäå — ÷àñòîòà âõîæäåíèÿ òåðìèíà â îïðåäåëåííûå ðàçíûå ïî ðàçìåðó êîíòåêñòíûå ðàìêè, òàêèå êàê öåëûé äîêóìåíò, ãëàâû äîêó- ìåíòà, ïàðàãðàôû è äðóãèå ýëåìåíòû. Ïðè ýòîì, ÷åì áëèæå ñëîâà âñòðå÷àþòñÿ â êîíòåêñòå âûáðàííîé ðàìêè, òåì áîëüøåé íàçíà÷àåòñÿ ìåðà ñîâìåñòíîãî óïîò- ðåáëåíèÿ. Íåêîòîðûå àâòîðû ñîìíåâàþòñÿ â êà÷åñòâå íàéäåííûõ òåðìèíîëîãè- ÷åñêèõ ñâÿçåé ñ ïîìîùüþ ýòîãî ìåòîäà. Íàïðèìåð, â [9] ãîâîðèòñÿ î íåýôôåêòèâ- íîñòè ñîñòàâëåííîãî ïî äàííîìó ìåòîäó òåçàóðóñà ïðèìåíèòåëüíî ê çàäà÷àì ïî- èñêà. Àâòîð [9] ïðåäëàãàåò ñâîé ïîäõîä, îí ââîäèò ïîíÿòèå êîíöåïòóàëüíîãî ïðîñòðàíñòâà êàê ñåòè òåðìèíîâ è âçâåøåííûõ àññîöèàöèé ìåæäó íèìè, êîòîðûå ñïîñîáíû îòîáðàçèòü êîíöåïòû è ñâÿçè ìåæäó íèìè â ñîîòâåòñòâóþùåì èíôîð- ìàöèîííîì ïðîñòðàíñòâå, ïðåäñòàâëåííîì â âèäå êîëëåêöèè äîêóìåíòîâ â áàçå äàííûõ. Ìîäåëü àññîöèàòèâíîãî ïîèñêà, âêëþ÷åííàÿ â äàííûé ìåòîä, ïðèáëèæåíà ê ìåíòàëüíûì ñïîñîáàì ïðåäñòàâëåíèÿ èíôîðìàöèîííûõ ïîòðåáíîñòåé ïîëüçîâàòåëåé ïîèñêîâîé ñèñòåìû â âèäå ñåòè òåðìèíîâ è ñâÿçåé ìåæäó íèìè, êîòîðûå, êàê ïðàâèëî, íå÷åòêèå. Ëåêñèêîãðàôè÷åñêèå ìåòîäû ïîèñêà ñâÿçåé ìåæäó òåðìèíàìè áàçèðóþòñÿ íà ïðèíöèïå ïðÿìîãî óêàçàíèÿ ñâÿçè ìåæäó ñëîâàìè ñ ïîìîùüþ ÿçûêîâûõ ñðåäñòâ, ïðè÷åì õàðàêòåð ñâÿçè ìîæíî îïðåäåëèòü, èñõîäÿ èç ñèíòàêñè÷åñêîãî è ëåêñè÷åñêîãî ñòðîåíèÿ âûñêàçûâàíèé.  ðàçðåçå ëåêñèêîãðàôè÷åñêèõ ìåòîäîâ ïîèñêà ñâÿçåé â òåðìèíîëîãèè èíòåðåñåí ñïîñîá ñîñòàâëåíèÿ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé, êàê îäèí èç ñàìûõ ïðîäóêòèâíûõ â ñëîâîîáðàçîâàíèè. Òàêèì îáðàçîì, èñïîëüçîâàíèå ëåêñèêîãðàôè÷åñêèõ ìåòîäîâ äëÿ íàïîëíåíèÿ òåçàóðóñà òåðìèíîëîãè÷åñêèìè îòíîøåíèÿìè ïðåäñòàâëÿåòñÿ íàèáîëåå ïîäõîäÿùèì ïî ñâîèì ïðèíöèïàì.  [9, 10] îòìå÷àëàñü îäíà èç ñàìûõ ðàñïðîñòðàíåííûõ ïðîá- ëåì âñåõ ñòàòèñòè÷åñêèõ ìåòîäîâ — ïðîáëåìàòèêà èíäåêñèðîâàíèÿ ôðàçîâûõ òåðìèíîâ èëè, â íàøåì ñëó÷àå, òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé.  ÷àñòíîñòè, àâòîðû îòìå÷àëè íåîáõîäèìîñòü ïîñòðîåíèÿ êà÷åñòâåííûõ ðåøåíèé íà îñíîâå ëèíãâèñòè÷åñêèõ îñîáåííîñòåé òåêñòîâ, â òîì ÷èñëå ñ èñïîëüçîâàíèåì òåõíèêè òåãèðîâàíèÿ ïî ÷àñòÿì ðå÷è, êàê îäíó èç ãëàâíûõ çàäà÷ óëó÷øåíèÿ ñòàòèñòè÷åñêèõ ìåòîäîâ â èíôîðìàöèîííîì ïîèñêå.  ñëåäóþùåì ëåêñèêîãðàôè÷åñêîì ìåòîäå êëþ÷åâóþ ðîëü èãðàåò ïîíÿòèå ãèïîíèìèè. Ãèïîíèìèÿ — ýòî îòíîøåíèå âèäà ê ðîäó â ëåêñèêî-ñåìàíòè÷åñêîé ñèñòåìå. Ðîäîâûå ñëîâà íàçûâàþò ãèïåðîíèìàìè, à âèäîâûå — ãèïîíèìàìè. Ïî- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 55 íÿòíî, ÷òî ÿâëåíèå ãèïîíèìèè íåïîñðåäñòâåííî óêàçûâàåò íà ñâÿçü òèïà «îá- ùåå–êîíêðåòíîå» ìåæäó òåðìèíàìè è ÿâëÿåòñÿ íåîòúåìëåìîé ñîñòàâëÿþùåé òå- çàóðóñîâ. Ðàçâèâàÿ ýòó èäåþ, Ì. Õåàðñò [11] ñîçäàë àâòîìàòèçèðîâàííûé ëåêñèêîãðàôè÷åñêèé ìåòîä âûäåëåíèÿ ãèïîíèìîâ èç òåêñòà. Äâå ãëàâíûå ïðîáëåìû, ðåøàåìûå ñ ïîìîùüþ äàííîãî ïîäõîäà, — ýëèìèíà- öèÿ íåîáõîäèìîñòè â ïðåäâàðèòåëüíî ñîñòàâëåííûõ áàçàõ çíàíèé ïî ïðåäìåòíîé îáëàñòè è âîçìîæíîñòü ïðèìåíåíèÿ ìåòîäà íà ðàçíîîáðàçíûõ òåêñòîâûõ êîëëåê- öèÿõ.  [11] ñîñòàâëåíî ìíîæåñòâî ëåêñèêî-ñèíòàêñè÷åñêèõ øàáëîíîâ, íåïîñðåä- ñòâåííî óêàçûâàþùèõ íà èñêîìûå ëåêñè÷åñêèå çàâèñèìîñòè, êîòîðûå ëåãêî ðàñ- ïîçíàòü â òåêñòå êàê ïðîãðàììíûìè ñðåäñòâàìè, òàê è ñàìîñòîÿòåëüíî. Ãèïîòåçà ìåòîäà ïîäòâåðæäàåò íàëè÷èå áîëüøîãî êîëè÷åñòâà ïîëåçíîé èíôîðìàöèè î ïðåäìåòíîé îáëàñòè â ñàìîì òåêñòå, êîòîðàÿ ìîæåò áûòü îáíàðóæåíà êàê ÷åëîâå- êîì, òàê è àëãîðèòìîì, íå ïðèáåãàÿ ê ñëèøêîì êîíêðåòíûì äåòàëÿì îïðåäåëåííûõ ÿâëåíèé è âåùåé, íå òðåáóÿ îò ñèñòåìû ãëóáîêîãî ëåêñèêîãðàôè- ÷åñêîãî èëè ñåìàíòè÷åñêîãî àíàëèçà. Äàííóþ òåõíèêó ïîèñêà òàêñîíîìè÷åñêèõ ñâÿçåé ïðåäëîæèë Aëüøàâè [12]. Îí èñïîëüçîâàë èåðàðõèþ øàáëîíîâ äëÿ èíòåðïðåòàöèè îïðåäåëåíèé, ñîñòîÿâ- øèõ ïðåèìóùåñòâåííî èç èíäèêàòîðîâ ÷àñòåé ðå÷è è ñèìâîëîâ-ìàñîê. Îñíîâíûì íåäîñòàòêîì äàííîãî ïîäõîäà àâòîðû ñ÷èòàþò ïðîáëåìó ïîäáîðà òàêîãî ìíîæåñ- òâà øàáëîíîâ, êîòîðûå ñ îäèíàêîâîé òî÷íîñòüþ óêàçûâàëè áû íà íàïðàâëåí- íîñòü ñâÿçè â òåêñòàõ ðàçëè÷íûõ ñòèëåé. Ðåçþìèðóÿ îñíîâíûå äîñòèæåíèÿ ìåòîäà, ìîæíî óêàçàòü íà ñðàâíèòåëüíóþ äå- øåâèçíó åãî ïðèìåíåíèÿ äëÿ àâòîìàòèçèðîâàííîãî ñáîðà ñåìàíòè÷åñêèõ ñâÿçåé â äîêóìåíòàõ. Ìåòîä ïîçèöèîíèðóåòñÿ êàê àëüòåðíàòèâà ñòàòèñòè÷åñêèì ìåòîäàì è ïî ñðàâíåíèþ ñ íèìè èìååò ïðåèìóùåñòâî â òî÷íîñòè ðàáîòû íà ðåäêèõ ñâÿçÿõ ìåæäó òåðìèíàìè, êîòîðûå âñòðå÷àþòñÿ â òåêñòå åäèíè÷íî è íå ìîãóò óäà÷íî îáðà- áàòûâàòüñÿ ñòàòèñòè÷åñêèìè ìåòîäàìè. Ïðåäñòàâëåííûå â èññëåäîâàíèè øàáëîíû è ñòðàòåãèè îòñå÷åíèÿ ìîäèôèêàòîðîâ ñóùåñòâèòåëüíûõ íå ïðåòåíäóþò íà ïîëíîòó è îñòàâëÿþò îïðåäåëåííóþ ñâîáîäó äëÿ áóäóùèõ äîïîëíåíèé. 2. ÈÒÅÐÀÒÈÂÍÛÉ ÊÎÌÁÈÍÈÐÎÂÀÍÍÛÉ ÌÅÒÎÄ ÏÎÑÒÐÎÅÍÈß ÒÅÐÌÈÍÎËÎÃÈÈ Â ýòîì ðàçäåëå îïèñàíû îñíîâíûå ýòàïû èòåðàòèâíîãî ìåòîäà ïîñòðîåíèÿ òåðìè- íîëîãèè ñ ïîìîùüþ êîìáèíàöèè ëåêñèêîãðàôè÷åñêèõ è ñòàòèñòè÷åñêèõ ìåòîäîâ. 2.1. Ñòðóêòóðíàÿ ñõåìà àëãîðèòìà. Ïðîöåññ ïîñòðîåíèÿ òåðìèíîëîãèè íà îñíîâå êîëëåêöèè òåêñòîâ ìîæíî ðàçäåëèòü íà äâà ïðèíöèïèàëüíûõ øàãà: 1) âû- äåëåíèå ìíîæåñòâà ñëîâ, âñòðå÷àþùèõñÿ â òåêñòàõ äîêóìåíòîâ, îòâå÷àþùèõ òåð- ìèíàì â îáëàñòè çíàíèé ñîîòâåòñòâóþùèõ äîêóìåíòîâ; 2) óñòàíîâêà íà ìíîæåñò- âå äàííûõ òåðìèíîâ îòíîøåíèé, èñïîëüçóåìûõ â òåçàóðóñå. Çàäà÷à âûäåëåíèÿ òåðìèíîâ èç ìíîæåñòâà âñåõ ñëîâ äîêóìåíòà ñìûñëîâûì îáðàçîì ïîäîáíà îáû÷íîé îïåðàöèè èíäåêñèðîâàíèÿ òåêñòîâ ïîèñêîâûìè ñèñòå- ìàìè, ÷òî è áûëî èñïîëüçîâàíî â íàøåì ìåòîäå äëÿ ïîëó÷åíèÿ óïîðÿäî÷åííîãî ñïèñêà óíèêàëüíûõ ñëîâ êîëëåêöèè, ñ ïðèìåíåíèåì òåõíèêè âçâåøèâàíèÿ TFIDF. Ïðè ýòîì â íà÷àëå òàêîé ïîñëåäîâàòåëüíîñòè ñîäåðæàòñÿ ñëîâà, íàèëó÷- øèì îáðàçîì õàðàêòåðèçóþùèå ñîäåðæàíèå äîêóìåíòîâ, à ñëåäîâàòåëüíî, ÿâëÿ- þùèåñÿ êàíäèäàòàìè â òåðìèíû. Äëÿ îãðàíè÷åíèÿ òàêîãî ñïèñêà ñëîâ ìîæíî ââåñòè îïåðàòîð, êîòîðûé ïðå- äîñòàâèë áû âîçìîæíîñòü îïðåäåëèòü ãðàíè÷íûé ýëåìåíò ñïèñêà, ïîñëå êîòîðîãî èäóò îáùåóïîòðåáèòåëüíûå ñëîâà, íå ÿâëÿþùèåñÿ òåðìèíàìè. Äàííûé îïåðàòîð ìîæåò èìåòü ñëåäóþùèå âàðèàöèè äëÿ íàøåãî ìåòîäà. «Ñòîï-ñïèñîê» — îïåðàòîð, îòñåêàþùèé çàäàííîå ïàðàìåòðîì êîëè÷åñòâî ñëîâ â õâîñòå ïîñëåäîâàòåëüíîñòè. Òàêîé ïîäõîä èñïîëüçóåò îäèí èç ïîïóëÿðíûõ ìå- òîäîâ óäàëåíèÿ ñòîï-ñëîâ â ïîèñêîâûõ ñèñòåìàõ, îäíàêî îñòàåòñÿ ÷óâñòâèòåëü- íûì ê ðàçìåðó êîëëåêöèè òåêñòîâ. Ïðîïîðöèîíàëüíûé îïåðàòîð ïîäîáåí îïåðà- òîðó «ñòîï-ñïèñîê», ñ îãðàíè÷åíèåì â êà÷åñòâå ïàðàìåòðà îïðåäåëåííîãî ïðî- öåíòà ñëîâ â õâîñòå ïîñëåäîâàòåëüíîñòè, îñíîâàííûé íà ñòàòèñòè÷åñêîì ðàñïðåäåëåíèè ÷èñëà òåðìèíîâ â êîëëåêöèÿõ íàó÷íûõ òåêñòîâ. 56 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6  ðåçóëüòàòå âû÷èñëèòåëüíûõ ýêñïåðèìåíòîâ áûëî ðåøåíî îñòàíîâèòüñÿ íà ïðîïîðöèîíàëüíîì ïîäõîäå ê îãðàíè÷åíèþ âõîäíîãî ñïèñêà òåðìèíîâ, èñõîäÿ èç åãî ïðåèìóùåñòâ ïðè îáðàáîòêå íåïîäãîòîâëåííûõ òåêñòîâûõ êîëëåêöèé. Ïðîâåäåíî îöåíêó òåðìèíîâ ïî ìåòðèêå äîêóìåíòàðíîé ÷àñòîòû ýòàëîííîé êîëëåêöèè. Ïîíÿòíî, ÷òî ñïîñîáû îãðàíè÷åíèÿ ñïèñêà ñëîâ áóäóò ðàáîòàòü òîëüêî ïðè óñëîâèè ïðèìåíåíèÿ íàäåæíîé ñõåìû âçâåøèâàíèÿ, ÷òî, â ñâîþ î÷åðåäü, â íà- øåì ñëó÷àå áóäåò çàâèñåòü îò ñïîñîáà ïîäñ÷åòà ñîñòàâëÿþùåé äîêóìåíòàðíîé ÷àñ- òîòû òåðìèíîâ, ÷óâñòâèòåëüíîé ê ñîñòàâó è ðàçìåðó êîëëåêöèé.  äàííîé ðàáîòå ïðîáëåìó ìàëûõ êîëëåêöèé òåêñòîâ äëÿ íàäåæíîãî âçâåøè- âàíèÿ ïðåäëîæåíî ðåøàòü ïóòåì íàïîëíåíèÿ è èñïîëüçîâàíèÿ ñïðàâî÷íîé ñèñòå- ìû äîêóìåíòàðíûõ ÷àñòîò òåðìèíîâ. Ñïðàâî÷íàÿ ñèñòåìà áàçèðóåòñÿ íà ïîñòðîå- íèè è èíäåêñàöèè áîëüøîé è ðàçíîîáðàçíîé ó÷åáíîé êîëëåêöèè òåêñòîâ íàó÷íîé òåìàòèêè ñ ïîñëåäóþùèì õðàíåíèåì ïîëó÷åííûõ äîêóìåíòàðíûõ ÷àñòîò êàê ýòà- ëîííûõ.  êà÷åñòâå äîêóìåíòàðíîé îñíîâû äëÿ òàêîé êîëëåêöèè ïðåäëîæåíî ïîëíîå ñîáðàíèå ñòàòåé æóðíàëà «Íàó÷íûå çàïèñêè ÍàÓÊÌÀ». Ïîñëå ïîëó÷åíèÿ ïåðâîî÷åðåäíîãî ñïèñêà òåðìèíîâ äëÿ ñîñòàâëåíèÿ òåçàóðóñà íåîáõîäèìî îïðåäåëèòü õàðàêòåð è íàïðàâëåííîñòü ñâÿçåé ìåæäó òåðìèíàìè. Ââåäåì ïîíÿòèå õàðàêòåðèñòè÷åñêîãî ôðàãìåíòà òåêñòà, êîòîðûé ÿâëÿåòñÿ íåïîñðåäñòâåííûì âõîæäåíèåì òåðìèíà â äîêóìåíò â îïðåäåëåííîì êîíòåêñòå. Èç ìíîæåñòâà ìåòîäîâ ðàññìîòðåíèÿ êîíòåêñòà óïîòðåáëåíèÿ ñëîâ, íàïðèìåð ÷àñòåé îêðóæàþùèõ ñëîâîñî÷åòàíèé è îáîðîòîâ, ïðåäëîæåíèé, îêîí ñ ôèêñèðî- âàííûì ðàçìåðîì êîëè÷åñòâà ñëîâ, ìû âûáðàëè èìåííî ïðåäëîæåíèÿ â êà÷åñòâå îñíîâû äëÿ íàøèõ èññëåäîâàíèé, èñõîäÿ èç èìåþùèõñÿ èíñòðóìåíòîâ, êîòîðûå ïîçâîëÿëè áû ïðèìåíèòü ìåòîäèêó òåãèðîâàíèÿ ïî ÷àñòÿì ðå÷è â êà÷åñòâå îñíîâû äëÿ ëåêñèêîãðàôè÷åñêèõ ìåòîäîâ. Ñëåäóþùèé øàã — íàõîæäåíèå õàðàêòåðèñòè÷åñêèõ ôðàãìåíòîâ òåêñòà âñåõ òåðìèíîâ èç ñïèñêà. Äàííûé ïîèñê ìîæíî îñóùåñòâèòü ëèíåéíî, îäíàêî, ïðåäó- ñìàòðèâàÿ âîçìîæíîñòü ìàñøòàáèðîâàíèÿ ðàçðàáîòàííîãî ìåòîäà, ïðåäëîæåíî èñ- ïîëüçîâàòü îäíó èç ïîèñêîâûõ ñèñòåì ñ îòêðûòûì êîäîì, êîòîðàÿ âîçâðàùàëà áû âñå äîêóìåíòû èç íàøåé êîëëåêöèè, ñîäåðæàùèå îïðåäåëåííûé òåðìèí, òàêèì îá- ðàçîì îãðàíè÷èâàÿ ïðîñòðàíñòâî ëèíåéíîãî ïîèñêà. Äàëåå, ñðåäè íàéäåííûõ äîêó- ìåíòîâ îñóùåñòâëÿåòñÿ ëèíåéíûé ïîèñê õàðàêòåðèñòè÷åñêèõ ôðàãìåíòîâ. Íà ñëåäóþùåé ñòàäèè ðàáîòû ìåòîäà àíàëèçèðóþòñÿ âñå íàéäåííûå õàðàê- òåðèñòè÷åñêèå ôðàãìåíòû ñ ïðèìåíåíèåì ðàçëè÷íûõ ìåòîäèê äëÿ îïðåäåëåíèÿ òèïà ñâÿçè. Ïðèìåíåíèå ïðîñòîãî ìåòîäà ñîâìåñòíîãî óïîòðåáëåíèÿ òåðìèíîâ âíóòðè îäíîãî õàðàêòåðíîãî ôðàãìåíòà ïîçâîëÿåò óñòàíîâèòü ñâÿçü òåðìèíîâ (RT), åñëè îíè âõîäÿò â õàðàêòåðíûå ôðàãìåíòû òåêñòà âìåñòå ñ íà÷àëüíûì òåð- ìèíîì; ïðèìåíåíèÿ ìíîæåñòâà îïðåäåëåííûõ ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ ïî- çâîëÿåò íàéòè ñâÿçè òèïîâ BT, NT è RT. Ïðîâåäåì ðàñøèðåíèå òåçàóðóñà ñ ïîìîùüþ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷å- òàíèé. Ïðèìåíåíèå ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ áàçèðóåòñÿ íà ìåòîäå íàõîæ- äåíèÿ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé, êîòîðûé, â ñâîþ î÷åðåäü, â ñëó÷àå ñî- âïàäåíèÿ øàáëîíà ñ òåêñòîì ïîçâîëÿåò âûäåëèòü íå òîëüêî îäíîñëîâíûå òåðìè- íû, íî è ñîñòîÿùèå èç íåñêîëüêèõ ñëîâ. Åñòåñòâåííî, òåðìèíîâ âòîðîãî òèïà íàìíîãî áîëüøå. Òàêèì îáðàçîì, ïîáî÷íûì ïðîäóêòîì ïðèìåíåíèÿ ëåêñèêîãðà- ôè÷åñêèõ øàáëîíîâ ÿâëÿåòñÿ ðàñøèðåíèå ïåðâîî÷åðåäíîãî ñïèñêà òåðìèíîâ òåð- ìèíîëîãè÷åñêèìè ñëîâîñî÷åòàíèÿìè. Ýòîãî íåëüçÿ áûëî äîñòè÷ü íà ïåðâîì ýòà- ïå ñ ïîìîùüþ èíäåêñèðîâàíèÿ â ðàìêàõ èñïîëüçîâàííûõ èíñòðóìåíòîâ. Äëÿ ïðèìåíåíèÿ îïðåäåëåííûõ íàìè ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ ââåäåì òàêóþ ôîðìàëüíóþ íîòàöèþ. Ëåêñèêîãðàôè÷åñêèé øàáëîí (Lexicographic Pattern — LP) — óïîðÿäî÷åííûé ñïèñîê îïåðàòîðîâ ñîïîñòàâëåíèÿ. Îïåðàòîð ñî- ïîñòàâëåíèÿ — êîìàíäà, êîòîðàÿ òðåáóåò ïðèìåíåíèÿ îïåðàöèè ïîèñêà ñîâïàäå- íèÿ òèïà ñóùåñòâèòåëüíîãî ñëîâîñî÷åòàíèÿ (Noun Phrase — NP) èëè êîíêðåòíî- ãî ñëîâà, èëè ñèìâîëà èç ñèíîíèìè÷åñêîãî ðÿäà (Exact Word — EW). NP — îïåðàòîð ñîïîñòàâëåíèÿ, âûïîëíÿþùèé ïîèñê ñóùåñòâèòåëüíîãî ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 57 ñëîâîñî÷åòàíèÿ çà ñ÷åò ïðèìåíåíèÿ óêàçàííûõ äëÿ êàæäîãî òàêîãî îïåðàòîðà ñïèñêà ïðàâèë ñîâïàäåíèÿ ïî ÷àñòÿì ðå÷è. Âîçâðàùàåò â êà÷åñòâå ðåçóëüòàòà âñå íàéäåííûå âî ôðàçå ñóùåñòâèòåëüíûå ñëîâîñî÷åòàíèÿ â ïîðÿäêå çàäàííûõ ïðà- âèë ñîâïàäåíèÿ, à òàêæå ïîçèöèè íàéäåííûõ ñóùåñòâèòåëüíûõ ñëîâîñî÷åòàíèé â ôðàçå. Ê îïåðàòîðàì ñîïîñòàâëåíèÿ äàííîãî òèïà â êà÷åñòâå ïàðàìåòðà ìîæíî çàäàòü èõ ðîëü (èíäåêñû 1 è 0). Ðîëü îïåðàòîðà NP — èíäåêñ 1 èëè 0, êîòîðûé óêàçûâàåò íà ãëàâíóþ èëè âòî- ðîñòåïåííóþ ðîëü äàííîãî îïåðàòîðà â øàáëîíå (çàïèñûâàåòñÿ êàê NP1 èëè NP0). EW — îïåðàòîð ñîïîñòàâëåíèÿ, îñóùåñòâëÿþùèé ïîèñê âõîæäåíèÿ êîí- êðåòíîãî ñèìâîëà èëè ñëîâà â ôðàçó èç ñïèñêà âîçìîæíûõ àëüòåðíàòèâ, âîçâðà- ùàåò ïîçèöèè âõîæäåíèé òàêèõ ñëîâ. W — îïåðàòîð îêíà, êîòîðûé óêàçûâàåò ìèíèìàëüíûå è ìàêñèìàëüíûå ðàì- êè îêíà, èãðàåò ðîëü ìàñêè ñîâïàäåíèÿ ñ ëþáûìè ïîñëåäîâàòåëüíîñòÿìè ñëîâ â ïðåäëîæåíèè. IT — îïåðàòîð èòåðàöèè, êîòîðûé îáîçíà÷àåò ïîâòîðÿþùóþñÿ ïîñëåäîâà- òåëüíîñòü îïåðàòîðîâ â øàáëîíå. Ïðàâèëî ñõîäèìîñòè ( )MR — çàäàííàÿ ïîñëåäîâàòåëüíîñòü òåãîâ ÷àñòåé ðå÷è, êîòîðîé äîëæíà ñîîòâåòñòâîâàòü ïîäïîñëåäîâàòåëüíîñòü ñëîâ â ïðåäëîæåíèè. Òåãè ÷àñòåé ðå÷è ( , , )N A P — ïàðàìåòðû êîíôèãóðàöèè ïðàâèë ñîïîñòàâëå- íèÿ äëÿ âûäåëåíèÿ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé, îáîçíà÷àþùèõ ñóùåñò- âèòåëüíîå ( )N , ïðèëàãàòåëüíîå ( )A è ïðåäëîã ( )P ñîîòâåòñòâåííî. Óäîâëåòâîðåíèå øàáëîíà — íàõîæäåíèå ìíîæåñòâà óäîâëåòâîðÿþùèõ îïå- ðàòîðàì ñîïîñòàâëåíèÿ ïîäïîñëåäîâàòåëüíîñòåé ñëîâ, ãäå êàæäàÿ ïîçèöèÿ òàêîé ïîäïîñëåäîâàòåëüíîñòè îòâå÷àåò êàê ïîðÿäêó âõîæäåíèÿ â ôðàçó, òàê è ïîðÿäêó îïåðàòîðà, îïðåäåëåííîãî â øàáëîíå. Âñå âîçìîæíûå ñîâïàäåíèÿ ïî îòäåëüíûì îïåðàòîðàì äîëæíû áûòü îáúåäèíåíû â ðåçóëüòèðóþùåå ìíîæåñòâî ïóòåì îãðàíè÷åíèÿ ïî ïðàâèëàì. Íàïðèìåð, ÷òîáû çàôèêñèðîâàòü â íàøåé ôîðìàëüíîé íîòàöèè ëåêñèêîãðà- ôè÷åñêèé øàáëîí, îòâå÷àþùèé çà ïðÿìûå îïðåäåëåíèÿ ñ èñïîëüçîâàíèåì òèðå, íóæíî çàïèñàòü ñëåäóþùåå: LP NP MR A N EW NP MR N N� � � �� � ��( ( , ), (“ ”, ” ”), ( , ))0 1 . Òàêîìó øàáëîíó óäîâëåòâîðÿåò ôðàçà: «Ñîöèîëîãè÷åñêîå èññëåäîâàíèå — ñèñ- òåìà ïðîöåäóð äëÿ ïîëó÷åíèÿ íàó÷íûõ çíàíèé î ñîöèàëüíûõ ÿâëåíèÿõ è ïðîöåññàõ». Ïðè ýòîì ïåðâîìó îïåðàòîðó ñîïîñòàâëåíèÿ áóäåò îòâå÷àòü òåðìèíîëîãè÷åñêîå ñëî- âîñî÷åòàíèå «ñîöèîëîãè÷åñêîå èññëåäîâàíèå», îïåðàòîðó ñîïîñòàâëåíèÿ ïî ñëîâó áûëî ïðåäîñòàâëåíî äâå àëüòåðíàòèâû — ñîáñòâåííî ñèìâîë «òèðå», à òàêæå äåôèñ äëÿ îáðàáîòêè ñëó÷àåâ çàìåíû äàííîãî ñèìâîëà â èñõîäíîì òåêñòå, ïîñëåäíåìó îïå- ðàòîðó ñîîòâåòñòâóåò ñëîâîñî÷åòàíèå «ñèñòåìà ïðîöåäóð». Òàêèì îáðàçîì, îïåðàòîðû ñîïîñòàâëåíèÿ òèïà EW â øàáëîíå èãðàþò ðîëü ôèê- ñèðîâàííûõ òî÷åê øàáëîíà, â òî âðåìÿ êàê îïåðàòîðû NP — ðîëü íàïîëíÿåìûõ ïåðå- ìåííûõ, èçâëåêàþùèõ ñëîâîñî÷åòàíèÿ èç ôðàç âî âðåìÿ óäîâëåòâîðåíèÿ øàáëîíà. Ïðîâåäåì èíòåðïðåòàöèþ ñâÿçåé ïî ñîâïàäåíèÿì òåêñòà ñ øàáëîíîì. Ïðè ñî- ñòàâëåíèè øàáëîíà ïàðàìåòðàì NP äîïîëíèòåëüíî óêàçûâàåòñÿ ïàðàìåòð ãëàâíîé èëè âòîðîñòåïåííîé ðîëè â øàáëîíå, êîòîðûå èíòåðïðåòèðóþò ñâÿçè ìåæäó ïîëó- ÷åííûìè ñîâïàäåíèÿìè ïî NP ñëåäóþùèì îáðàçîì: ìåæäó ïðåäñòàâèòåëÿìè NP0 è NP1 óñòàíàâëèâàåòñÿ ñâÿçü BT; ìåæäó ïðåäñòàâèòåëÿìè NP1 è NP0 óñòàíàâëè- âàåòñÿ ñâÿçü NT ; ìåæäó ïðåäñòàâèòåëÿìè îäèíàêîâûõ ðîëåé — ñâÿçü RT . Îñíîâîé äëÿ òàêîé èíòåðïðåòàöèè ÿâëÿåòñÿ òî, ÷òî â áîëüøèíñòâå øàáëîíîâ íà ñîîòâåòñòâóþùèõ ìåñòàõ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé ïî ÷àñòÿì ïðåäëîæåíèÿ áûâàþò èëè îäíîðîäíûå îïðåäåëåíèÿ, èëè ïðèëîæåíèÿ, èëè îá- îáùàþùèå ñëîâà, èëè, íàïðèìåð, â ñëó÷àå ñîïîñòàâëåíèÿ ñ øàáëîíîì ïðÿìûõ îïðåäåëåíèé â òåêñòå — ñîîòâåòñòâåííî òåðìèí è åãî ðîäîâàÿ ïðèíàäëåæíîñòü. Òàêèì îáðàçîì, â òåêñòå â ñëó÷àå ñîâïàäåíèÿ ñ øàáëîíîì íàïðàâëåííîñòü ñâÿçè ÷åòêî îïðåäåëåíà. 58 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 Äëÿ ðåàëèçàöèè àëãîðèòìà ïîèñêà ãèïîíèìîâ ïî Õåàðñòó ñíà÷àëà íåîáõîäè- ìî íàó÷èòü ñèñòåìó ðàñïîçíàâàòü ôðàçîâûå ñëîâîñî÷åòàíèÿ. Ïðåäëàãàåìûé ïîä- õîä — ôèêñàöèÿ ñóùåñòâèòåëüíûõ â ïðåäëîæåíèè ñ ïîñëåäóþùèì ïîäáîðîì îêðóæàþùèõ ñëîâ ïî ïðàâèëàì. Ó÷èòûâàÿ ñõîäñòâî íàó÷íîãî ñòèëÿ ïðè ïîäà÷å îïðåäåëåíèé íà ìíîãèõ ÿçû- êàõ, êàæåòñÿ óäà÷íîé ìûñëü î ëîêàëèçàöèè ðàçðàáîòàííûõ Õåàðñòîì øàáëîíîâ äëÿ óêðàèíñêîãî ÿçûêà ñ äîáàâëåíèåì íîâûõ. Äëÿ òîãî ÷òîáû ñóçèòü ðàìêè èññëåäîâàíèÿ è äîñòè÷ü îïðåäåëåííîãî ðåçóëü- òàòà äëÿ ñïåöèôè÷åñêèõ, è âìåñòå ñ òåì íàèáîëåå óïîòðåáëÿåìûõ ñïîñîáîâ ñî- çäàíèÿ òåðìèíîëîãèè, áûëè ïðèâëå÷åíû òîëüêî òåðìèíû-ñóùåñòâèòåëüíûå è ñó- ùåñòâèòåëüíûå ñëîâîñî÷åòàíèÿ. Èç øàáëîíîâ, îòâå÷àþùèõ çà ñâÿçè ìåæäó òåðìèíàìè â ïðåäëîæåíèè, âû- áðàíû ñëåäóþùèå êàòåãîðèè: � ïðÿìûå îïðåäåëåíèÿ è äåôèíèöèè ñ èñïîëüçîâàíèåì õàðàêòåðíûõ äëÿ óê- ðàèíñêîãî ÿçûêà çíàêîâ ïóíêòóàöèè è ñëîâ-ñâÿçåé; � øàáëîíû ïî Õåàðñòó; � øàáëîí íà îáîçíà÷åíèå ñâÿçåé ÷àñòü–öåëîå. Âñå ïðåäñòàâëåííûå øàáëîíû ðàñøèðÿþòñÿ ñèíîíèìè÷íûìè è ïîõîæèìè â óïîòðåáëåíèè ñëîâàìè â ôîðìóëàõ øàáëîíà. Ïðè ñîïîñòàâëåíèè ïðåäëîæåíèé ñ øàáëîíîì âñå ñëîâà ïðèâîäÿòñÿ ê íîðìàëüíîé ôîðìå, ÷òî ïîçâîëÿåò óìåíüøèòü íåîáõîäèìîå êîëè÷åñòâî âàðèàöèé øàáëîíà. Äåòàëüíî ðàçðàáîòàííûå øàáëîíû ïðåäñòàâëåíû â òàáë 1. Ïðè ïðèìåíåíèè ïðàâèë øàáëîíà ó÷èòûâàåòñÿ èõ î÷åðåäíîñòü, òàêèì îáðà- çîì, â ïåðâóþ î÷åðåäü îòûñêèâàþòñÿ ñóùåñòâèòåëüíûå â êà÷åñòâå ýëåìåíòîâ ñî- âïàäåíèÿ ñëîâîñî÷åòàíèÿ, ñ áîëüøèì êîëè÷åñòâîì ñëîâ, à çíà÷èò, áîëåå ðåäêèå â óïîòðåáëåíèè. 2.2. Ìàòåìàòè÷åñêàÿ ìîäåëü è àëãîðèòìè÷åñêàÿ ôîðìàëèçàöèÿ ìåòîäà. Ââåäåì ñëåäóþùèå îáîçíà÷åíèÿ: D — ìíîæåñòâî òåêñòîâûõ äîêóìåíòîâ, LP — ìíîæåñòâî ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ, T — ìíîæåñòâî òåðìèíîâ òåçàóðóñà, TF — îòñîðòèðîâàííûé ïî ìåòðèêå TFIDF è îãðàíè÷åííûé ôóíêöèåé limit T( ) ñïèñîê âàæíûõ îäíîñëîâíûõ òåðìèíîâ êîëëåêöèè, TE — ìíîæåñòâî ìíîãîñëîâ- íûõ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé, R — ìíîæåñòâî ñâÿçåé òåçàóðóñà, R T T Rli �{ }( , , )1 2 , ãäå Rl RT BT NT�{ }, , è T T Tt1 2, � — ìíîæåñòâî õàðàêòåðèñòè- ÷åñêèõ ôðàãìåíòîâ òåêñòà äëÿ òåðìèíà t, SC — ìíîæåñòâî ïðåäëîæåíèé õàðàê- òåðíîãî ôðàãìåíòà Ñ, LemS — ìíîæåñòâî ëåìàòèçèðîâàííûõ ñëîâ ïðåäëîæåíèÿ S , M lp — ïîñëåäîâàòåëüíîñòü ñîâïàâøèõ ñ ëåêñèêîãðàôè÷åñêèì øàáëîíîì òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé. Òàêæå ââåäåì ñëåäóþùèå ôóíêöèè: lm T t t T t t TS F( ) : | |{ } { }� � �' ' — ôóíêöèÿ îãðàíè÷åíèÿ îòñîðòèðîâàííîãî ñïèñêà òåðìèíîâ; ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 59 Ò à á ë è ö à 1. Ïåðå÷åíü ðàçðàáîòàííûõ ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ â ôîð- ìàëüíîé íîòàöèè Íàçâàíèå Ôîðìàëüíàÿ çàïèñü ïðàâèë øàáëîíà MR1-9 MR NPNN� �, MR ANNN� �, MR ANAN� �, MR ANN� �, MR NAN� �, MR NN� �, MR AN� �, MR N� � LP1 NP EW EW1, | ,� � � ��’ ‘ ’ ‘ ‘öå’ |‘º’|‘îçíà÷ຑ |‘ââàæàºòüñÿ‘, NP0 LP2 EW �’òàêèé‘� �, ,NP EW1 ‘ÿê’� �, { ,ITNP EW0 ’,’� �},EW ’’³ |’àáî’ | ’é’ | ’òà’�, NP0 LP3 NP ITEW NP EW0 0, ’ ,’ , ,� � � ’³’|’àáî’|’é’|’òà’ � �, EW ‘³íøèé’�, NP1 LP4 NP EW EW1, ’ ,’ ,� � � ’âêëþ÷àþ÷è’|’à ñàìå’|’çîêðåìà’|’îñîáëèâî’� , ITNP EW EW0, ’ ,’ ,� � � ’³’|’àáî’|’é’|’òà’�, NP0 LP5 NP W EW0 0 3, , ,� � � ’áóòè ÷àñòèíîþ’|’âõîäèòè â’� � �, , ,W NP0 3 1 LP6 NP W EW1 0 3, , ,� � � ‘ñêëàäàòèñÿ ç’|‘ï³äðîçä³ëÿòèñÿ íà’ � � �, ,W 0 3 , ITNP EW EW0, ’ ,’ ,� � � ’³’|’àáî’|’é’|’òà’�, NP0 extract d D t t T( ) : |� �{ } — ôóíêöèÿ èçâëå÷åíèÿ òåðìèíîâ èç äîêóìåíòà; sort T d T D t t t i j tf t d idf t T i j i( , ) : ( ) , , , ( ) ( | | ,{ } � � � ' 1 i j jf t d idf t) ( ) ( ),� — ôóíêöèÿ, êîòîðàÿ ñòðîèò ïîñëåäîâàòåëüíîñòü îòñîðòèðîâàííûõ òåðìèíîâ äîêó- ìåíòà ïî óáûâàíèþ ìåòðèêè TFIDF; tf t d T D R( , ) : � — ôóíêöèÿ âû÷èñëåíèÿ ÷àñòîòû òåðìèíà â äîêóìåíòå; idf t T R( ) : � — ôóíêöèÿ, ñòàâÿùàÿ êàæäîìó òåðìèíó â ñîîòâåòñòâèå åãî èíâåðòèðîâàííóþ äîêóìåíòàðíóþ ÷àñòîòó ñ ýòàëîííîé êîëëåêöèè; findCF t T c Ct( ) : � �{ } — ôóíêöèÿ ïîèñêà õàðàêòåðèñòè÷åñêèõ ôðàãìåíòîâ òåðìèíà; split c C s s St C( ) : |� �{ } — ôóíêöèÿ ðàçáèåíèÿ õàðàêòåðèñòè÷åñêîãî ôðàã- ìåíòà òåêñòà íà ïðåäëîæåíèÿ; lem s S lem lem LemC S( ) : ( | )� � — ôóíêöèÿ èçâëå÷åíèÿ ïîñëåäîâàòåëüíîñòè ëåì èç ïðåäëîæåíèÿ; match lp s LP S m m MC lp( , ) : | � �{ } — ôóíêöèÿ óäîâëåòâîðåíèÿ øàáëîíà, êîòîðàÿ âîçâðàùàåò ìíîæåñòâî ïîñëåäîâàòåëüíîñòåé ñîâïàâøèõ òåðìèíîëîãè- ÷åñêèõ ñëîâîñî÷åòàíèé â ïîðÿäêå ñëåäîâàíèÿ ïîçèöèé øàáëîíà; inrs M m m M Rlp lp( ) : |{ }� � — ôóíêöèÿ óñòàíîâëåíèÿ ñâÿçåé íà ìíîæåñòâå ïîñëåäîâàòåëüíîñòåé ñîâïàäåíèé ñ øàáëîíîì. Ðàçðàáîòàííûé ìåòîä ïîñòðîåíèÿ òåçàóðóñà ìîæíî ïðåäñòàâèòü àëãîðèòìîì, ïîêàçàííûì íà ðèñ. 1. Èñïîëüçóåòñÿ òàêæå ñëåäóþùàÿ ôîðìàëèçàöèÿ ïðàâèë ñî- âïàäåíèÿ ñ ëåêñèêîãðàôè÷åñêèì øàáëîíîì: LP pe pe PEl� �{ }( ) | 1 — ìíîæåñòâî ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ, çàäàí- íîå êàê ìíîæåñòâî ýëåìåíòîâ øàáëîíà. PE NP NP EW W IT� { }0 1, , , , — ýëåìåíòû øàáëîíà; NP mr mr MR NP mr mr MRm m 0 1 1 1 0 1� � � �{ } { }(( ) , ) | ; (( ) , ) | — ìíîæåñòâà êî- ìàíä ïîèñêà òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé ñ óêàçàíèåì ãëàâíîé (1) èëè âòîðîñòåïåííîé (0) ðîëè ñëîâîñî÷åòàíèÿ â øàáëîíå; MR tag tag N A Pk� �{ { }}( ) | ' ' , ' ' , ' ' 1 — ìíîæåñòâî ïðàâèë ñîâïàäåíèÿ, çàäàí- íîå ïîñëåäîâàòåëüíîñòÿìè òåãîâ ÷àñòåé ðå÷è; 60 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 Ðèñ 1. Àëãîðèòì ïîñòðîåíèÿ òåðìèíîëîãèè EW ew ew Lemn� �{ }( ) | 1 — ìíîæåñòâî êîìàíä ïîèñêà ïðÿìîãî ñîâïàäåíèÿ ïî ñëîâó, êîòîðîå çàäàíî íà ïîñëåäîâàòåëüíîñòÿõ àëüòåðíàòèâ ëåì; W N� �{ }(min, max) | min, max — ìíîæåñòâî êîìàíä ïîèñêà îêîí, êîòîðîå çàäàíî ïàðàìè ìèíèìàëüíîé è ìàêñèìàëüíîé äëèíû îêíà â ïðåäëîæåíèè; IT it it PEt� �{ }( ) ) | 1 — ìíîæåñòâî êîìàíä ïèñêà èòåðàöèé, êîòîðîå çàäàíî íà ïîäïîñëåäîâàòåëüíîñòÿõ ýëåìåíòîâ øàáëîíà; P l p l Lem p NM � � �{ }(( ) , ) | , 1 � — ìíîæåñòâî ôðàçîâûõ ñîâïàäåíèé, çàäàí- íûõ ïàðàìè ïîñëåäîâàòåëüíîñòåé ëåì è ïîçèöèé ïåðâîé ëåìû; M p lp pe s S p apply pe s pe NPlp l i j j� � � � � �( ) | ( ) , , ( , ), 1 1 � { 0 1, NP } — ïî- ñëåäîâàòåëüíîñòü ôðàçîâûõ ñîâïàäåíèé ïî îïåðàòîðàì NP NP0 1, øàáëîíà; apply pe s PE S p p PM( , ) : | � �{ } — ôóíêöèÿ ñîïîñòàâëåíèÿ ýëåìåíòà øàá- ëîíà ñ ôðàçîé, êîòîðàÿ ñòàâèò â ñîîòâåòñòâèå ìíîæåñòâî ôðàçîâûõ ñîâïàäåíèé; match lp s LP S m m MC lp( , ) : | � � � �{ }, êîãäà �lp pe l( ) ,1 � �( ) | ( , )m m apply pe sl i1 òàêàÿ, ÷òî m mi j, , i j m l pi i i� � � (( ) , )1 � , m l pj j j� (( ) , ) 1 � , p pi j� , { } { }� �m m n l1 1, , inrs M m m Mlp lp( ) : |{ }� � � � � � � � � r r T T BT lp pe s pm apply pe sl i | ( , , ) | ( ) , , ( , ),1 2 1 1 1 1 pm T p s pm apply pe s pm T p pej i 1 1 1 2 2 2 2 2 2 � � � � � ( , ), , ( , ), ( , ), � � � � � � NP pe NP r T T NT pe NP pe NP r T T j i j 1 0 1 2 0 1 1 2 , , ( , , ) | , ( , , RT pe pe NP pe pe NPi j i j) | ( , ) ( , )� � � � � � � � � � � � � � � � � 0 1 ÇÀÊËÞ×ÅÍÈÅ Â íàñòîÿùåé ðàáîòå îïèñàíî ðåøåíèå çàäà÷è èòåðàòèâíîãî ïîñòðîåíèÿ òåðìè- íîëîãèè â êîëëåêöèÿõ íàó÷íûõ òåêñòîâ íà óêðàèíñêîì ÿçûêå. Íà îñíîâå ïðåä- ëîæåííîãî ìåòîäà è ðàçðàáîòàííîãî àëãîðèòìà ñîçäàí ïðîãðàììíûé ìîäóëü â âèäå âåá-ñåðâèñà ñ âîçìîæíîñòÿìè ïîñòðîåíèÿ òåçàóðóñîâ â ôîðìàòå RDF èç èñõîäíûõ òåêñòîâ ôîðìàòà pdf. Ôîðìàò òåçàóðóñà JSON-LD âûáðàí ñ ó÷åòîì âîçìîæíîñòè ïóáëèêàöèè ïîëó÷åííûõ òåðìèíîëîãè÷åñêèõ ñâÿçåé â ñòàíäàðòè- çèðîâàííîì âèäå ñåòåâîãî äîñòóïà ê ðåñóðñàì è ñ ïîçèöèé ïîíèìàíèÿ òåçàó- ðóñà êàê ïîëíîöåííîãî ïðîãðàììíîãî ìîäóëÿ ïîèñêîâîé ñèñòåìû íàó÷íûõ ìà- òåðèàëîâ. Èç òèïîâ ñâÿçåé ìåæäó òåðìèíàìè äëÿ ïîèñêà ïðåäïî÷òåíèå îòäàíî ñâÿçÿì «îáùåå–÷àñòè÷íîå», êîòîðûå îïðåäåëÿëèñü ñ ïîìîùüþ ëåêñèêîãðàôè- ÷åñêîãî àíàëèçà ïðåäëîæåíèé òåêñòîâ íà ïðåäìåò ñîäåðæàíèÿ ãèïîíèìè÷åñêèõ ñâÿçåé ìåæäó òåðìèíàìè.  îñíîâó ðàçðàáîòàííîãî ìîäóëÿ ïîñòðîåíèÿ òåçàóðóñîâ ïîëîæåí îïèñàí- íûé â äàííîé ðàáîòå ìåòîä ïîèñêà âàæíûõ òåðìèíîâ è ñâÿçåé â òåêñòå. Ïåðâûé ýòàï ðàáîòû äàííîãî ìåòîäà, êîòîðûé ñâÿçàí ñ ïîèñêîì âàæíûõ òåðìèíîâ â êîë- ëåêöèÿõ äîêóìåíòîâ, ðåøåí ñ ïîìîùüþ ïðåäëîæåííîãî ìåòîäà âçâåøèâàíèÿ, ñî- ðòèðîâêè è ôèëüòðàöèè òåðìèíîâ äîêóìåíòîâ ñ ïîìîùüþ ìåòðèêè äîêóìåíòàð- íîé ÷àñòîòû ýòàëîííîé êîëëåêöèè.  êà÷åñòâå òàêîé êîëëåêöèè èñïîëüçîâàëñÿ àðõèâ óêðàèíîÿçû÷íîé ïåðèîäèêè «Íàó÷íûå çàïèñêè ÍàÓÊÌÀ», íà îñíîâå êîòî- ðîãî ïîñòðîåí ñïðàâî÷íûé èíäåêñ äîêóìåíòàðíûõ ÷àñòîò òåðìèíîâ. Âòîðîé ýòàï ðàçðàáîòàííîãî ìåòîäà ñâÿçàí ñ ïðèìåíåíèåì ëåêñèêîãðàôè÷åñ- êèõ øàáëîíîâ äëÿ ïîèñêà ãèïîíèìè÷åñêèõ ñâÿçåé â èñõîäíûõ òåêñòàõ. Äëÿ ïîèñ- êà óñïåøíîé ðåàëèçàöèè èñïîëüçîâàëîñü îòêðûòîå ïðîãðàììíîå îáåñïå÷åíèå, íàïðàâëåííîå íà ðåøåíèå óòèëèòàðíûõ çàäà÷ ëåììàòèçàöèè òåðìèíîâ è òåãèðî- âàíèå ñëîâ ïðåäëîæåíèé ïî ÷àñòÿì ðå÷è, à òàêæå àäàïòèðîâàíû ê óêðàèíîÿçû÷- íûì ïðàâèëàì ñëîâîóïîòðåáëåíèÿ ëåêñèêîãðàôè÷åñêèå øàáëîíû, ïðåäëîæåííûå â èññëåäîâàíèè Õåàðñòà [11]. Àâòîðû íàñòîÿùåé ïóáëèêàöèè ðàçðàáîòàëè ðàñøè- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 61 ðÿåìûé ïðîãðàììíûé ïàêåò ñ ôóíêöèîíàëüíîñòüþ óïðàâëåíèÿ ïðèìåíåíèåì ëåê- ñèêîãðàôè÷åñêèõ øàáëîíîâ. Òåñòèðîâàíèå ðåàëèçàöèè ïðåäëîæåííîãî ìåòîäà íà òåìàòè÷åñêèõ êîëëåêöèÿõ íàó÷íûõ òåêñòîâ ïðîäåìîíñòðèðîâàëî ýôôåêòèâíîñòü ïåðâîãî ýòàïà àëãîðèòìà, à òàêæå äîñòàòî÷íóþ òî÷íîñòü âòîðîãî ýòàïà â ðàìêàõ ðàçðàáîòàííûõ øàáëîíîâ. Îãðàíè÷åíèå ëåêñèêîãðàôè÷åñêîãî ìåòîäà ïîèñêà ãèïîíèìèè íå ïîçâîëÿþò äîñòè÷ü ïîëíîòû ïîèñêà ñâÿçåé â òåêñòå èç-çà îäíîçíà÷íîñòè óïîòðåáëÿåìûõ â øàáëîíàõ êîíòåêñòîâ òåðìèíîëîãè÷åñêèõ ñâÿçåé è íèçêîé ñòàòèñòè÷åñêîé ÷àñòîòîé èõ ïîÿâëå- íèÿ â òåêñòå. Ïðîáëåìó ìîæíî óñòðàíèòü óâåëè÷åíèåì êîëè÷åñòâà øàáëîíîâ, ðàñ- øèðåíèåì ñèíîíèìè÷åñêèõ ðÿäîâ, îïðåäåëÿþùèõ øàáëîí ñëîâ, ÷òî òðåáóåò ïðèâëå- ÷åíèÿ ýêñïåðòîâ ïî ëåêñèêîãðàôèè, à òàêæå óëó÷øåíèåì ìåòîäà òåãèðîâàíèå ïî ÷àñ- òÿì ðå÷è ñ ïîìîùüþ ñòîõàñòè÷åñêèõ ìåòîäîâ óñòðàíåíèÿ íåîäíîçíà÷íîñòè â îïðåäåëåíèè ÷àñòåé ðå÷è îòäåëüíûõ ñëîâ. Ïîëó÷åííûé ïðîãðàììíûé ìîäóëü ïðîäåìîíñòðèðîâàë ïðèêëàäíóþ ïðèìå- íèìîñòü íà òåñòîâûõ êîëëåêöèÿõ äàííûõ è ìîæåò èñïîëüçîâàòüñÿ êàê ñîñòàâëÿþ- ùàÿ ïîèñêîâîé ñèñòåìû íàó÷íûõ ìàòåðèàëîâ. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. Ë å í ä à ó Ñ . ² . Ñëîâíèêè: ìèñòåöòâî òà ðåìåñëî ëåêñèêîãðàô³¿. — Êè¿â: Ê.².Ñ., 2012. — 480 ñ. 2. L a s s i M . Automatic thesaurus construction // University Collage of Boras, Sweden. — 2002. 10 p. — http://www.academia.edu/506142/Automatic_thesaurus_construction. 3. Ò è ï û ñâÿçåé â òåçàóðóñå. — Âåá. 10.05.2014 — http://publish.uwo.ca/~craven/677/thesaur/ main06.htm. 4. C h e n H . , T o b u n D . N g , M a r t i n e z J . , S c h a t z B . A concept space approach to addressing the vocabulary problem in scientific information retrieval: an experiment on the worm community system // J. of the Amer. Soc. for Inform. Sci. — 1997. — http://arizona.openrepository. com/arizona/bitstream/10150/105991/1/chen21.pdf. 5. M i l l e r U . Thesaurus construction: problems and their roots // Inform. Proc. & Management. — 1997. — 33, N 4. — P. 481–493. 6. “I S O 25964 — the International Standard for Thesauri and Interoperability with Other Vocabularies.” ISO 25964 Thesaurus Schemas. Web. 08 April 2014. — http://www.niso.org/ schemas/iso25964/. 7. J S O N - L D 1.0. Web. 08 June 2014. — http://www.w3.org/TR/json-ld/. 8. C h e n H . , T a k Y i m , F y e D . , S c h a t z B . Automatic thesaurus generation for an electronic community system // J. of the Amer. Soc. for Inform. Sci. — 1995. — 46, N 3. — P. 175–193. 9. C h e n H . , L y n c h K . , B a s u , K . , N g T . D . Generating, integrating, and activating thesauri for concept-based document retrieval // IEEE Expert. — 1993. — 8, N 2. — P. 25–34. 10. G r e f e n s t e t t e G . Automatic thesaurus generation from raw text using knowledge-poor techniques. — Rank Xerox Research Centre, 1993. — http://www.academia.edu/4186829/ AUTOMATIC_THESAURUS_GENERATION_FROM_RAW_TEXT_ USING_KNOWLEDGE-POOR_ TECHNIQUES. 11. H e a r s t M . A . Automatic acquisition of hyponyms from large text corpora // Proc. of the 14th Conf. on Comput. Ling. Assoc. for Comput. Ling. — 1992. — 2. — P. 539–545. 12. A l s h a w i H . Processing dictionary definitions with phrasal pattern hierarchies // Comput. Ling. — 1987. — 13, N 3–4. — P. 195–202. Ïîñòóïèëà 03.07.2014 62 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6
id nasplib_isofts_kiev_ua-123456789-124739
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0023-1274
language Russian
last_indexed 2025-11-24T11:44:26Z
publishDate 2014
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Глибовец, А.Н.
Решетнёв, И.В.
2017-10-03T18:27:11Z
2017-10-03T18:27:11Z
2014
Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке / А.Н. Глибовец, И.В. Решетнёв // Кибернетика и системный анализ. — 2014. — Т. 50, № 6. — С. 53-62. — Бібліогр.: 12 назв. — рос.
0023-1274
https://nasplib.isofts.kiev.ua/handle/123456789/124739
681.3:658.56
Описан метод итеративного построения терминологий в коллекциях научных текстов на украинском языке. Освещена проблематика автоматизированного построения тезаурусов по составлению научной терминологии. Значительное внимание уделено анализу лексикографических особенностей характеристических фрагментов текста документов. Учтена специфика украиноязычных документов. Основное внимание уделяется решению прикладной задачи построения терминологии с описанием связей в формате RDF из входящих текстов в широкоупотребляемом формате pdf.
Описано метод ітеративної побудови термінологій в колекціях наукових текстів українською мовою. Висвітлено проблематику автоматизованої побудови тезаурусів з складання наукової термінології. Значну увагу приділено аналізу лексикографічних особливостей характеристичних фрагментів тексту документів. Враховано специфіку україномовних документів. Основну увагу приділено розв’язанню прикладної задачі побудови термінології з описом зв’язків в форматі RDF з вхідних текстів в загальновживаному форматі pdf.
We propose a combined method of acquisition of valuable terms and relations from raw texts with corresponding iterative algorithm for automated terminology extraction over Ukrainian-language scientific texts. Special attention is paid to the analysis of lexicographical features of characteristic text fragments of documents. The specific features of Ukrainian-language documents are taken into account. The paper is focused on solving the applied problem of terminology acquisition from raw texts in the widely-used pdf format, with output of term relations described in RDF format.
ru
Інститут кібернетики ім. В.М. Глушкова НАН України
Кибернетика и системный анализ
Кибернетика
Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
Метод ітеративної побудови термінології в колекціях наукових текстів українською мовою
An iterative approach to terminology extraction over Ukrainian-language scientific text corpora
Article
published earlier
spellingShingle Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
Глибовец, А.Н.
Решетнёв, И.В.
Кибернетика
title Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
title_alt Метод ітеративної побудови термінології в колекціях наукових текстів українською мовою
An iterative approach to terminology extraction over Ukrainian-language scientific text corpora
title_full Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
title_fullStr Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
title_full_unstemmed Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
title_short Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
title_sort метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
topic Кибернетика
topic_facet Кибернетика
url https://nasplib.isofts.kiev.ua/handle/123456789/124739
work_keys_str_mv AT glibovecan metoditerativnogopostroeniâterminologiivkollekciâhnaučnyhtekstovnaukrainskomâzyke
AT rešetneviv metoditerativnogopostroeniâterminologiivkollekciâhnaučnyhtekstovnaukrainskomâzyke
AT glibovecan metodíterativnoípobudovitermínologíívkolekcíâhnaukovihtekstívukraínsʹkoûmovoû
AT rešetneviv metodíterativnoípobudovitermínologíívkolekcíâhnaukovihtekstívukraínsʹkoûmovoû
AT glibovecan aniterativeapproachtoterminologyextractionoverukrainianlanguagescientifictextcorpora
AT rešetneviv aniterativeapproachtoterminologyextractionoverukrainianlanguagescientifictextcorpora