Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке
Описан метод итеративного построения терминологий в коллекциях научных текстов на украинском языке. Освещена проблематика автоматизированного построения тезаурусов по составлению научной терминологии. Значительное внимание уделено анализу лексикографических особенностей характеристических фрагментов...
Saved in:
| Published in: | Кибернетика и системный анализ |
|---|---|
| Date: | 2014 |
| Main Authors: | , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2014
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/124739 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке / А.Н. Глибовец, И.В. Решетнёв // Кибернетика и системный анализ. — 2014. — Т. 50, № 6. — С. 53-62. — Бібліогр.: 12 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859477841378279424 |
|---|---|
| author | Глибовец, А.Н. Решетнёв, И.В. |
| author_facet | Глибовец, А.Н. Решетнёв, И.В. |
| citation_txt | Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке / А.Н. Глибовец, И.В. Решетнёв // Кибернетика и системный анализ. — 2014. — Т. 50, № 6. — С. 53-62. — Бібліогр.: 12 назв. — рос. |
| collection | DSpace DC |
| container_title | Кибернетика и системный анализ |
| description | Описан метод итеративного построения терминологий в коллекциях научных текстов на украинском языке. Освещена проблематика автоматизированного построения тезаурусов по составлению научной терминологии. Значительное внимание уделено анализу лексикографических особенностей характеристических фрагментов текста документов. Учтена специфика украиноязычных документов. Основное внимание уделяется решению прикладной задачи построения терминологии с описанием связей в формате RDF из входящих текстов в широкоупотребляемом формате pdf.
Описано метод ітеративної побудови термінологій в колекціях наукових текстів українською мовою. Висвітлено проблематику автоматизованої побудови тезаурусів з складання наукової термінології. Значну увагу приділено аналізу лексикографічних особливостей характеристичних фрагментів тексту документів. Враховано специфіку україномовних документів. Основну увагу приділено розв’язанню прикладної задачі побудови термінології з описом зв’язків в форматі RDF з вхідних текстів в загальновживаному форматі pdf.
We propose a combined method of acquisition of valuable terms and relations from raw texts with corresponding iterative algorithm for automated terminology extraction over Ukrainian-language scientific texts. Special attention is paid to the analysis of lexicographical features of characteristic text fragments of documents. The specific features of Ukrainian-language documents are taken into account. The paper is focused on solving the applied problem of terminology acquisition from raw texts in the widely-used pdf format, with output of term relations described in RDF format.
|
| first_indexed | 2025-11-24T11:44:26Z |
| format | Article |
| fulltext |
ÓÄÊ 681.3:658.56
À.Í. ÃËÈÁÎÂÅÖ, È.Â. ÐÅØÅÒͨÂ
ÌÅÒÎÄ ÈÒÅÐÀÒÈÂÍÎÃÎ ÏÎÑÒÐÎÅÍÈß ÒÅÐÌÈÍÎËÎÃÈÈ
 ÊÎËËÅÊÖÈßÕ ÍÀÓ×ÍÛÕ ÒÅÊÑÒΠÍÀ ÓÊÐÀÈÍÑÊÎÌ ßÇÛÊÅ
Àííîòàöèÿ. Îïèñàí ìåòîä èòåðàòèâíîãî ïîñòðîåíèÿ òåðìèíîëîãèé â êîëëåêöèÿõ íàó÷íûõ
òåêñòîâ íà óêðàèíñêîì ÿçûêå. Îñâåùåíà ïðîáëåìàòèêà àâòîìàòèçèðîâàííîãî ïîñòðîåíèÿ
òåçàóðóñîâ ïî ñîñòàâëåíèþ íàó÷íîé òåðìèíîëîãèè. Çíà÷èòåëüíîå âíèìàíèå óäåëåíî àíà-
ëèçó ëåêñèêîãðàôè÷åñêèõ îñîáåííîñòåé õàðàêòåðèñòè÷åñêèõ ôðàãìåíòîâ òåêñòà äîêóìåí-
òîâ. Ó÷òåíà ñïåöèôèêà óêðàèíîÿçû÷íûõ äîêóìåíòîâ. Îñíîâíîå âíèìàíèå óäåëÿåòñÿ ðåøå-
íèþ ïðèêëàäíîé çàäà÷è ïîñòðîåíèÿ òåðìèíîëîãèè ñ îïèñàíèåì ñâÿçåé â ôîðìàòå RDF èç
âõîäÿùèõ òåêñòîâ â øèðîêîóïîòðåáëÿåìîì ôîðìàòå pdf.
Êëþ÷åâûå ñëîâà: ñòàòèñòè÷åñêèå ìåòîäû, ëåêñèêîãðàôè÷åñêèå ìåòîäû, òåçàóðóñ, òåðìèí,
ñâÿçü «îáùåå–÷àñòíîå», ãèïîíèìèÿ.
ÂÂÅÄÅÍÈÅ
Ñîçäàíèå è àêòóàëèçàöèÿ ñïåöèàëèçèðîâàííûõ ñëîâàðåé íå óñïåâàþò çà ïðîã-
ðåññîì â èññëåäîâàíèÿõ â ñèëó îáúåêòèâíûõ ïðè÷èí: ñëîæíîñòè èçó÷àåìûõ
ñôåð è èçìåí÷èâîñòè ïîíÿòèé ñî âðåìåíåì [1]. Âìåñòå ñ òåì äëÿ èññëåäîâàòå-
ëåé îñòàåòñÿ îñòðîé íåîáõîäèìîñòü âçàèìîïîíèìàíèÿ íà ïîíÿòèéíîì óðîâíå,
÷òî òðåáóåò êàê óíèôèöèðîâàííîé è äîñòóïíîé òåðìèíîëîãè÷åñêîé áàçû, òàê
è êà÷åñòâåííîé ïîèñêîâîé ñèñòåìû íàó÷íûõ äîêóìåíòîâ.
Îäíèì èç ýôôåêòèâíûõ ñïîñîáîâ óëó÷øåíèÿ ðåëåâàíòíîñòè ïîèñêîâîé âûäà÷è
òàêèõ ñèñòåì — èñïîëüçîâàíèå òåçàóðóñà [2]. Ñðåäè ìåòîäîâ ïîñòðîåíèÿ òåçàóðóñîâ
àâòîìàòèçèðîâàííûé ìåòîä ëó÷øå âñåãî ïîäõîäèò äëÿ ñôåðû íàó÷íûõ èññëåäîâàíèé
â ñèëó âûñîêèõ òåìïîâ îáíîâëÿåìîñòè èíôîðìàöèè è ñâÿçàííîé ñ ýòèì âûñîêîé ñå-
áåñòîèìîñòüþ ó÷àñòèÿ ýêñïåðòîâ â òàêîé ðàáîòå.  ðàìêàõ ðÿäà èññëåäîâàíèé, ïðîâå-
äåííûõ íà êàôåäðå èíôîðìàòèêè Íàöèîíàëüíîãî óíèâåðñèòåòà «Êèåâî-Ìîãèëÿíñêàÿ
Àêàäåìèÿ» (ÍàÓÊÌÀ) ïî ñîçäàíèþ ïîèñêîâîé ñèñòåìû íàó÷íûõ äîêóìåíòîâ, ðàçðà-
áîòêà êîìïîíåíòà àâòîìàòèçèðîâàííîãî ïîñòðîåíèÿ òåçàóðóñà óëó÷øàåò åå êà÷åñòâî.
Îñíîâíûå öåëè äàííîé ïóáëèêàöèè — îïèñàíèå è ðåàëèçàöèÿ ìåòîäà èçâëå÷å-
íèÿ òåðìèíîëîãèè èç âõîäÿùèõ íàó÷íûõ òåêñòîâ, ïîëîæåííûõ â îñíîâó òàêîé ñèñ-
òåìû. Â ðàáîòå ïðîàíàëèçèðîâàíû ñóùåñòâóþùèå ïîäõîäû ê ïîñòðîåíèþ òåçàóðó-
ñîâ è îïèñàí ðàçðàáîòàííûé ìåòîä àâòîìàòèçèðîâàííîãî îïðåäåëåíèÿ âàæíûõ óêðà-
èíîÿçû÷íûõ òåðìèíîâ è òåðìèíîëîãè÷åñêèõ ñâÿçåé ìåæäó íèìè, êîòîðûé
ðåàëèçîâàí â âèäå âåá-ñåðâèñà. Àíàëèç ýôôåêòèâíîñòè ìåòîäà ïðîâåäåí íà ðåàëüíûõ
äàííûõ íàó÷íîé óêðàèíîÿçû÷íîé ïåðèîäèêè. Ðàçðàáîòàííûé êîìïîíåíò ñòàë åñòåñò-
âåííîé ñîñòàâëÿþùåé ïîèñêîâîé ñèñòåìû óêðàèíîÿçû÷íûõ íàó÷íûõ äîêóìåíòîâ.
Ïðè ðàçðàáîòêå ìåòîäà ó÷èòûâàëàñü îãðàíè÷åííîñòü âûïóùåííûõ äîêóìåí-
òàðíûõ êîëëåêöèé íà óêðàèíñêîì ÿçûêå, ÷òî ïîòðåáîâàëî ó÷åòà âîçìîæíîñòè èòå-
ðàòèâíîãî äîáàâëåíèÿ íàó÷íûõ äîêóìåíòîâ â òåðìèíîëîãè÷åñêèå áàçû ñ ïîñëåäó-
þùèì îáíîâëåíèåì ñîäåðæàíèÿ òåçàóðóñà. Àêöåíòèðóåòñÿ âíèìàíèå íà îïèñàíèè
ðåøåíèÿ ïðèêëàäíîé çàäà÷è ïîñòðîåíèÿ òåðìèíîëîãèè ñ îïèñàíèåì ñâÿçåé â ôîð-
ìàòå RDF èç âõîäÿùèõ òåêñòîâ â øèðîêî óïîòðåáëÿåìîì ôîðìàòå pdf.
1. ÎÁÇÎÐ ÑÓÙÅÑÒÂÓÞÙÈÕ ÏÎÄÕÎÄÎÂ
1.1. Ðîëü òåçàóðóñà â èíôîðìàöèîííîì ïîèñêå. Òåçàóðóñîì íàçûâàþò óïðàâ-
ëÿåìûé ñëîâàðü, ñîäåðæàùèé ñåìàíòè÷åñêèå ñâÿçè ìåæäó òåðìèíàìè è óëó÷-
øàþùèé ïðîöåññ ïîèñêà ñâÿçàííûõ òåðìèíîâ [3].
Îáû÷íî èíôîðìàöèîííàÿ ïîòðåáíîñòü ïîëüçîâàòåëÿ ïîèñêîâîé ñèñòåìû íå
ñîîòâåòñòâóåò òåðìèíàì, êîòîðûå âñòðå÷àþòñÿ â äîêóìåíòàõ, èëè ïîëüçîâàòåëü
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 53
© À.Í. Ãëèáîâåö, È.Â. Ðåøåòí¸â, 2014
íåïðàâèëüíî ïîíèìàåò òåðìèíîëîãèþ îáëàñòè çíàíèé, â êîòîðîé îí îñóùåñòâëÿ-
åò ïîèñê. Ïðè òàêèõ óñëîâèÿõ îäíèì èç ìåòîäîâ óëó÷øåíèÿ ïîèñêîâîé âûäà÷è
ÿâëÿåòñÿ èñïîëüçîâàíèå òåçàóðóñîâ òåðìèíîâ ïðåäìåòíûõ îáëàñòåé [4]. Òåçàóðó-
ñû ïðåäñòàâëÿþò ñîáîé òàáëèöû òåðìèíîâ è ñâÿçåé ìåæäó íèìè ñ óêàçàíèåì
òèïà ñâÿçè (NT, BT, USE, RT) [3]. Èíôîðìàöèîííûå ñèñòåìû ìîãóò èñïîëüçîâàòü
òåçàóðóñû íà ýòàïå èíäåêñàöèè äîêóìåíòîâ äëÿ áîëåå ïðàâèëüíîé êëàññèôèêà-
öèè äîêóìåíòîâ ïî êàòåãîðèÿì èëè âî âðåìÿ ïîèñêà, ðàñøèðÿÿ ïîèñêîâûé çàïðîñ
ïîëüçîâàòåëÿ ñâÿçàííûìè òåðìèíàìè.
Ãëàâíàÿ ïðîáëåìà ñîñòàâëåíèÿ òåçàóðóñîâ çàêëþ÷àåòñÿ â òîì, ÷òî äëÿ áîëü-
øèíñòâà êîììåð÷åñêèõ áàç äàííûõ, êîòîðûå ðàñïðîñòðàíÿþò íàó÷íóþ èíôîðìà-
öèþ, îíè ñîñòàâëÿþòñÿ ýêñïåðòàìè èç îáëàñòåé çíàíèé, à òàêæå ñïåöèàëèñòàìè
ïî ñîñòàâëåíèþ òåçàóðóñîâ. Â íîâåéøèõ îáëàñòÿõ çíàíèé, ãäå ñîîòâåòñòâóþùàÿ
òåðìèíîëîãèÿ òîëüêî ôîðìèðóåòñÿ è âûïóñêàåòñÿ áîëüøîå êîëè÷åñòâî íîâûõ
ïóáëèêàöèé, òàêèõ êàê áèîèíôîðìàòèêà èëè êîìïüþòåðíàÿ èíæåíåðèÿ, òåðìèíî-
ëîãè÷åñêèå ñëîâàðè î÷åíü áûñòðî óñòàðåâàþò, è èõ íóæíî îáíîâëÿòü ÷àùå, ñíîâà
ïðèâëåêàÿ ýêñïåðòîâ. Â ïðîòèâîïîëîæíîñòü òàêîìó ïîäõîäó ñóùåñòâóþò ìåòîäû
àâòîìàòèçèðîâàííîãî ïîñòðîåíèÿ òåçàóðóñîâ, êîòîðûå â êà÷åñòâå êîðïóñà ïðèíè-
ìàþò âñå íîâåéøèå ïóáëèêàöèè ïî òåìå è ñòðîÿò íà èõ îñíîâå âçàèìîñâÿçè ìåæ-
äó òåðìèíàìè. Ñ ïîìîùüþ òàêîé ñèñòåìû îáíîâëÿòü òåðìèíîëîãè÷åñêèå ñâÿçè
çíà÷èòåëüíî ïðîùå è äåøåâëå.  [2] ðàññìîòðåíû îñíîâíûå ìåòîäû àâòîìàòèçè-
ðîâàííîãî ïîñòðîåíèÿ òåçàóðóñîâ, êîòîðûå èìåþò êàê ðàçëè÷íóþ ýôôåêòèâíîñòü
è âðåìåííóþ îöåíêó ñëîæíîñòè, òàê è ïðèíöèïû: ñòàòèñòè÷åñêèé è ëåêñèêîãðà-
ôè÷åñêèé. Îïèñàíèþ ðàçðàáîòêè íîâîãî ìåòîäà, èñïîëüçóþùåãî êîìáèíàöèþ
èäåé, âñòðå÷àþùèõñÿ â ýòèõ ïîäõîäàõ, è ïîñâÿùåíà äàííàÿ ðàáîòà.
 [5] äàåòñÿ ñëåäóþùåå îáîçíà÷åíèå òåçàóðóñà. Òåçàóðóñ — ýòî ëåêñèêî-ñå-
ìàíòè÷åñêàÿ ìîäåëü êîíöåïòóàëüíîé ðåàëüíîñòè èëè åå ïðåäñòàâèòåëÿ, êîòîðàÿ
âûðàæåíà â ôîðìå ñèñòåìû òåðìèíîâ è èõ âçàèìîñâÿçåé, ïðåäëàãàåò äîñòóï ñ ïî-
ìîùüþ ìíîãèõ àñïåêòîâ è èñïîëüçóåòñÿ êàê ñèñòåìà îáðàáîòêè è ïîèñêà âíóòðè
ìîäóëÿ èíôîðìàöèîííîé ïîèñêîâîé ñèñòåìû. Îòìåòèì, ÷òî àâòîð àêöåíòèðóåò
âíèìàíèå íà ïðèíöèïèàëüíîé íåðàçðûâíîñòè òåîðåòè÷åñêîé ìîäåëè òåçàóðóñà è
ïðàêòè÷åñêîãî ïðèìåíåíèÿ ïðîãðàììíûõ ìîäóëåé ñ òàêîé ôóíêöèîíàëüíîñòüþ.
1.2. RDF êàê ôîðìàò ïðåäñòàâëåíèÿ òåçàóðóñîâ. Ôîðìàò RDF — îäèí
èç ñàìûõ ðàñïðîñòðàíåííûõ ñïîñîáîâ ïðåäñòàâëåíèÿ äàííûõ è ìåòàäàííûõ äëÿ
òåõíîëîãèé ñåìàíòè÷åñêîãî âåáà. Íåñêîëüêî óïðîùàÿ, ìîæíî ñêàçàòü, ÷òî â îñíî-
âå äàííîãî ôîðìàòà ëåæèò èäåÿ ïðåäñòàâëåíèÿ èíôîðìàöèè â âèäå òðèïëåòîâ
«ñóáúåêò – ïðåäèêàò – îáúåêò». Òàêàÿ îáùàÿ è ïðîñòàÿ, íà ïåðâûé âçãëÿä, ìîäåëü
ìîæåò óäà÷íî óäîâëåòâîðèòü ïîòðåáíîñòÿì òåçàóðóñà äëÿ îïèñàíèÿ åãî ñîäåðæà-
íèÿ. Ñëåäóþùàÿ âàæíàÿ îñîáåííîñòü ôîðìàòà — øèðîêàÿ ìåæäóíàðîäíàÿ ïîä-
äåðæêà íà óðîâíå ðåàëèçàöèè ïðèêëàäíûõ ñèñòåì. Êàê îòìå÷àëîñü ðàíåå, ðîëü
òåçàóðóñà îïðåäåëÿåòñÿ íå òîëüêî òî÷íîñòüþ è îáúåìîì ïðåäñòàâëåííûõ òåðìè-
íîëîãè÷åñêèõ ñâÿçåé, íî è ïðàêòè÷åñêîé ïðèìåíèìîñòüþ ïðîãðàììíîãî ìîäóëÿ,
ïðîñòîòîé äîñòóïà è ïðèãîäíîñòüþ ê ìàøèííîé îáðàáîòêå. Èìåííî áëàãîäàðÿ
âîçìîæíîñòè ïóáëèêàöèè äàííûõ, îáðàáîòàííûõ ñ ïîìîùüþ ïðîãðàììíîé ÷àñòè
òåçàóðóñà, íåïîñðåäñòâåííî â Èíòåðíåò â îáùåïðèíÿòîì ôîðìàòå, àâòîðû ïðåä-
ëîæèëè ôîðìàò RDF è îáåñïå÷èâàþùóþ ñèñòåìó âåá-ñåðâèñîâ ñ ïðîãðàììíûì
èíòåðôåéñîì â êà÷åñòâå êîíå÷íîãî ôîðìàòà äîñòóïà ê òåçàóðóñó.
Ñðåäè êîíêðåòíûõ ñïåöèôèêàöèé RDF ôîðìàò JSON-LD, ïðåäñòàâëåííûé
â ñòàíäàðòå ISO-25964 [6], ïî ìíåíèþ àâòîðîâ íàñòîÿùåé ñòàòüè, íàèëó÷øèì îá-
ðàçîì ñîîòâåòñòâóåò ïîñòàâëåííîé çàäà÷å ïóáëèêàöèè ðåñóðñîâ òåçàóðóñà â âèäå
âåá-ñåðâèñà. Ê áàçîâûì êîíöåïöèÿì ôîðìàòà îòíîñÿòñÿ [7]: IRI — èíòåðíàöèî-
íàëüíûå èäåíòèôèêàòîðû ðåñóðñîâ; êîíòåêñò, êîòîðûé ñëóæèò, â îñíîâíîì, äëÿ
çàäàíèÿ ñîêðàùåíèé ê IRI; èäåíòèôèêàòîðû óçëîâ è òèïèçèðîâàííûå çíà÷åíèÿ.
Ïðåäëîæåííûõ áàçîâûõ ýëåìåíòîâ ôîðìàòà äîñòàòî÷íî, ÷òîáû äàííûå òåçà-
óðóñà ìèíèìàëüíî óäîâëåòâîðÿëè ñòàíäàðòó.
54 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6
1.3. Àâòîìàòèçèðîâàííûå ìåòîäû ïîñòðîåíèÿ òåçàóðóñîâ. Ìåòîäû àâòî-
ìàòèçèðîâàííîãî ñîñòàâëåíèÿ òåçàóðóñîâ ìîæíî ðàçäåëèòü íà äâà ïðèíöèïèàëü-
íûõ êëàññà: ñòàòèñòè÷åñêèå, èíòåíñèâíî èñïîëüçóþùèå ÷àñòîòíûå è ïîçèöèîí-
íûå õàðàêòåðèñòèêè òåðìèíîâ â äîêóìåíòàõ â êà÷åñòâå îñíîâû äëÿ ðàçëè÷íûõ
ìîäåëåé âûÿâëåíèÿ ñâÿçåé ìåæäó òåðìèíàìè, è ëåêñèêîãðàôè÷åñêèå, èñïîëüçóþ-
ùèå ñâåäåíèÿ èç ñôåðû îáðàáîòêè ÷åëîâå÷åñêîé ðå÷è äëÿ îñóùåñòâëåíèÿ ñèíòàê-
ñè÷åñêîãî, ìîðôîëîãè÷åñêîãî è äðóãèõ âèäîâ àíàëèçà òåêñòà äëÿ óñòàíîâëåíèÿ
ñåìàíòè÷åñêèõ ñâÿçåé íà îñíîâå èíôîðìàöèè, ïîëó÷åííîé èñêëþ÷èòåëüíî èç
òåêñòà.  ëåêñèêîãðàôè÷åñêèõ ìåòîäàõ îáû÷íî èñïîëüçóþòñÿ ñîáðàííûå ýêñïåð-
òàìè êîðïóñû ÿçûêîâ, êîòîðûå ñîäåðæàò ïðàâèëà îáùåãî óïîòðåáëåíèÿ ñëîâ,
ñëîâîôîðìû è ñèíîíèìè÷åñêèå ðÿäû. Ðåàëèçàöèè ìíîæåñòâà ìåòîäîâ ñïîñîáñò-
âóþò ïðîãðàììíûå ïàêåòû äëÿ ïðîâåäåíèÿ ïåðâîíà÷àëüíîãî àíàëèçà ñâîáîäíîãî
òåêñòà.  ñâîþ î÷åðåäü, äëÿ ñòàòèñòè÷åñêèõ ìåòîäîâ òàêèì èíñòðóìåíòîì ÿâëÿ-
þòñÿ óòèëèòû èíäåêñèðîâàíèÿ è ðàíæèðîâàíèÿ òåðìèíîâ.
Îñíîâîé äëÿ ìíîãèõ ñòàòèñòè÷åñêèõ ìåòîäîâ ïîèñêà çàâèñèìîñòåé ìåæäó
òåðìèíàìè ñëóæèò ñîçäàíèå èíäåêñà òåðìèíîâ, îïèñûâàþùèõ ñîäåðæàíèå äîêó-
ìåíòîâ íàèëó÷øèì îáðàçîì, ÷òî îáû÷íî òðåáóåò ðàíæèðîâàíèÿ òåðìèíîâ ïî ñòå-
ïåíè âàæíîñòè. Íàèáîëåå ïðèìåíÿåìûìè òåõíèêàìè âçâåøèâàíèÿ, ðàçðàáîòàí-
íûìè äëÿ àëãîðèòìîâ ïîèñêîâûõ ñèñòåì, ÿâëÿåòñÿ èñïîëüçîâàíèå ÷àñòîòû
òåðìèíà (TF), îáðàòíîé äîêóìåíòàðíîé ÷àñòîòû (IDF), à òàêæå èõ êîìáèíàöèé.
Ìåòîä ñîâìåñòíîãî óïîòðåáëåíèÿ òåðìèíîâ — îäèí èç ïîäõîäîâ â èíôîðìà-
öèîííîì ïîèñêå ê ôîðìèðîâàíèþ ìíîãîñëîâíûõ òåðìèíîâ [8]. Îñíîâíûå ýëå-
ìåíòû äëÿ âû÷èñëåíèé â ìåòîäå — ÷àñòîòà âõîæäåíèÿ òåðìèíà â îïðåäåëåííûå
ðàçíûå ïî ðàçìåðó êîíòåêñòíûå ðàìêè, òàêèå êàê öåëûé äîêóìåíò, ãëàâû äîêó-
ìåíòà, ïàðàãðàôû è äðóãèå ýëåìåíòû. Ïðè ýòîì, ÷åì áëèæå ñëîâà âñòðå÷àþòñÿ
â êîíòåêñòå âûáðàííîé ðàìêè, òåì áîëüøåé íàçíà÷àåòñÿ ìåðà ñîâìåñòíîãî óïîò-
ðåáëåíèÿ. Íåêîòîðûå àâòîðû ñîìíåâàþòñÿ â êà÷åñòâå íàéäåííûõ òåðìèíîëîãè-
÷åñêèõ ñâÿçåé ñ ïîìîùüþ ýòîãî ìåòîäà. Íàïðèìåð, â [9] ãîâîðèòñÿ î íåýôôåêòèâ-
íîñòè ñîñòàâëåííîãî ïî äàííîìó ìåòîäó òåçàóðóñà ïðèìåíèòåëüíî ê çàäà÷àì ïî-
èñêà. Àâòîð [9] ïðåäëàãàåò ñâîé ïîäõîä, îí ââîäèò ïîíÿòèå êîíöåïòóàëüíîãî
ïðîñòðàíñòâà êàê ñåòè òåðìèíîâ è âçâåøåííûõ àññîöèàöèé ìåæäó íèìè, êîòîðûå
ñïîñîáíû îòîáðàçèòü êîíöåïòû è ñâÿçè ìåæäó íèìè â ñîîòâåòñòâóþùåì èíôîð-
ìàöèîííîì ïðîñòðàíñòâå, ïðåäñòàâëåííîì â âèäå êîëëåêöèè äîêóìåíòîâ â áàçå
äàííûõ. Ìîäåëü àññîöèàòèâíîãî ïîèñêà, âêëþ÷åííàÿ â äàííûé ìåòîä,
ïðèáëèæåíà ê ìåíòàëüíûì ñïîñîáàì ïðåäñòàâëåíèÿ èíôîðìàöèîííûõ
ïîòðåáíîñòåé ïîëüçîâàòåëåé ïîèñêîâîé ñèñòåìû â âèäå ñåòè òåðìèíîâ è ñâÿçåé
ìåæäó íèìè, êîòîðûå, êàê ïðàâèëî, íå÷åòêèå.
Ëåêñèêîãðàôè÷åñêèå ìåòîäû ïîèñêà ñâÿçåé ìåæäó òåðìèíàìè áàçèðóþòñÿ
íà ïðèíöèïå ïðÿìîãî óêàçàíèÿ ñâÿçè ìåæäó ñëîâàìè ñ ïîìîùüþ ÿçûêîâûõ
ñðåäñòâ, ïðè÷åì õàðàêòåð ñâÿçè ìîæíî îïðåäåëèòü, èñõîäÿ èç ñèíòàêñè÷åñêîãî è
ëåêñè÷åñêîãî ñòðîåíèÿ âûñêàçûâàíèé.  ðàçðåçå ëåêñèêîãðàôè÷åñêèõ ìåòîäîâ
ïîèñêà ñâÿçåé â òåðìèíîëîãèè èíòåðåñåí ñïîñîá ñîñòàâëåíèÿ òåðìèíîëîãè÷åñêèõ
ñëîâîñî÷åòàíèé, êàê îäèí èç ñàìûõ ïðîäóêòèâíûõ â ñëîâîîáðàçîâàíèè. Òàêèì
îáðàçîì, èñïîëüçîâàíèå ëåêñèêîãðàôè÷åñêèõ ìåòîäîâ äëÿ íàïîëíåíèÿ òåçàóðóñà
òåðìèíîëîãè÷åñêèìè îòíîøåíèÿìè ïðåäñòàâëÿåòñÿ íàèáîëåå ïîäõîäÿùèì ïî
ñâîèì ïðèíöèïàì.  [9, 10] îòìå÷àëàñü îäíà èç ñàìûõ ðàñïðîñòðàíåííûõ ïðîá-
ëåì âñåõ ñòàòèñòè÷åñêèõ ìåòîäîâ — ïðîáëåìàòèêà èíäåêñèðîâàíèÿ ôðàçîâûõ
òåðìèíîâ èëè, â íàøåì ñëó÷àå, òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé.  ÷àñòíîñòè,
àâòîðû îòìå÷àëè íåîáõîäèìîñòü ïîñòðîåíèÿ êà÷åñòâåííûõ ðåøåíèé íà îñíîâå
ëèíãâèñòè÷åñêèõ îñîáåííîñòåé òåêñòîâ, â òîì ÷èñëå ñ èñïîëüçîâàíèåì òåõíèêè
òåãèðîâàíèÿ ïî ÷àñòÿì ðå÷è, êàê îäíó èç ãëàâíûõ çàäà÷ óëó÷øåíèÿ
ñòàòèñòè÷åñêèõ ìåòîäîâ â èíôîðìàöèîííîì ïîèñêå.
 ñëåäóþùåì ëåêñèêîãðàôè÷åñêîì ìåòîäå êëþ÷åâóþ ðîëü èãðàåò ïîíÿòèå
ãèïîíèìèè. Ãèïîíèìèÿ — ýòî îòíîøåíèå âèäà ê ðîäó â ëåêñèêî-ñåìàíòè÷åñêîé
ñèñòåìå. Ðîäîâûå ñëîâà íàçûâàþò ãèïåðîíèìàìè, à âèäîâûå — ãèïîíèìàìè. Ïî-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 55
íÿòíî, ÷òî ÿâëåíèå ãèïîíèìèè íåïîñðåäñòâåííî óêàçûâàåò íà ñâÿçü òèïà «îá-
ùåå–êîíêðåòíîå» ìåæäó òåðìèíàìè è ÿâëÿåòñÿ íåîòúåìëåìîé ñîñòàâëÿþùåé òå-
çàóðóñîâ. Ðàçâèâàÿ ýòó èäåþ, Ì. Õåàðñò [11] ñîçäàë àâòîìàòèçèðîâàííûé
ëåêñèêîãðàôè÷åñêèé ìåòîä âûäåëåíèÿ ãèïîíèìîâ èç òåêñòà.
Äâå ãëàâíûå ïðîáëåìû, ðåøàåìûå ñ ïîìîùüþ äàííîãî ïîäõîäà, — ýëèìèíà-
öèÿ íåîáõîäèìîñòè â ïðåäâàðèòåëüíî ñîñòàâëåííûõ áàçàõ çíàíèé ïî ïðåäìåòíîé
îáëàñòè è âîçìîæíîñòü ïðèìåíåíèÿ ìåòîäà íà ðàçíîîáðàçíûõ òåêñòîâûõ êîëëåê-
öèÿõ.  [11] ñîñòàâëåíî ìíîæåñòâî ëåêñèêî-ñèíòàêñè÷åñêèõ øàáëîíîâ, íåïîñðåä-
ñòâåííî óêàçûâàþùèõ íà èñêîìûå ëåêñè÷åñêèå çàâèñèìîñòè, êîòîðûå ëåãêî ðàñ-
ïîçíàòü â òåêñòå êàê ïðîãðàììíûìè ñðåäñòâàìè, òàê è ñàìîñòîÿòåëüíî. Ãèïîòåçà
ìåòîäà ïîäòâåðæäàåò íàëè÷èå áîëüøîãî êîëè÷åñòâà ïîëåçíîé èíôîðìàöèè î
ïðåäìåòíîé îáëàñòè â ñàìîì òåêñòå, êîòîðàÿ ìîæåò áûòü îáíàðóæåíà êàê ÷åëîâå-
êîì, òàê è àëãîðèòìîì, íå ïðèáåãàÿ ê ñëèøêîì êîíêðåòíûì äåòàëÿì
îïðåäåëåííûõ ÿâëåíèé è âåùåé, íå òðåáóÿ îò ñèñòåìû ãëóáîêîãî ëåêñèêîãðàôè-
÷åñêîãî èëè ñåìàíòè÷åñêîãî àíàëèçà.
Äàííóþ òåõíèêó ïîèñêà òàêñîíîìè÷åñêèõ ñâÿçåé ïðåäëîæèë Aëüøàâè [12].
Îí èñïîëüçîâàë èåðàðõèþ øàáëîíîâ äëÿ èíòåðïðåòàöèè îïðåäåëåíèé, ñîñòîÿâ-
øèõ ïðåèìóùåñòâåííî èç èíäèêàòîðîâ ÷àñòåé ðå÷è è ñèìâîëîâ-ìàñîê. Îñíîâíûì
íåäîñòàòêîì äàííîãî ïîäõîäà àâòîðû ñ÷èòàþò ïðîáëåìó ïîäáîðà òàêîãî ìíîæåñ-
òâà øàáëîíîâ, êîòîðûå ñ îäèíàêîâîé òî÷íîñòüþ óêàçûâàëè áû íà íàïðàâëåí-
íîñòü ñâÿçè â òåêñòàõ ðàçëè÷íûõ ñòèëåé.
Ðåçþìèðóÿ îñíîâíûå äîñòèæåíèÿ ìåòîäà, ìîæíî óêàçàòü íà ñðàâíèòåëüíóþ äå-
øåâèçíó åãî ïðèìåíåíèÿ äëÿ àâòîìàòèçèðîâàííîãî ñáîðà ñåìàíòè÷åñêèõ ñâÿçåé
â äîêóìåíòàõ. Ìåòîä ïîçèöèîíèðóåòñÿ êàê àëüòåðíàòèâà ñòàòèñòè÷åñêèì ìåòîäàì
è ïî ñðàâíåíèþ ñ íèìè èìååò ïðåèìóùåñòâî â òî÷íîñòè ðàáîòû íà ðåäêèõ ñâÿçÿõ
ìåæäó òåðìèíàìè, êîòîðûå âñòðå÷àþòñÿ â òåêñòå åäèíè÷íî è íå ìîãóò óäà÷íî îáðà-
áàòûâàòüñÿ ñòàòèñòè÷åñêèìè ìåòîäàìè. Ïðåäñòàâëåííûå â èññëåäîâàíèè øàáëîíû
è ñòðàòåãèè îòñå÷åíèÿ ìîäèôèêàòîðîâ ñóùåñòâèòåëüíûõ íå ïðåòåíäóþò íà ïîëíîòó
è îñòàâëÿþò îïðåäåëåííóþ ñâîáîäó äëÿ áóäóùèõ äîïîëíåíèé.
2. ÈÒÅÐÀÒÈÂÍÛÉ ÊÎÌÁÈÍÈÐÎÂÀÍÍÛÉ ÌÅÒÎÄ ÏÎÑÒÐÎÅÍÈß ÒÅÐÌÈÍÎËÎÃÈÈ
 ýòîì ðàçäåëå îïèñàíû îñíîâíûå ýòàïû èòåðàòèâíîãî ìåòîäà ïîñòðîåíèÿ òåðìè-
íîëîãèè ñ ïîìîùüþ êîìáèíàöèè ëåêñèêîãðàôè÷åñêèõ è ñòàòèñòè÷åñêèõ ìåòîäîâ.
2.1. Ñòðóêòóðíàÿ ñõåìà àëãîðèòìà. Ïðîöåññ ïîñòðîåíèÿ òåðìèíîëîãèè íà
îñíîâå êîëëåêöèè òåêñòîâ ìîæíî ðàçäåëèòü íà äâà ïðèíöèïèàëüíûõ øàãà: 1) âû-
äåëåíèå ìíîæåñòâà ñëîâ, âñòðå÷àþùèõñÿ â òåêñòàõ äîêóìåíòîâ, îòâå÷àþùèõ òåð-
ìèíàì â îáëàñòè çíàíèé ñîîòâåòñòâóþùèõ äîêóìåíòîâ; 2) óñòàíîâêà íà ìíîæåñò-
âå äàííûõ òåðìèíîâ îòíîøåíèé, èñïîëüçóåìûõ â òåçàóðóñå.
Çàäà÷à âûäåëåíèÿ òåðìèíîâ èç ìíîæåñòâà âñåõ ñëîâ äîêóìåíòà ñìûñëîâûì
îáðàçîì ïîäîáíà îáû÷íîé îïåðàöèè èíäåêñèðîâàíèÿ òåêñòîâ ïîèñêîâûìè ñèñòå-
ìàìè, ÷òî è áûëî èñïîëüçîâàíî â íàøåì ìåòîäå äëÿ ïîëó÷åíèÿ óïîðÿäî÷åííîãî
ñïèñêà óíèêàëüíûõ ñëîâ êîëëåêöèè, ñ ïðèìåíåíèåì òåõíèêè âçâåøèâàíèÿ
TFIDF. Ïðè ýòîì â íà÷àëå òàêîé ïîñëåäîâàòåëüíîñòè ñîäåðæàòñÿ ñëîâà, íàèëó÷-
øèì îáðàçîì õàðàêòåðèçóþùèå ñîäåðæàíèå äîêóìåíòîâ, à ñëåäîâàòåëüíî, ÿâëÿ-
þùèåñÿ êàíäèäàòàìè â òåðìèíû.
Äëÿ îãðàíè÷åíèÿ òàêîãî ñïèñêà ñëîâ ìîæíî ââåñòè îïåðàòîð, êîòîðûé ïðå-
äîñòàâèë áû âîçìîæíîñòü îïðåäåëèòü ãðàíè÷íûé ýëåìåíò ñïèñêà, ïîñëå êîòîðîãî
èäóò îáùåóïîòðåáèòåëüíûå ñëîâà, íå ÿâëÿþùèåñÿ òåðìèíàìè.
Äàííûé îïåðàòîð ìîæåò èìåòü ñëåäóþùèå âàðèàöèè äëÿ íàøåãî ìåòîäà.
«Ñòîï-ñïèñîê» — îïåðàòîð, îòñåêàþùèé çàäàííîå ïàðàìåòðîì êîëè÷åñòâî ñëîâ
â õâîñòå ïîñëåäîâàòåëüíîñòè. Òàêîé ïîäõîä èñïîëüçóåò îäèí èç ïîïóëÿðíûõ ìå-
òîäîâ óäàëåíèÿ ñòîï-ñëîâ â ïîèñêîâûõ ñèñòåìàõ, îäíàêî îñòàåòñÿ ÷óâñòâèòåëü-
íûì ê ðàçìåðó êîëëåêöèè òåêñòîâ. Ïðîïîðöèîíàëüíûé îïåðàòîð ïîäîáåí îïåðà-
òîðó «ñòîï-ñïèñîê», ñ îãðàíè÷åíèåì â êà÷åñòâå ïàðàìåòðà îïðåäåëåííîãî ïðî-
öåíòà ñëîâ â õâîñòå ïîñëåäîâàòåëüíîñòè, îñíîâàííûé íà ñòàòèñòè÷åñêîì
ðàñïðåäåëåíèè ÷èñëà òåðìèíîâ â êîëëåêöèÿõ íàó÷íûõ òåêñòîâ.
56 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6
 ðåçóëüòàòå âû÷èñëèòåëüíûõ ýêñïåðèìåíòîâ áûëî ðåøåíî îñòàíîâèòüñÿ íà
ïðîïîðöèîíàëüíîì ïîäõîäå ê îãðàíè÷åíèþ âõîäíîãî ñïèñêà òåðìèíîâ, èñõîäÿ èç
åãî ïðåèìóùåñòâ ïðè îáðàáîòêå íåïîäãîòîâëåííûõ òåêñòîâûõ êîëëåêöèé.
Ïðîâåäåíî îöåíêó òåðìèíîâ ïî ìåòðèêå äîêóìåíòàðíîé ÷àñòîòû ýòàëîííîé
êîëëåêöèè. Ïîíÿòíî, ÷òî ñïîñîáû îãðàíè÷åíèÿ ñïèñêà ñëîâ áóäóò ðàáîòàòü òîëüêî
ïðè óñëîâèè ïðèìåíåíèÿ íàäåæíîé ñõåìû âçâåøèâàíèÿ, ÷òî, â ñâîþ î÷åðåäü, â íà-
øåì ñëó÷àå áóäåò çàâèñåòü îò ñïîñîáà ïîäñ÷åòà ñîñòàâëÿþùåé äîêóìåíòàðíîé ÷àñ-
òîòû òåðìèíîâ, ÷óâñòâèòåëüíîé ê ñîñòàâó è ðàçìåðó êîëëåêöèé.
 äàííîé ðàáîòå ïðîáëåìó ìàëûõ êîëëåêöèé òåêñòîâ äëÿ íàäåæíîãî âçâåøè-
âàíèÿ ïðåäëîæåíî ðåøàòü ïóòåì íàïîëíåíèÿ è èñïîëüçîâàíèÿ ñïðàâî÷íîé ñèñòå-
ìû äîêóìåíòàðíûõ ÷àñòîò òåðìèíîâ. Ñïðàâî÷íàÿ ñèñòåìà áàçèðóåòñÿ íà ïîñòðîå-
íèè è èíäåêñàöèè áîëüøîé è ðàçíîîáðàçíîé ó÷åáíîé êîëëåêöèè òåêñòîâ íàó÷íîé
òåìàòèêè ñ ïîñëåäóþùèì õðàíåíèåì ïîëó÷åííûõ äîêóìåíòàðíûõ ÷àñòîò êàê ýòà-
ëîííûõ.  êà÷åñòâå äîêóìåíòàðíîé îñíîâû äëÿ òàêîé êîëëåêöèè ïðåäëîæåíî
ïîëíîå ñîáðàíèå ñòàòåé æóðíàëà «Íàó÷íûå çàïèñêè ÍàÓÊÌÀ».
Ïîñëå ïîëó÷åíèÿ ïåðâîî÷åðåäíîãî ñïèñêà òåðìèíîâ äëÿ ñîñòàâëåíèÿ òåçàóðóñà
íåîáõîäèìî îïðåäåëèòü õàðàêòåð è íàïðàâëåííîñòü ñâÿçåé ìåæäó òåðìèíàìè.
Ââåäåì ïîíÿòèå õàðàêòåðèñòè÷åñêîãî ôðàãìåíòà òåêñòà, êîòîðûé ÿâëÿåòñÿ
íåïîñðåäñòâåííûì âõîæäåíèåì òåðìèíà â äîêóìåíò â îïðåäåëåííîì êîíòåêñòå.
Èç ìíîæåñòâà ìåòîäîâ ðàññìîòðåíèÿ êîíòåêñòà óïîòðåáëåíèÿ ñëîâ, íàïðèìåð
÷àñòåé îêðóæàþùèõ ñëîâîñî÷åòàíèé è îáîðîòîâ, ïðåäëîæåíèé, îêîí ñ ôèêñèðî-
âàííûì ðàçìåðîì êîëè÷åñòâà ñëîâ, ìû âûáðàëè èìåííî ïðåäëîæåíèÿ â êà÷åñòâå
îñíîâû äëÿ íàøèõ èññëåäîâàíèé, èñõîäÿ èç èìåþùèõñÿ èíñòðóìåíòîâ, êîòîðûå
ïîçâîëÿëè áû ïðèìåíèòü ìåòîäèêó òåãèðîâàíèÿ ïî ÷àñòÿì ðå÷è â êà÷åñòâå
îñíîâû äëÿ ëåêñèêîãðàôè÷åñêèõ ìåòîäîâ.
Ñëåäóþùèé øàã — íàõîæäåíèå õàðàêòåðèñòè÷åñêèõ ôðàãìåíòîâ òåêñòà âñåõ
òåðìèíîâ èç ñïèñêà. Äàííûé ïîèñê ìîæíî îñóùåñòâèòü ëèíåéíî, îäíàêî, ïðåäó-
ñìàòðèâàÿ âîçìîæíîñòü ìàñøòàáèðîâàíèÿ ðàçðàáîòàííîãî ìåòîäà, ïðåäëîæåíî èñ-
ïîëüçîâàòü îäíó èç ïîèñêîâûõ ñèñòåì ñ îòêðûòûì êîäîì, êîòîðàÿ âîçâðàùàëà áû
âñå äîêóìåíòû èç íàøåé êîëëåêöèè, ñîäåðæàùèå îïðåäåëåííûé òåðìèí, òàêèì îá-
ðàçîì îãðàíè÷èâàÿ ïðîñòðàíñòâî ëèíåéíîãî ïîèñêà. Äàëåå, ñðåäè íàéäåííûõ äîêó-
ìåíòîâ îñóùåñòâëÿåòñÿ ëèíåéíûé ïîèñê õàðàêòåðèñòè÷åñêèõ ôðàãìåíòîâ.
Íà ñëåäóþùåé ñòàäèè ðàáîòû ìåòîäà àíàëèçèðóþòñÿ âñå íàéäåííûå õàðàê-
òåðèñòè÷åñêèå ôðàãìåíòû ñ ïðèìåíåíèåì ðàçëè÷íûõ ìåòîäèê äëÿ îïðåäåëåíèÿ
òèïà ñâÿçè. Ïðèìåíåíèå ïðîñòîãî ìåòîäà ñîâìåñòíîãî óïîòðåáëåíèÿ òåðìèíîâ
âíóòðè îäíîãî õàðàêòåðíîãî ôðàãìåíòà ïîçâîëÿåò óñòàíîâèòü ñâÿçü òåðìèíîâ
(RT), åñëè îíè âõîäÿò â õàðàêòåðíûå ôðàãìåíòû òåêñòà âìåñòå ñ íà÷àëüíûì òåð-
ìèíîì; ïðèìåíåíèÿ ìíîæåñòâà îïðåäåëåííûõ ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ ïî-
çâîëÿåò íàéòè ñâÿçè òèïîâ BT, NT è RT.
Ïðîâåäåì ðàñøèðåíèå òåçàóðóñà ñ ïîìîùüþ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷å-
òàíèé. Ïðèìåíåíèå ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ áàçèðóåòñÿ íà ìåòîäå íàõîæ-
äåíèÿ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé, êîòîðûé, â ñâîþ î÷åðåäü, â ñëó÷àå ñî-
âïàäåíèÿ øàáëîíà ñ òåêñòîì ïîçâîëÿåò âûäåëèòü íå òîëüêî îäíîñëîâíûå òåðìè-
íû, íî è ñîñòîÿùèå èç íåñêîëüêèõ ñëîâ. Åñòåñòâåííî, òåðìèíîâ âòîðîãî òèïà
íàìíîãî áîëüøå. Òàêèì îáðàçîì, ïîáî÷íûì ïðîäóêòîì ïðèìåíåíèÿ ëåêñèêîãðà-
ôè÷åñêèõ øàáëîíîâ ÿâëÿåòñÿ ðàñøèðåíèå ïåðâîî÷åðåäíîãî ñïèñêà òåðìèíîâ òåð-
ìèíîëîãè÷åñêèìè ñëîâîñî÷åòàíèÿìè. Ýòîãî íåëüçÿ áûëî äîñòè÷ü íà ïåðâîì ýòà-
ïå ñ ïîìîùüþ èíäåêñèðîâàíèÿ â ðàìêàõ èñïîëüçîâàííûõ èíñòðóìåíòîâ.
Äëÿ ïðèìåíåíèÿ îïðåäåëåííûõ íàìè ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ ââåäåì
òàêóþ ôîðìàëüíóþ íîòàöèþ. Ëåêñèêîãðàôè÷åñêèé øàáëîí (Lexicographic
Pattern — LP) — óïîðÿäî÷åííûé ñïèñîê îïåðàòîðîâ ñîïîñòàâëåíèÿ. Îïåðàòîð ñî-
ïîñòàâëåíèÿ — êîìàíäà, êîòîðàÿ òðåáóåò ïðèìåíåíèÿ îïåðàöèè ïîèñêà ñîâïàäå-
íèÿ òèïà ñóùåñòâèòåëüíîãî ñëîâîñî÷åòàíèÿ (Noun Phrase — NP) èëè êîíêðåòíî-
ãî ñëîâà, èëè ñèìâîëà èç ñèíîíèìè÷åñêîãî ðÿäà (Exact Word — EW).
NP — îïåðàòîð ñîïîñòàâëåíèÿ, âûïîëíÿþùèé ïîèñê ñóùåñòâèòåëüíîãî
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 57
ñëîâîñî÷åòàíèÿ çà ñ÷åò ïðèìåíåíèÿ óêàçàííûõ äëÿ êàæäîãî òàêîãî îïåðàòîðà
ñïèñêà ïðàâèë ñîâïàäåíèÿ ïî ÷àñòÿì ðå÷è. Âîçâðàùàåò â êà÷åñòâå ðåçóëüòàòà âñå
íàéäåííûå âî ôðàçå ñóùåñòâèòåëüíûå ñëîâîñî÷åòàíèÿ â ïîðÿäêå çàäàííûõ ïðà-
âèë ñîâïàäåíèÿ, à òàêæå ïîçèöèè íàéäåííûõ ñóùåñòâèòåëüíûõ ñëîâîñî÷åòàíèé
â ôðàçå. Ê îïåðàòîðàì ñîïîñòàâëåíèÿ äàííîãî òèïà â êà÷åñòâå ïàðàìåòðà ìîæíî
çàäàòü èõ ðîëü (èíäåêñû 1 è 0).
Ðîëü îïåðàòîðà NP — èíäåêñ 1 èëè 0, êîòîðûé óêàçûâàåò íà ãëàâíóþ èëè âòî-
ðîñòåïåííóþ ðîëü äàííîãî îïåðàòîðà â øàáëîíå (çàïèñûâàåòñÿ êàê NP1 èëè NP0).
EW — îïåðàòîð ñîïîñòàâëåíèÿ, îñóùåñòâëÿþùèé ïîèñê âõîæäåíèÿ êîí-
êðåòíîãî ñèìâîëà èëè ñëîâà â ôðàçó èç ñïèñêà âîçìîæíûõ àëüòåðíàòèâ, âîçâðà-
ùàåò ïîçèöèè âõîæäåíèé òàêèõ ñëîâ.
W — îïåðàòîð îêíà, êîòîðûé óêàçûâàåò ìèíèìàëüíûå è ìàêñèìàëüíûå ðàì-
êè îêíà, èãðàåò ðîëü ìàñêè ñîâïàäåíèÿ ñ ëþáûìè ïîñëåäîâàòåëüíîñòÿìè ñëîâ
â ïðåäëîæåíèè.
IT — îïåðàòîð èòåðàöèè, êîòîðûé îáîçíà÷àåò ïîâòîðÿþùóþñÿ ïîñëåäîâà-
òåëüíîñòü îïåðàòîðîâ â øàáëîíå.
Ïðàâèëî ñõîäèìîñòè ( )MR — çàäàííàÿ ïîñëåäîâàòåëüíîñòü òåãîâ ÷àñòåé ðå÷è,
êîòîðîé äîëæíà ñîîòâåòñòâîâàòü ïîäïîñëåäîâàòåëüíîñòü ñëîâ â ïðåäëîæåíèè.
Òåãè ÷àñòåé ðå÷è ( , , )N A P — ïàðàìåòðû êîíôèãóðàöèè ïðàâèë ñîïîñòàâëå-
íèÿ äëÿ âûäåëåíèÿ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé, îáîçíà÷àþùèõ ñóùåñò-
âèòåëüíîå ( )N , ïðèëàãàòåëüíîå ( )A è ïðåäëîã ( )P ñîîòâåòñòâåííî.
Óäîâëåòâîðåíèå øàáëîíà — íàõîæäåíèå ìíîæåñòâà óäîâëåòâîðÿþùèõ îïå-
ðàòîðàì ñîïîñòàâëåíèÿ ïîäïîñëåäîâàòåëüíîñòåé ñëîâ, ãäå êàæäàÿ ïîçèöèÿ òàêîé
ïîäïîñëåäîâàòåëüíîñòè îòâå÷àåò êàê ïîðÿäêó âõîæäåíèÿ â ôðàçó, òàê è ïîðÿäêó
îïåðàòîðà, îïðåäåëåííîãî â øàáëîíå. Âñå âîçìîæíûå ñîâïàäåíèÿ ïî îòäåëüíûì
îïåðàòîðàì äîëæíû áûòü îáúåäèíåíû â ðåçóëüòèðóþùåå ìíîæåñòâî ïóòåì
îãðàíè÷åíèÿ ïî ïðàâèëàì.
Íàïðèìåð, ÷òîáû çàôèêñèðîâàòü â íàøåé ôîðìàëüíîé íîòàöèè ëåêñèêîãðà-
ôè÷åñêèé øàáëîí, îòâå÷àþùèé çà ïðÿìûå îïðåäåëåíèÿ ñ èñïîëüçîâàíèåì òèðå,
íóæíî çàïèñàòü ñëåäóþùåå:
LP NP MR A N EW NP MR N N� � � �� � ��( ( , ), (“ ”, ” ”), ( , ))0 1 .
Òàêîìó øàáëîíó óäîâëåòâîðÿåò ôðàçà: «Ñîöèîëîãè÷åñêîå èññëåäîâàíèå — ñèñ-
òåìà ïðîöåäóð äëÿ ïîëó÷åíèÿ íàó÷íûõ çíàíèé î ñîöèàëüíûõ ÿâëåíèÿõ è ïðîöåññàõ».
Ïðè ýòîì ïåðâîìó îïåðàòîðó ñîïîñòàâëåíèÿ áóäåò îòâå÷àòü òåðìèíîëîãè÷åñêîå ñëî-
âîñî÷åòàíèå «ñîöèîëîãè÷åñêîå èññëåäîâàíèå», îïåðàòîðó ñîïîñòàâëåíèÿ ïî ñëîâó
áûëî ïðåäîñòàâëåíî äâå àëüòåðíàòèâû — ñîáñòâåííî ñèìâîë «òèðå», à òàêæå äåôèñ
äëÿ îáðàáîòêè ñëó÷àåâ çàìåíû äàííîãî ñèìâîëà â èñõîäíîì òåêñòå, ïîñëåäíåìó îïå-
ðàòîðó ñîîòâåòñòâóåò ñëîâîñî÷åòàíèå «ñèñòåìà ïðîöåäóð».
Òàêèì îáðàçîì, îïåðàòîðû ñîïîñòàâëåíèÿ òèïà EW â øàáëîíå èãðàþò ðîëü ôèê-
ñèðîâàííûõ òî÷åê øàáëîíà, â òî âðåìÿ êàê îïåðàòîðû NP — ðîëü íàïîëíÿåìûõ ïåðå-
ìåííûõ, èçâëåêàþùèõ ñëîâîñî÷åòàíèÿ èç ôðàç âî âðåìÿ óäîâëåòâîðåíèÿ øàáëîíà.
Ïðîâåäåì èíòåðïðåòàöèþ ñâÿçåé ïî ñîâïàäåíèÿì òåêñòà ñ øàáëîíîì. Ïðè ñî-
ñòàâëåíèè øàáëîíà ïàðàìåòðàì NP äîïîëíèòåëüíî óêàçûâàåòñÿ ïàðàìåòð ãëàâíîé
èëè âòîðîñòåïåííîé ðîëè â øàáëîíå, êîòîðûå èíòåðïðåòèðóþò ñâÿçè ìåæäó ïîëó-
÷åííûìè ñîâïàäåíèÿìè ïî NP ñëåäóþùèì îáðàçîì: ìåæäó ïðåäñòàâèòåëÿìè NP0
è NP1 óñòàíàâëèâàåòñÿ ñâÿçü BT; ìåæäó ïðåäñòàâèòåëÿìè NP1 è NP0 óñòàíàâëè-
âàåòñÿ ñâÿçü NT ; ìåæäó ïðåäñòàâèòåëÿìè îäèíàêîâûõ ðîëåé — ñâÿçü RT .
Îñíîâîé äëÿ òàêîé èíòåðïðåòàöèè ÿâëÿåòñÿ òî, ÷òî â áîëüøèíñòâå øàáëîíîâ
íà ñîîòâåòñòâóþùèõ ìåñòàõ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé ïî ÷àñòÿì
ïðåäëîæåíèÿ áûâàþò èëè îäíîðîäíûå îïðåäåëåíèÿ, èëè ïðèëîæåíèÿ, èëè îá-
îáùàþùèå ñëîâà, èëè, íàïðèìåð, â ñëó÷àå ñîïîñòàâëåíèÿ ñ øàáëîíîì ïðÿìûõ
îïðåäåëåíèé â òåêñòå — ñîîòâåòñòâåííî òåðìèí è åãî ðîäîâàÿ ïðèíàäëåæíîñòü.
Òàêèì îáðàçîì, â òåêñòå â ñëó÷àå ñîâïàäåíèÿ ñ øàáëîíîì íàïðàâëåííîñòü ñâÿçè
÷åòêî îïðåäåëåíà.
58 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6
Äëÿ ðåàëèçàöèè àëãîðèòìà ïîèñêà ãèïîíèìîâ ïî Õåàðñòó ñíà÷àëà íåîáõîäè-
ìî íàó÷èòü ñèñòåìó ðàñïîçíàâàòü ôðàçîâûå ñëîâîñî÷åòàíèÿ. Ïðåäëàãàåìûé ïîä-
õîä — ôèêñàöèÿ ñóùåñòâèòåëüíûõ â ïðåäëîæåíèè ñ ïîñëåäóþùèì ïîäáîðîì
îêðóæàþùèõ ñëîâ ïî ïðàâèëàì.
Ó÷èòûâàÿ ñõîäñòâî íàó÷íîãî ñòèëÿ ïðè ïîäà÷å îïðåäåëåíèé íà ìíîãèõ ÿçû-
êàõ, êàæåòñÿ óäà÷íîé ìûñëü î ëîêàëèçàöèè ðàçðàáîòàííûõ Õåàðñòîì øàáëîíîâ
äëÿ óêðàèíñêîãî ÿçûêà ñ äîáàâëåíèåì íîâûõ.
Äëÿ òîãî ÷òîáû ñóçèòü ðàìêè èññëåäîâàíèÿ è äîñòè÷ü îïðåäåëåííîãî ðåçóëü-
òàòà äëÿ ñïåöèôè÷åñêèõ, è âìåñòå ñ òåì íàèáîëåå óïîòðåáëÿåìûõ ñïîñîáîâ ñî-
çäàíèÿ òåðìèíîëîãèè, áûëè ïðèâëå÷åíû òîëüêî òåðìèíû-ñóùåñòâèòåëüíûå è ñó-
ùåñòâèòåëüíûå ñëîâîñî÷åòàíèÿ.
Èç øàáëîíîâ, îòâå÷àþùèõ çà ñâÿçè ìåæäó òåðìèíàìè â ïðåäëîæåíèè, âû-
áðàíû ñëåäóþùèå êàòåãîðèè:
� ïðÿìûå îïðåäåëåíèÿ è äåôèíèöèè ñ èñïîëüçîâàíèåì õàðàêòåðíûõ äëÿ óê-
ðàèíñêîãî ÿçûêà çíàêîâ ïóíêòóàöèè è ñëîâ-ñâÿçåé;
� øàáëîíû ïî Õåàðñòó;
� øàáëîí íà îáîçíà÷åíèå ñâÿçåé ÷àñòü–öåëîå.
Âñå ïðåäñòàâëåííûå øàáëîíû ðàñøèðÿþòñÿ ñèíîíèìè÷íûìè è ïîõîæèìè
â óïîòðåáëåíèè ñëîâàìè â ôîðìóëàõ øàáëîíà. Ïðè ñîïîñòàâëåíèè ïðåäëîæåíèé
ñ øàáëîíîì âñå ñëîâà ïðèâîäÿòñÿ ê íîðìàëüíîé ôîðìå, ÷òî ïîçâîëÿåò óìåíüøèòü
íåîáõîäèìîå êîëè÷åñòâî âàðèàöèé øàáëîíà. Äåòàëüíî ðàçðàáîòàííûå øàáëîíû
ïðåäñòàâëåíû â òàáë 1.
Ïðè ïðèìåíåíèè ïðàâèë øàáëîíà ó÷èòûâàåòñÿ èõ î÷åðåäíîñòü, òàêèì îáðà-
çîì, â ïåðâóþ î÷åðåäü îòûñêèâàþòñÿ ñóùåñòâèòåëüíûå â êà÷åñòâå ýëåìåíòîâ ñî-
âïàäåíèÿ ñëîâîñî÷åòàíèÿ, ñ áîëüøèì êîëè÷åñòâîì ñëîâ, à çíà÷èò, áîëåå ðåäêèå â
óïîòðåáëåíèè.
2.2. Ìàòåìàòè÷åñêàÿ ìîäåëü è àëãîðèòìè÷åñêàÿ ôîðìàëèçàöèÿ ìåòîäà.
Ââåäåì ñëåäóþùèå îáîçíà÷åíèÿ: D — ìíîæåñòâî òåêñòîâûõ äîêóìåíòîâ, LP —
ìíîæåñòâî ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ, T — ìíîæåñòâî òåðìèíîâ òåçàóðóñà,
TF — îòñîðòèðîâàííûé ïî ìåòðèêå TFIDF è îãðàíè÷åííûé ôóíêöèåé limit T( )
ñïèñîê âàæíûõ îäíîñëîâíûõ òåðìèíîâ êîëëåêöèè, TE — ìíîæåñòâî ìíîãîñëîâ-
íûõ òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé, R — ìíîæåñòâî ñâÿçåé òåçàóðóñà,
R T T Rli �{ }( , , )1 2 , ãäå Rl RT BT NT�{ }, , è T T Tt1 2, � — ìíîæåñòâî õàðàêòåðèñòè-
÷åñêèõ ôðàãìåíòîâ òåêñòà äëÿ òåðìèíà t, SC — ìíîæåñòâî ïðåäëîæåíèé õàðàê-
òåðíîãî ôðàãìåíòà Ñ, LemS — ìíîæåñòâî ëåìàòèçèðîâàííûõ ñëîâ ïðåäëîæåíèÿ
S , M lp — ïîñëåäîâàòåëüíîñòü ñîâïàâøèõ ñ ëåêñèêîãðàôè÷åñêèì øàáëîíîì
òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé.
Òàêæå ââåäåì ñëåäóþùèå ôóíêöèè:
lm T t t T t t TS F( ) : | |{ } { }� � �' ' — ôóíêöèÿ îãðàíè÷åíèÿ îòñîðòèðîâàííîãî
ñïèñêà òåðìèíîâ;
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 59
Ò à á ë è ö à 1. Ïåðå÷åíü ðàçðàáîòàííûõ ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ â ôîð-
ìàëüíîé íîòàöèè
Íàçâàíèå Ôîðìàëüíàÿ çàïèñü ïðàâèë øàáëîíà
MR1-9
MR NPNN� �, MR ANNN� �, MR ANAN� �, MR ANN� �,
MR NAN� �, MR NN� �, MR AN� �, MR N� �
LP1 NP EW EW1, | ,� � � ��’ ‘ ’ ‘ ‘öå’ |‘º’|‘îçíà÷ຑ |‘ââàæàºòüñÿ‘, NP0
LP2 EW �’òàêèé‘� �, ,NP EW1 ‘ÿê’� �, { ,ITNP EW0 ’,’� �},EW ’’³ |’àáî’ | ’é’ | ’òà’�, NP0
LP3 NP ITEW NP EW0 0, ’ ,’ , ,� � � ’³’|’àáî’|’é’|’òà’ � �, EW ‘³íøèé’�, NP1
LP4
NP EW EW1, ’ ,’ ,� � � ’âêëþ÷àþ÷è’|’à ñàìå’|’çîêðåìà’|’îñîáëèâî’� ,
ITNP EW EW0, ’ ,’ ,� � � ’³’|’àáî’|’é’|’òà’�, NP0
LP5 NP W EW0 0 3, , ,� � � ’áóòè ÷àñòèíîþ’|’âõîäèòè â’� � �, , ,W NP0 3 1
LP6
NP W EW1 0 3, , ,� � � ‘ñêëàäàòèñÿ ç’|‘ï³äðîçä³ëÿòèñÿ íà’ � � �, ,W 0 3 ,
ITNP EW EW0, ’ ,’ ,� � � ’³’|’àáî’|’é’|’òà’�, NP0
extract d D t t T( ) : |� �{ } — ôóíêöèÿ èçâëå÷åíèÿ òåðìèíîâ èç äîêóìåíòà;
sort T d T D t t t i j tf t d idf t
T
i j i( , ) : ( ) , , , ( ) (
| |
,{ } �
� �
'
1 i j jf t d idf t) ( ) ( ),�
—
ôóíêöèÿ, êîòîðàÿ ñòðîèò ïîñëåäîâàòåëüíîñòü îòñîðòèðîâàííûõ òåðìèíîâ äîêó-
ìåíòà ïî óáûâàíèþ ìåòðèêè TFIDF;
tf t d T D R( , ) : � — ôóíêöèÿ âû÷èñëåíèÿ ÷àñòîòû òåðìèíà â äîêóìåíòå;
idf t T R( ) : � — ôóíêöèÿ, ñòàâÿùàÿ êàæäîìó òåðìèíó â ñîîòâåòñòâèå åãî
èíâåðòèðîâàííóþ äîêóìåíòàðíóþ ÷àñòîòó ñ ýòàëîííîé êîëëåêöèè;
findCF t T c Ct( ) : � �{ } — ôóíêöèÿ ïîèñêà õàðàêòåðèñòè÷åñêèõ ôðàãìåíòîâ
òåðìèíà;
split c C s s St C( ) : |� �{ } — ôóíêöèÿ ðàçáèåíèÿ õàðàêòåðèñòè÷åñêîãî ôðàã-
ìåíòà òåêñòà íà ïðåäëîæåíèÿ;
lem s S lem lem LemC S( ) : ( | )� � — ôóíêöèÿ èçâëå÷åíèÿ ïîñëåäîâàòåëüíîñòè
ëåì èç ïðåäëîæåíèÿ;
match lp s LP S m m MC lp( , ) : | � �{ } — ôóíêöèÿ óäîâëåòâîðåíèÿ øàáëîíà,
êîòîðàÿ âîçâðàùàåò ìíîæåñòâî ïîñëåäîâàòåëüíîñòåé ñîâïàâøèõ òåðìèíîëîãè-
÷åñêèõ ñëîâîñî÷åòàíèé â ïîðÿäêå ñëåäîâàíèÿ ïîçèöèé øàáëîíà;
inrs M m m M Rlp lp( ) : |{ }� � — ôóíêöèÿ óñòàíîâëåíèÿ ñâÿçåé íà ìíîæåñòâå
ïîñëåäîâàòåëüíîñòåé ñîâïàäåíèé ñ øàáëîíîì.
Ðàçðàáîòàííûé ìåòîä ïîñòðîåíèÿ òåçàóðóñà ìîæíî ïðåäñòàâèòü àëãîðèòìîì,
ïîêàçàííûì íà ðèñ. 1. Èñïîëüçóåòñÿ òàêæå ñëåäóþùàÿ ôîðìàëèçàöèÿ ïðàâèë ñî-
âïàäåíèÿ ñ ëåêñèêîãðàôè÷åñêèì øàáëîíîì:
LP pe pe PEl� �{ }( ) |
1
— ìíîæåñòâî ëåêñèêîãðàôè÷åñêèõ øàáëîíîâ, çàäàí-
íîå êàê ìíîæåñòâî ýëåìåíòîâ øàáëîíà. PE NP NP EW W IT� { }0 1, , , , — ýëåìåíòû
øàáëîíà;
NP mr mr MR NP mr mr MRm m
0 1 1 1
0 1� � � �{ } { }(( ) , ) | ; (( ) , ) | — ìíîæåñòâà êî-
ìàíä ïîèñêà òåðìèíîëîãè÷åñêèõ ñëîâîñî÷åòàíèé ñ óêàçàíèåì ãëàâíîé (1) èëè
âòîðîñòåïåííîé (0) ðîëè ñëîâîñî÷åòàíèÿ â øàáëîíå;
MR tag tag N A Pk� �{ { }}( ) | ' ' , ' ' , ' '
1
— ìíîæåñòâî ïðàâèë ñîâïàäåíèÿ, çàäàí-
íîå ïîñëåäîâàòåëüíîñòÿìè òåãîâ ÷àñòåé ðå÷è;
60 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6
Ðèñ 1. Àëãîðèòì ïîñòðîåíèÿ òåðìèíîëîãèè
EW ew ew Lemn� �{ }( ) |
1
— ìíîæåñòâî êîìàíä ïîèñêà ïðÿìîãî ñîâïàäåíèÿ ïî
ñëîâó, êîòîðîå çàäàíî íà ïîñëåäîâàòåëüíîñòÿõ àëüòåðíàòèâ ëåì;
W N� �{ }(min, max) | min, max — ìíîæåñòâî êîìàíä ïîèñêà îêîí, êîòîðîå
çàäàíî ïàðàìè ìèíèìàëüíîé è ìàêñèìàëüíîé äëèíû îêíà â ïðåäëîæåíèè;
IT it it PEt� �{ }( ) ) |
1
— ìíîæåñòâî êîìàíä ïèñêà èòåðàöèé, êîòîðîå çàäàíî
íà ïîäïîñëåäîâàòåëüíîñòÿõ ýëåìåíòîâ øàáëîíà;
P l p l Lem p NM � � �{ }(( ) , ) | ,
1
� — ìíîæåñòâî ôðàçîâûõ ñîâïàäåíèé, çàäàí-
íûõ ïàðàìè ïîñëåäîâàòåëüíîñòåé ëåì è ïîçèöèé ïåðâîé ëåìû;
M p lp pe s S p apply pe s pe NPlp
l
i j j� � �
�
� �( ) | ( ) , , ( , ),
1 1
� { 0 1, NP } — ïî-
ñëåäîâàòåëüíîñòü ôðàçîâûõ ñîâïàäåíèé ïî îïåðàòîðàì NP NP0 1, øàáëîíà;
apply pe s PE S p p PM( , ) : | � �{ } — ôóíêöèÿ ñîïîñòàâëåíèÿ ýëåìåíòà øàá-
ëîíà ñ ôðàçîé, êîòîðàÿ ñòàâèò â ñîîòâåòñòâèå ìíîæåñòâî ôðàçîâûõ ñîâïàäåíèé;
match lp s LP S m m MC lp( , ) : | � � � �{ }, êîãäà
�lp pe l( ) ,1 � �( ) | ( , )m m apply pe sl
i1
òàêàÿ, ÷òî
m mi j, , i j m l pi
i
i� � � (( ) , )1
� , m l pj
j
j� (( ) , )
1
�
, p pi j� , { } { }� �m m
n l1 1, ,
inrs M m m Mlp lp( ) : |{ }� �
�
� � � � � �
r
r T T BT lp pe s pm apply pe sl
i
|
( , , ) | ( ) , , ( , ),1 2 1 1 1 1 pm T p
s pm apply pe s pm T p pej i
1 1 1
2 2 2 2 2 2
�
� � � �
( , ),
, ( , ), ( , ), � �
� � �
�
NP pe NP
r T T NT pe NP pe NP
r T T
j
i j
1 0
1 2 0 1
1 2
, ,
( , , ) | ,
( , , RT pe pe NP pe pe NPi j i j) | ( , ) ( , )� � �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
0 1
ÇÀÊËÞ×ÅÍÈÅ
 íàñòîÿùåé ðàáîòå îïèñàíî ðåøåíèå çàäà÷è èòåðàòèâíîãî ïîñòðîåíèÿ òåðìè-
íîëîãèè â êîëëåêöèÿõ íàó÷íûõ òåêñòîâ íà óêðàèíñêîì ÿçûêå. Íà îñíîâå ïðåä-
ëîæåííîãî ìåòîäà è ðàçðàáîòàííîãî àëãîðèòìà ñîçäàí ïðîãðàììíûé ìîäóëü
â âèäå âåá-ñåðâèñà ñ âîçìîæíîñòÿìè ïîñòðîåíèÿ òåçàóðóñîâ â ôîðìàòå RDF èç
èñõîäíûõ òåêñòîâ ôîðìàòà pdf. Ôîðìàò òåçàóðóñà JSON-LD âûáðàí ñ ó÷åòîì
âîçìîæíîñòè ïóáëèêàöèè ïîëó÷åííûõ òåðìèíîëîãè÷åñêèõ ñâÿçåé â ñòàíäàðòè-
çèðîâàííîì âèäå ñåòåâîãî äîñòóïà ê ðåñóðñàì è ñ ïîçèöèé ïîíèìàíèÿ òåçàó-
ðóñà êàê ïîëíîöåííîãî ïðîãðàììíîãî ìîäóëÿ ïîèñêîâîé ñèñòåìû íàó÷íûõ ìà-
òåðèàëîâ. Èç òèïîâ ñâÿçåé ìåæäó òåðìèíàìè äëÿ ïîèñêà ïðåäïî÷òåíèå îòäàíî
ñâÿçÿì «îáùåå–÷àñòè÷íîå», êîòîðûå îïðåäåëÿëèñü ñ ïîìîùüþ ëåêñèêîãðàôè-
÷åñêîãî àíàëèçà ïðåäëîæåíèé òåêñòîâ íà ïðåäìåò ñîäåðæàíèÿ ãèïîíèìè÷åñêèõ
ñâÿçåé ìåæäó òåðìèíàìè.
 îñíîâó ðàçðàáîòàííîãî ìîäóëÿ ïîñòðîåíèÿ òåçàóðóñîâ ïîëîæåí îïèñàí-
íûé â äàííîé ðàáîòå ìåòîä ïîèñêà âàæíûõ òåðìèíîâ è ñâÿçåé â òåêñòå. Ïåðâûé
ýòàï ðàáîòû äàííîãî ìåòîäà, êîòîðûé ñâÿçàí ñ ïîèñêîì âàæíûõ òåðìèíîâ â êîë-
ëåêöèÿõ äîêóìåíòîâ, ðåøåí ñ ïîìîùüþ ïðåäëîæåííîãî ìåòîäà âçâåøèâàíèÿ, ñî-
ðòèðîâêè è ôèëüòðàöèè òåðìèíîâ äîêóìåíòîâ ñ ïîìîùüþ ìåòðèêè äîêóìåíòàð-
íîé ÷àñòîòû ýòàëîííîé êîëëåêöèè.  êà÷åñòâå òàêîé êîëëåêöèè èñïîëüçîâàëñÿ
àðõèâ óêðàèíîÿçû÷íîé ïåðèîäèêè «Íàó÷íûå çàïèñêè ÍàÓÊÌÀ», íà îñíîâå êîòî-
ðîãî ïîñòðîåí ñïðàâî÷íûé èíäåêñ äîêóìåíòàðíûõ ÷àñòîò òåðìèíîâ.
Âòîðîé ýòàï ðàçðàáîòàííîãî ìåòîäà ñâÿçàí ñ ïðèìåíåíèåì ëåêñèêîãðàôè÷åñ-
êèõ øàáëîíîâ äëÿ ïîèñêà ãèïîíèìè÷åñêèõ ñâÿçåé â èñõîäíûõ òåêñòàõ. Äëÿ ïîèñ-
êà óñïåøíîé ðåàëèçàöèè èñïîëüçîâàëîñü îòêðûòîå ïðîãðàììíîå îáåñïå÷åíèå,
íàïðàâëåííîå íà ðåøåíèå óòèëèòàðíûõ çàäà÷ ëåììàòèçàöèè òåðìèíîâ è òåãèðî-
âàíèå ñëîâ ïðåäëîæåíèé ïî ÷àñòÿì ðå÷è, à òàêæå àäàïòèðîâàíû ê óêðàèíîÿçû÷-
íûì ïðàâèëàì ñëîâîóïîòðåáëåíèÿ ëåêñèêîãðàôè÷åñêèå øàáëîíû, ïðåäëîæåííûå
â èññëåäîâàíèè Õåàðñòà [11]. Àâòîðû íàñòîÿùåé ïóáëèêàöèè ðàçðàáîòàëè ðàñøè-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6 61
ðÿåìûé ïðîãðàììíûé ïàêåò ñ ôóíêöèîíàëüíîñòüþ óïðàâëåíèÿ ïðèìåíåíèåì ëåê-
ñèêîãðàôè÷åñêèõ øàáëîíîâ.
Òåñòèðîâàíèå ðåàëèçàöèè ïðåäëîæåííîãî ìåòîäà íà òåìàòè÷åñêèõ êîëëåêöèÿõ
íàó÷íûõ òåêñòîâ ïðîäåìîíñòðèðîâàëî ýôôåêòèâíîñòü ïåðâîãî ýòàïà àëãîðèòìà,
à òàêæå äîñòàòî÷íóþ òî÷íîñòü âòîðîãî ýòàïà â ðàìêàõ ðàçðàáîòàííûõ øàáëîíîâ.
Îãðàíè÷åíèå ëåêñèêîãðàôè÷åñêîãî ìåòîäà ïîèñêà ãèïîíèìèè íå ïîçâîëÿþò äîñòè÷ü
ïîëíîòû ïîèñêà ñâÿçåé â òåêñòå èç-çà îäíîçíà÷íîñòè óïîòðåáëÿåìûõ â øàáëîíàõ
êîíòåêñòîâ òåðìèíîëîãè÷åñêèõ ñâÿçåé è íèçêîé ñòàòèñòè÷åñêîé ÷àñòîòîé èõ ïîÿâëå-
íèÿ â òåêñòå. Ïðîáëåìó ìîæíî óñòðàíèòü óâåëè÷åíèåì êîëè÷åñòâà øàáëîíîâ, ðàñ-
øèðåíèåì ñèíîíèìè÷åñêèõ ðÿäîâ, îïðåäåëÿþùèõ øàáëîí ñëîâ, ÷òî òðåáóåò ïðèâëå-
÷åíèÿ ýêñïåðòîâ ïî ëåêñèêîãðàôèè, à òàêæå óëó÷øåíèåì ìåòîäà òåãèðîâàíèå ïî ÷àñ-
òÿì ðå÷è ñ ïîìîùüþ ñòîõàñòè÷åñêèõ ìåòîäîâ óñòðàíåíèÿ íåîäíîçíà÷íîñòè â
îïðåäåëåíèè ÷àñòåé ðå÷è îòäåëüíûõ ñëîâ.
Ïîëó÷åííûé ïðîãðàììíûé ìîäóëü ïðîäåìîíñòðèðîâàë ïðèêëàäíóþ ïðèìå-
íèìîñòü íà òåñòîâûõ êîëëåêöèÿõ äàííûõ è ìîæåò èñïîëüçîâàòüñÿ êàê ñîñòàâëÿþ-
ùàÿ ïîèñêîâîé ñèñòåìû íàó÷íûõ ìàòåðèàëîâ.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. Ë å í ä à ó Ñ . ² . Ñëîâíèêè: ìèñòåöòâî òà ðåìåñëî ëåêñèêîãðàô³¿. — Êè¿â: Ê.².Ñ., 2012. — 480 ñ.
2. L a s s i M . Automatic thesaurus construction // University Collage of Boras, Sweden. — 2002.
10 p. — http://www.academia.edu/506142/Automatic_thesaurus_construction.
3. Ò è ï û ñâÿçåé â òåçàóðóñå. — Âåá. 10.05.2014 — http://publish.uwo.ca/~craven/677/thesaur/
main06.htm.
4. C h e n H . , T o b u n D . N g , M a r t i n e z J . , S c h a t z B . A concept space approach to
addressing the vocabulary problem in scientific information retrieval: an experiment on the worm
community system // J. of the Amer. Soc. for Inform. Sci. — 1997. — http://arizona.openrepository.
com/arizona/bitstream/10150/105991/1/chen21.pdf.
5. M i l l e r U . Thesaurus construction: problems and their roots // Inform. Proc. & Management. —
1997. — 33, N 4. — P. 481–493.
6. “I S O 25964 — the International Standard for Thesauri and Interoperability with Other
Vocabularies.” ISO 25964 Thesaurus Schemas. Web. 08 April 2014. — http://www.niso.org/
schemas/iso25964/.
7. J S O N - L D 1.0. Web. 08 June 2014. — http://www.w3.org/TR/json-ld/.
8. C h e n H . , T a k Y i m , F y e D . , S c h a t z B . Automatic thesaurus generation for an electronic
community system // J. of the Amer. Soc. for Inform. Sci. — 1995. — 46, N 3. — P. 175–193.
9. C h e n H . , L y n c h K . , B a s u , K . , N g T . D . Generating, integrating, and activating thesauri
for concept-based document retrieval // IEEE Expert. — 1993. — 8, N 2. — P. 25–34.
10. G r e f e n s t e t t e G . Automatic thesaurus generation from raw text using knowledge-poor
techniques. — Rank Xerox Research Centre, 1993. — http://www.academia.edu/4186829/
AUTOMATIC_THESAURUS_GENERATION_FROM_RAW_TEXT_ USING_KNOWLEDGE-POOR_
TECHNIQUES.
11. H e a r s t M . A . Automatic acquisition of hyponyms from large text corpora // Proc. of the 14th
Conf. on Comput. Ling. Assoc. for Comput. Ling. — 1992. — 2. — P. 539–545.
12. A l s h a w i H . Processing dictionary definitions with phrasal pattern hierarchies // Comput. Ling. —
1987. — 13, N 3–4. — P. 195–202.
Ïîñòóïèëà 03.07.2014
62 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2014, òîì 50, ¹ 6
|
| id | nasplib_isofts_kiev_ua-123456789-124739 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 0023-1274 |
| language | Russian |
| last_indexed | 2025-11-24T11:44:26Z |
| publishDate | 2014 |
| publisher | Інститут кібернетики ім. В.М. Глушкова НАН України |
| record_format | dspace |
| spelling | Глибовец, А.Н. Решетнёв, И.В. 2017-10-03T18:27:11Z 2017-10-03T18:27:11Z 2014 Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке / А.Н. Глибовец, И.В. Решетнёв // Кибернетика и системный анализ. — 2014. — Т. 50, № 6. — С. 53-62. — Бібліогр.: 12 назв. — рос. 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/124739 681.3:658.56 Описан метод итеративного построения терминологий в коллекциях научных текстов на украинском языке. Освещена проблематика автоматизированного построения тезаурусов по составлению научной терминологии. Значительное внимание уделено анализу лексикографических особенностей характеристических фрагментов текста документов. Учтена специфика украиноязычных документов. Основное внимание уделяется решению прикладной задачи построения терминологии с описанием связей в формате RDF из входящих текстов в широкоупотребляемом формате pdf. Описано метод ітеративної побудови термінологій в колекціях наукових текстів українською мовою. Висвітлено проблематику автоматизованої побудови тезаурусів з складання наукової термінології. Значну увагу приділено аналізу лексикографічних особливостей характеристичних фрагментів тексту документів. Враховано специфіку україномовних документів. Основну увагу приділено розв’язанню прикладної задачі побудови термінології з описом зв’язків в форматі RDF з вхідних текстів в загальновживаному форматі pdf. We propose a combined method of acquisition of valuable terms and relations from raw texts with corresponding iterative algorithm for automated terminology extraction over Ukrainian-language scientific texts. Special attention is paid to the analysis of lexicographical features of characteristic text fragments of documents. The specific features of Ukrainian-language documents are taken into account. The paper is focused on solving the applied problem of terminology acquisition from raw texts in the widely-used pdf format, with output of term relations described in RDF format. ru Інститут кібернетики ім. В.М. Глушкова НАН України Кибернетика и системный анализ Кибернетика Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке Метод ітеративної побудови термінології в колекціях наукових текстів українською мовою An iterative approach to terminology extraction over Ukrainian-language scientific text corpora Article published earlier |
| spellingShingle | Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке Глибовец, А.Н. Решетнёв, И.В. Кибернетика |
| title | Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке |
| title_alt | Метод ітеративної побудови термінології в колекціях наукових текстів українською мовою An iterative approach to terminology extraction over Ukrainian-language scientific text corpora |
| title_full | Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке |
| title_fullStr | Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке |
| title_full_unstemmed | Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке |
| title_short | Метод итеративного построения терминологии в коллекциях научных текстов на украинском языке |
| title_sort | метод итеративного построения терминологии в коллекциях научных текстов на украинском языке |
| topic | Кибернетика |
| topic_facet | Кибернетика |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/124739 |
| work_keys_str_mv | AT glibovecan metoditerativnogopostroeniâterminologiivkollekciâhnaučnyhtekstovnaukrainskomâzyke AT rešetneviv metoditerativnogopostroeniâterminologiivkollekciâhnaučnyhtekstovnaukrainskomâzyke AT glibovecan metodíterativnoípobudovitermínologíívkolekcíâhnaukovihtekstívukraínsʹkoûmovoû AT rešetneviv metodíterativnoípobudovitermínologíívkolekcíâhnaukovihtekstívukraínsʹkoûmovoû AT glibovecan aniterativeapproachtoterminologyextractionoverukrainianlanguagescientifictextcorpora AT rešetneviv aniterativeapproachtoterminologyextractionoverukrainianlanguagescientifictextcorpora |