Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии
Разработан метод автоматического построения онтологических баз знаний. Создан алгоритм выделения явных семантических отношений между концептами онтологии из векторов их семантико-синтаксической валентности. Векторы семантико-синтаксических валентностей также использованы в качестве контекстных векто...
Saved in:
| Published in: | Кибернетика и системный анализ |
|---|---|
| Date: | 2016 |
| Main Author: | |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2016
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/133679 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии / А.А. Марченко // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 32-38. — Бібліогр.: 11 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859953673276227584 |
|---|---|
| author | Марченко, А.А. |
| author_facet | Марченко, А.А. |
| citation_txt | Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии / А.А. Марченко // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 32-38. — Бібліогр.: 11 назв. — рос. |
| collection | DSpace DC |
| container_title | Кибернетика и системный анализ |
| description | Разработан метод автоматического построения онтологических баз знаний. Создан алгоритм выделения явных семантических отношений между концептами онтологии из векторов их семантико-синтаксической валентности. Векторы семантико-синтаксических валентностей также использованы в качестве контекстных векторов в алгоритме формального концептуального анализа, что позволило разработать метод автоматической генерации таксономий высокого качества. В результате создан базовый алгоритм автоматического построения онтологических баз знаний на основе разработанной тензорной семантико-синтаксической модели естественного языка.
Розроблено метод автоматичної побудови онтологічних баз знань. Створено алгоритм виділення явних семантичних відношень між концептами онтології з векторів їхньої семантико-синтаксичної валентності. Вектори семантико-синтаксичних валентностей також використано як контекстні вектори в алгоритмі формального концептуального аналізу, що дозволило створити метод автоматичної генерації таксономій високої якості. В результаті створено базовий алгоритм автоматичної побудови онтологічних баз знань на основі розробленої тензорної семантико-синтаксичної моделі природної мови.
The author develops а method for automatic generation of ontological knowledge bases. An algorithm for extraction of explicit semantic relationships between concepts of ontology on the basis of their semantic-syntactic valence vectors has been developed. Vectors of semantic-syntactic valences of words have been also used as context vectors for formal concept analysis algorithm, which has allowed us to develop the method of automatic generation of high-quality taxonomies. A basic algorithm for automatic construction of ontological knowledge bases has been developed on the basis of the tensor semantic-syntactic model of natural language.
|
| first_indexed | 2025-12-07T16:18:42Z |
| format | Article |
| fulltext |
ÓÄÊ 681.3
À.À. ÌÀÐ×ÅÍÊÎ
ÌÅÒÎÄ ÀÂÒÎÌÀÒÈ×ÅÑÊÎÃÎ ÏÎÑÒÐÎÅÍÈß
ÎÍÒÎËÎÃÈ×ÅÑÊÈÕ ÁÀÇ ÇÍÀÍÈÉ.
III. ÀÂÒÎÌÀÒÈ×ÅÑÊÀß ÃÅÍÅÐÀÖÈß ÒÀÊÑÎÍÎÌÈÈ
ÊÀÊ ÎÑÍÎÂÛ ÎÍÒÎËÎÃÈÈ1
Àííîòàöèÿ. Ðàçðàáîòàí ìåòîä àâòîìàòè÷åñêîãî ïîñòðîåíèÿ îíòîëîãè÷åñêèõ
áàç çíàíèé. Ñîçäàí àëãîðèòì âûäåëåíèÿ ÿâíûõ ñåìàíòè÷åñêèõ îòíîøåíèé
ìåæäó êîíöåïòàìè îíòîëîãèè èç âåêòîðîâ èõ ñåìàíòèêî-ñèíòàêñè÷åñêîé âà-
ëåíòíîñòè. Âåêòîðû ñåìàíòèêî-ñèíòàêñè÷åñêèõ âàëåíòíîñòåé òàêæå èñïîëüçî-
âàíû â êà÷åñòâå êîíòåêñòíûõ âåêòîðîâ â àëãîðèòìå ôîðìàëüíîãî êîíöåïòó-
àëüíîãî àíàëèçà, ÷òî ïîçâîëèëî ðàçðàáîòàòü ìåòîä àâòîìàòè÷åñêîé ãåíåðàöèè
òàêñîíîìèé âûñîêîãî êà÷åñòâà.  ðåçóëüòàòå ñîçäàí áàçîâûé àëãîðèòì àâòî-
ìàòè÷åñêîãî ïîñòðîåíèÿ îíòîëîãè÷åñêèõ áàç çíàíèé íà îñíîâå ðàçðàáîòàííîé
òåíçîðíîé ñåìàíòèêî-ñèíòàêñè÷åñêîé ìîäåëè åñòåñòâåííîãî ÿçûêà.
Êëþ÷åâûå ñëîâà: àâòîìàòè÷åñêîå èçâëå÷åíèå çíàíèé, êîðïóñíàÿ ëèíãâèñòè-
êà, îíòîëîãèÿ, íåîòðèöàòåëüíàÿ ôàêòîðèçàöèÿ òåíçîðîâ.
ÂÂÅÄÅÍÈÅ
Àëãîðèòì îáîãàùåíèÿ îíòîëîãè÷åñêèõ ñåòåé íîâûìè îòíîøåíèÿìè ìåæäó êîí-
öåïòóàëüíûìè óçëàìè ïðåäñòàâëåí â [1]. Äëÿ åãî ýôôåêòèâíîé ðàáîòû, êðîìå
òåêñòîâûõ êîðïóñîâ ýëåêòðîííîé ýíöèêëîïåäèè, íåîáõîäèìî íàëè÷èå êà÷åñòâåí-
íîé òàêñîíîìèè. Ïðè ðàçðàáîòêå è òåñòèðîâàíèè îïèñàííîãî àëãîðèòìà èñïîëüçî-
âàëàñü òàêñîíîìèÿ ëåêñèêî-ñåìàíòè÷åñêîé áàçû WordNet.  ðàìêàõ ïðåäëîæåííî-
ãî ïîäõîäà òàêñîíîìèÿ — ýòî èåðàðõè÷åñêàÿ îñíîâà îíòîëîãèè, íà êîòîðóþ àëãî-
ðèòì íàðàùèâàåò ãîðèçîíòàëüíûå ñåìàíòè÷åñêèå ñâÿçè. Òàêñîíîìèÿ ÿâëÿåòñÿ
êðèòè÷åñêè âàæíûì ðåñóðñîì, êà÷åñòâî êîòîðîãî èìååò îïðåäåëÿþùåå âëèÿíèå
íà òî÷íîñòü è íàäåæíîñòü âûÿâëåíèÿ ñåìàíòè÷åñêèõ îòíîøåíèé ìåæäó êîíöåïòà-
ìè-óçëàìè. Èìåííî ïîýòîìó ñëåäóþùèé ýòàï ðàçðàáîòêè è ðàçâèòèÿ îïèñàííîé
ìîäåëè — ñîçäàíèå ìåòîäîâ àâòîìàòè÷åñêîãî ïîñòðîåíèÿ òàêñîíîìèè íà îñíîâå
îáðàáîòêè òåêñòîâûõ êîðïóñîâ. Äàííûå ìåòîäû ðàññìàòðèâàþòñÿ â êà÷åñòâå íà-
÷àëüíîãî ýòàïà àâòîìàòè÷åñêîãî ïîñòðîåíèÿ îíòîëîãè÷åñêîé áàçû çíàíèé.
ÀËÃÎÐÈÒÌ ÀÂÒÎÌÀÒÈ×ÅÑÊÎÃÎ ÏÎÑÒÐÎÅÍÈß ÒÀÊÑÎÍÎÌÈÈ
Ñðåäè ðàçðàáîòàííûõ ìåòîäîâ àâòîìàòè÷åñêîãî ïîñòðîåíèÿ òàêñîíîìèè íà îñíîâå
îáðàáîòêè òåêñòîâûõ êîðïóñîâ ìîæíî âûäåëèòü äâà îñíîâíûõ êëàññà: ìåòîäû
êëàñòåðèçàöèè ñ ïðèìåíåíèåì ìåð ñåìàíòè÷åñêîé áëèçîñòè è òåîðåòèêî-ìíîæåñò-
âåííûå. Äàííûå ìåòîäû ðàáîòàþò ñ ìîäåëüþ âåêòîðíîãî ïðîñòðàíñòâà, â êîòîðîì
ñëîâà, èëè òåðìû, ïðåäñòàâëåíû â âèäå ñîîòâåòñòâóþùèõ èì âåêòîðîâ ïðèçíàêîâ,
ïîëó÷åííûõ ïðè îáðàáîòêå è àíàëèçå òåêñòîâîãî êîðïóñà.
Äëÿ ìåòîäîâ êëàñòåðèçàöèè õàðàêòåðíî èñïîëüçîâàíèå íåêîòîðîé ìåðû ñå-
ìàíòè÷åñêîé áëèçîñòè (íàïðèìåð, ìåðà êîñèíóñà óãëà ìåæäó âåêòîðàìè ñëîâ)
äëÿ ïîèñêà ðàññòîÿíèÿ ìåæäó âåêòîðàìè ñëîâ â öåëÿõ îïðåäåëåíèÿ, íàñêîëüêî
îíè ñåìàíòè÷åñêè ïîäîáíû è äîëæíû ëè îáúåäèíÿòüñÿ â îäèí êëàñòåð. Ìåòîäû
êëàñòåðèçàöèè, â ñâîþ î÷åðåäü, ïîäðàçäåëÿþòñÿ íà àãëîìåðàòèâíûå (êëàñòåðèçà-
öèÿ ñíèçó ââåðõ) è ðàçäåëÿþùèå (êëàñòåðèçàöèÿ ñâåðõó âíèç). Íàèáîëåå ýôôåê-
òèâíûå ìåòîäû äàííûõ êëàññîâ îïèñàíû â [2–6].
Ñ ïîìîùüþ òåîðåòèêî-ìíîæåñòâåííûõ ìåòîäîâ îñóùåñòâëÿþò ïîñòðîåíèå
ãðàôà òàêñîíîìèè óñòàíîâëåíèåì ÷àñòè÷íîãî ïîðÿäêà íà ìíîæåñòâå ñëîâ-ïîíÿ-
òèé, èñïîëüçóÿ îòíîøåíèå âêëþ÷åíèÿ ìåæäó èõ ìíîæåñòâàìè ïðèçíàêîâ. Îäíèì
èç ëó÷øèõ ìåòîäîâ ýòîãî êëàññà ÿâëÿåòñÿ ôîðìàëüíûé êîíöåïòóàëüíûé àíàëèç
(Formal Conceptual Analysis, FCA) [7].
32 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
1
Íà÷àëî ñì. â ¹ 1, 2, 2016.
© À.À. Ìàð÷åíêî, 2016
Òåñòèðîâàíèå è ïðàêòè÷åñêîå èñïîëüçîâàíèå ìåòîäîâ ñâèäåòåëüñòâóþò î áî-
ëåå âûñîêîé òî÷íîñòè òàêñîíîìèé, ïîñòðîåííûõ ìåòîäîì FCA [8]. Ïðè ýòîì òî÷-
íîñòü äîñòèãàåò îöåíêè F � 68.23%, òîãäà êàê ïðè àãëîìåðàòèâíîé êëàñòåðèçà-
öèè F � 62.92%, à ïðè ìåòîäå Bi-Section-KMeans — ðàçäåëÿþùåé èåðàðõè÷åñêîé
êëàñòåðèçàöèè, F � 62.80%.  äàííîì êîíòåêñòå ïîä òî÷íîñòüþ ïîäðàçóìåâàåòñÿ
îöåíêà ñîîòâåòñòâèÿ ñòðóêòóðû ïîñòðîåííîé èåðàðõèè íåêîòîðîìó ýòàëîííîìó
ãðàôó òàêñîíîìèè, êîòîðàÿ âû÷èñëÿåòñÿ ïî ìåòîäèêå, îïèñàííîé â [8].
Îòìåòèì, ÷òî ïî ñðàâíåíèþ ñî ñòðóêòóðàìè, ãåíåðèðóåìûìè ìåòîäàìè-êîí-
êóðåíòàìè, èìåííî òàêñîíîìèè, ïîñòðîåííûå ìåòîäîì FCA, ëó÷øå èíòåðïðåòè-
ðóþòñÿ ðàçðàáîò÷èêàìè-èíæåíåðàìè. Íåäîñòàòêîì FCA ÿâëÿåòñÿ òîò ôàêò, ÷òî
äàííûé ìåòîä NP-ïîëíûé è äëÿ åãî ðåàëèçàöèè â ïðèëîæåíèÿõ ðåàëüíîãî âðåìå-
íè íåîáõîäèìî ïðèìåíÿòü ðàçëè÷íûå ýôôåêòèâíûå ýâðèñòèêè [9].
 êà÷åñòâå âåêòîðîâ-íàáîðîâ ïðèçíàêîâ òåðìèíîâ â àëãîðèòìàõ îáû÷íî èñ-
ïîëüçóþò ëèíãâèñòè÷åñêèé êîíòåêñò, íàïðèìåð, âåêòîðû èíöèäåíòíîñòè òåðìè-
íîâ ñ áàçèñíûì íàáîðîì ãëàãîëîâ, ñ êîòîðûìè óïîòðåáëÿþòñÿ äàííûå ñëîâà
â ïîçèöèÿõ ïîäëåæàùåãî èëè äîïîëíåíèÿ [8].
Èñïîëüçîâàíèå âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè ñëîâ â êà÷åñ-
òâå òàêèõ âåêòîðîâ-íàáîðîâ ïðèçíàêîâ òåðìèíîâ îêàçàëîñü óäà÷íûì ðåøåíèåì äëÿ
ðåàëèçàöèè àëãîðèòìîâ ïîñòðîåíèÿ òàêñîíîìèè ñ ïîìîùüþ îïèñàííûõ ïîäõîäîâ.
Ýêñïåðèìåíòû ïîêàçàëè, ÷òî â ýòîì ñëó÷àå íàáëþäàåòñÿ ñòàáèëüíîå óâåëè÷åíèå
òî÷íîñòè ïîñòðîåííûõ ãðàôîâ òàêñîíîìèè â ñðåäíåì íà 6–8 % ïðàêòè÷åñêè äëÿ
âñåõ îñíîâíûõ ìåòîäîâ ïî ñðàâíåíèþ ñ èñïîëüçîâàíèåì îáû÷íûõ êîíòåêñòíûõ
âåêòîðîâ èíöèäåíòíîñòè.
Ðàññìîòðèì ïîäðîáíåå îðèãèíàëüíûé àëãîðèòì ïîñòðîåíèÿ òàêñîíîìèè.
Âõîä: òåêñòîâûé êîðïóñ àíãëîÿçû÷íîé Âèêèïåäèè — English Wikipedia.
Âûõîä: òàêñîíîìèÿ ñëîâ-ïîíÿòèé.
Íà÷àëüíûì ýòàïîì àëãîðèòìà ÿâëÿåòñÿ ïîñòðîåíèå ìåòðèêè, íà îñíîâå êîòî-
ðîé âûïîëíÿåòñÿ ïðîöåññ ïåðâè÷íîé êëàñòåðèçàöèè ñëîâ-ïîíÿòèé.
Øàã 1. Ïðîâîäèòñÿ ÷àñòîòíûé àíàëèç ñòàòåé Âèêèïåäèè ñî ñáîðêîé ìàòðè-
öû TD (Term � Document) ïî òåõíîëîãèè ëàòåíòíîãî ñåìàíòè÷åñêîãî àíàëèçà,
ïðè ýòîì ó÷èòûâàþòñÿ ñëîâà-òåðìû, ÿâëÿþùèåñÿ ñëîâîñî÷åòàíèÿìè, à öåïî÷êà
ñëîâ — íàçâàíèå íåêîòîðîé ñòàòüè Âèêèïåäèè, ñ÷èòàåòñÿ òåðìîì.
Øàã 2. Âûïîëíÿåòñÿ ôàêòîðèçàöèÿ TD (N M� ) ìåòîäîì Ëè è Ñóíãà, ãåíåðè-
ðóþòñÿ ìàòðèöû Ò (N k� ) è D (k M� ), k N M�� , , òàêèå ÷òî TD Ò D� � .
Øàã 3. Äëÿ îïðåäåëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè ìåæäó ñëîâàìè a è b âû-
áèðàþòñÿ âåêòîðû Ò a[ ] è Ò b[ ] è âû÷èñëÿåòñÿ ñêàëÿðíîå ïðîèçâåäåíèå
( [ ], [ ])Ò a Ò b , èç êîòîðîãî íàõîäèòñÿ êîñèíóñ óãëà ìåæäó äàííûìè âåêòîðàìè.
Òàêèì îáðàçîì, ïîëó÷àåòñÿ ìåòðèêà � �( , ) cos ( ( [ ], [ ]))a b Ò a Ò b� .
Îñíîâíîå ñâîéñòâî ìåòðèêè â ïðîñòðàíñòâå ñîñòîèò â âûïîëíåíèè ïðàâèëà
òðåóãîëüíèêà � � �( , ) ( , ) ( , )a ñ a b b ñ� � . Ýòî ïðàâèëî â äàííîì ñëó÷àå ìîæåò íà-
ðóøàòüñÿ ââèäó ñóùåñòâîâàíèÿ ñëîâ, èìåþùèõ íåñêîëüêî çíà÷åíèé. Íàïðèìåð,
bank — ôèíàíñîâîå ó÷ðåæäåíèå (Bank of America) è áåðåã ðåêè (Northern bank of
the River Thames). Âîçìîæíà ñèòóàöèÿ, êîãäà � �( , ) ( , )money water money bank� �
� �( , )bank water , â ýòîì ñëó÷àå íåîáõîäèìî âûïîëíèòü îïåðàöèþ ðàñùåïëåíèÿ
íåîäíîçíà÷íîãî ñëîâà bank íà bank 1 è bank 2, ò.å. ðàñùåïèòü åãî âåêòîð Ò ñëåäó-
þùèì îáðàçîì:
— â âåêòîðå äëÿ bank 1 îñòàâèòü íåèçìåíåííûìè çíà÷åíèÿ â òåõ åãî ïîçèöè-
ÿõ, êîòîðûå êîììóòèðîâàëè â ñêàëÿðíîì ïðîèçâåäåíèè ñ âåêòîðàìè ñëîâ money,
finance, credit è ò.ä., à äðóãèå îáíóëèòü;
— â âåêòîðå äëÿ bank 2 îñòàâèòü íåèçìåíåííûìè çíà÷åíèÿ â òåõ åãî ïîçèöè-
ÿõ, êîòîðûå êîììóòèðîâàëè â ñêàëÿðíîì ïðîèçâåäåíèè ñ âåêòîðàìè ñëîâ river,
water, boat è ò.ä., à äðóãèå îáíóëèòü.
 êà÷åñòâå àëãîðèòìà íà÷àëüíîãî ýòàïà ïîñòðîåíèÿ òàêñîíîìèè ðàññìîòðèì
ìåòîä èåðàðõè÷åñêîé àãëîìåðàòèâíîé êëàñòåðèçàöèè.
Øàã 1. Âñå ñëîâà îáðàçóþò ñîáñòâåííûé êëàñòåð;
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 33
Øàã 2. While not End do
Begin
Íàéòè äâà íàèáîëåå áëèçêèõ êëàñòåðà: À è Â , è îáúåäèíèòü èõ;
Âû÷èñëèòü íîâûé öåíòðîèä-êëàñòåðîèä ïîëó÷åííîãî êëàñòåðà;
End.
Íàèáîëåå áëèçêóþ ïàðó êëàñòåðîâ ìîæíî íàéòè ñëåäóþùèì îáðàçîì:
— âíà÷àëå èñïîëüçîâàòü �( , )a b ;
— äàëåå ïðèìåíèòü �( , )a bñ ñ , ãäå añ , bñ — êëàñòåðîèäû, ò.å. öåíòðû ñîîòâåò-
ñòâóþùèõ êëàñòåðîâ;
— ïîñëå îáúåäèíåíèÿ â êëàñòåð áîëåå äâóõ ñëîâ äëÿ äàëüíåéøåãî âû÷èñëåíèÿ
ðàññòîÿíèé ìåæäó êëàñòåðàìè íóæíî âûáðàòü êëàñòåðîèä, ò.å. íàéòè ñëîâî, ñàìîå
áëèçêîå ê îñòàëüíûì ñëîâàì êëàñòåðà (ñ ìèíèìàëüíîé ñóììîé ðàññòîÿíèé îò äàí-
íîãî ñëîâà êî âñåì äðóãèì ñëîâàì êëàñòåðà).  êà÷åñòâå êëàñòåðîèäà öåëåñîîáðàç-
íî âûáèðàòü îäíîçíà÷íîå ñëîâî, äëÿ êîòîðîãî âñåãäà âûïîëíÿåòñÿ ïðàâèëî òðåó-
ãîëüíèêà.
Àëãîðèòì ïðîäîëæàåò ðàáîòó, ïîêà íå îáðàçóåò åäèíîãî êëàñòåðà, îáúåäèíÿ-
þùåãî âñå ñëîâà ìíîæåñòâà. Òàêèì îáðàçîì, ïðîöåññ êëàñòåðèçàöèè ãåíåðèðóåò
íåêîòîðóþ èåðàðõèþ.
Âîçìîæåí ñëåäóþùèé âàðèàíò àëãîðèòìà: äëÿ îïðåäåëåíèÿ áëèæàéøåé ïàðû
êëàñòåðîâ ðàññòîÿíèå âû÷èñëÿåòñÿ ïî ôîðìóëå
Ì P Q
P Q
p q
p P q Q
( , )
| | | |
( , )
,
�
� �
1
� ,
ïîçâîëÿþùåé ýôôåêòèâíî íàõîäèòü ñëîâà, áëèçêî ðàñïîëîæåííûå ê ðàçëè÷-
íûì êëàñòåðàì, â ñîñòàâ êîòîðûõ îíè ìîãóò âõîäèòü îäíîâðåìåííî. È èìåííî
ïðè îáíàðóæåíèè òàêèõ ñëîâ — íàðóøèòåëåé ïðàâèëà òðåóãîëüíèêà, ìîæíî
ýôôåêòèâíî ðàñùåïëÿòü ìíîãîçíà÷íûå ñëîâà è èõ âåêòîðû. Åñëè êëàñòåðû
ñëîâ, ê êîòîðûì òÿãîòååò íàéäåííîå ñëîâî, äîñòàòî÷íî çàïîëíåíû, òî ïðîöåññ
ðàñùåïëåíèÿ âåêòîðîâ áóäåò âåñüìà òî÷íûì è íàäåæíûì.
 ïðîöåññå ðàáîòû àëãîðèòì ãåíåðèðóåò èåðàðõè÷åñêóþ ñåòü, ãäå óçëû ÿâëÿ-
þòñÿ ñëîâàìè ñ íåêîòîðûì çàôèêñèðîâàííûì çíà÷åíèåì (êàê bank 1 èëè bank 2)
â ñëó÷àå èõ èçíà÷àëüíîé íåîäíîçíà÷íîñòè. Âíóòðè êàæäîãî êëàñòåðà ìîæíî
óëó÷øèòü êà÷åñòâî ñòðóêòóðû èñïîëüçîâàíèåì áîëåå ñëîæíûõ è òî÷íûõ ìåòîäîâ
ñáîðêè òàêñîíîìèè, íàïðèìåð àëãîðèòìîì FÑA, îïèñàííûì â [9].
Ðàññìîòðèì ïðîöåññ òàêîé ïåðåñòðîéêè íåêîòîðîé ïîäñåòè òàêñîíîìèè.
Øàã 1. Äëÿ ëåêñåì èç ïîäìíîæåñòâà äàííîãî êëàñòåðà ïîëó÷àåì âåêòîðû ñåìàíòè-
êî-ñèíòàêñè÷åñêîé âàëåíòíîñòè ñëîâ èç ìàòðèö W, H , X , Y , Z, êàê ýòî îïèñàíî â [10].
Øàã 2. Âûïîëíÿåì ðàñùåïëåíèå ïîëó÷åííûõ âåêòîðîâ ñåìàíòèêî-ñèíòàêñè-
÷åñêîé âàëåíòíîñòè ñëîâ íà ñîñòàâëÿþùèå âåêòîðû âàëåíòíîñòè çíà÷åíèé-êîí-
öåïòîâ, êàê ýòî îïèñàíî â [11], ñ ïðèâÿçêîé ðàñùåïëåííûõ âåêòîðîâ ê óçëàì-êîí-
öåïòàì â îáðàáàòûâàåìîé ïîäñåòè èåðàðõèè.
Øàã 3. Èñïîëüçóåì ðàñùåïëåííûå âåêòîðû ñåìàíòèêî-ñèíòàêñè÷åñêèõ âàëåíò-
íîñòåé êîíöåïòîâ â êà÷åñòâå âåêòîðîâ ëèíãâèñòè÷åñêîãî êîíòåêñòà äëÿ ïîñòðîåíèÿ
äàííîé èåðàðõèè çàíîâî ìåòîäîì FCA.
Øàã 4. Íà áîëåå êà÷åñòâåííîé èåðàðõèè, ïîëó÷åííîé íà ïðåäûäóùåì øàãå,
ñíîâà ïðîâîäèì ðàñùåïëåíèå âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè ñëîâ
äàííîãî ïîäìíîæåñòâà íà ñîñòàâëÿþùèå âåêòîðû âàëåíòíîñòåé êîíöåïòîâ ñ ïðèâÿç-
êîé ðàñùåïëåííûõ âåêòîðîâ ê óçëàì-êîíöåïòàì âíîâü îáðàçîâàííîé èåðàðõèè.
Øàã 5. Èñïîëüçóåì çàíîâî ïîëó÷åííûå ðàñùåïëåííûå âåêòîðû ñåìàíòè-
êî-ñèíòàêñè÷åñêèõ âàëåíòíîñòåé êîíöåïòîâ â êà÷åñòâå âåêòîðîâ ëèíãâèñòè÷åñêî-
ãî êîíòåêñòà äëÿ ñëåäóþùåãî ïîñòðîåíèÿ äàííîé èåðàðõèè ìåòîäîì FCA.
Øàã 6. Ïîâòîðÿåì øàãè 4 è 5 äî òåõ ïîð, ïîêà ñòðóêòóðà òàêñîíîìèè è âåê-
òîðû ñåìàíòèêî-ñèíòàêñè÷åñêèõ âàëåíòíîñòåé êîíöåïòîâ-óçëîâ èçìåíÿþò ñâîþ
ôîðìó è çíà÷åíèÿ.
34 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
Äîñòèãíóòîå ñòàáèëüíîå ñîñòîÿíèå áóäåò ñîîòâåòñòâîâàòü íåïîäâèæíîé òî÷-
êå, ãäå êà÷åñòâî èåðàðõèè è êà÷åñòâî âåêòîðîâ âàëåíòíîñòè óæå âçàèìíî íå óëó÷-
øàþòñÿ è ïîëó÷åíî ìàêñèìàëüíî äîñòèæèìîå êà÷åñòâî èåðàðõèè.
ÝÊÑÏÅÐÈÌÅÍÒÛ ÏÎ ÐÀÑ×ÅÒÓ ÎÖÅÍÊÈ ÝÔÔÅÊÒÈÂÍÎÑÒÈ ÀËÃÎÐÈÒÌÀ
Äëÿ àíàëèçà ýôôåêòèâíîñòè ïðåäëîæåííîãî àëãîðèòìà ïðîâåäåíû ýêñïåðèìåí-
òû àâòîìàòè÷åñêîãî ïîñòðîåíèÿ òàêñîíîìèé.  êà÷åñòâå ýòàëîííûõ òàêñîíî-
ìèé èñïîëüçîâàíà ëåêñèêî-ñåìàíòè÷åñêàÿ áàçà WordNet, èç êîòîðîé âûäåëåíî
ìíîæåñòâî LN ïåðâûõ ñëîâ èç âñåõ ñèíñåòîâ, ðàñïîëîæåííûõ íèæå íåêîòîðî-
ãî óçëà N (âêëþ÷àÿ ïåðâîå ñëîâî ñèíñåòà N ).
Îáðàáîòàíû âñå ñòàòüè èç English Wikipedia, íàçâàíèÿ êîòîðûõ ñîäåðæàò ñëî-
âà èç LN . Âûïîëíåí ñèíòàêñè÷åñêèé àíàëèç ïðåäëîæåíèé ýòèõ òåêñòîâ, ïîñòðîåíû
èõ óïðàâëÿþùèå ïðîñòðàíñòâà ñèíòàêñè÷åñêèõ ñòðóêòóð, ïîñëå ÷åãî äàííûå èç ïî-
ëó÷åííûõ óïðàâëÿþùèõ ïðîñòðàíñòâ ïåðåíåñåíû â áîëüøèå òåíçîðû ëèíãâèñòè-
÷åñêîé ìîäåëè, ãäå òàêæå ñîõðàíÿþòñÿ äàííûå îáðàáîòêè çíà÷èòåëüíîé ÷àñòè
(áîëüøå îäíîãî ìèëëèîíà) ñòàòåé English Wikipedia. Äàëåå îñóùåñòâëÿëàñü ôàêòî-
ðèçàöèÿ òåíçîðîâ äëÿ ïîëó÷åíèÿ ìàòðèö âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âà-
ëåíòíîñòè ñëîâ (ìàòðèöû W, H , X , Y , Z), êîòîðûå ãàðàíòèðîâàííî ñîäåðæàò âåêòî-
ðû ñëîâ èç LN . Çàòåì âû÷èñëÿëàñü ìåòðèêà � �( , ) cos ( ( [ ], [ ]))a b Ò a Ò b� ñîãëàñíî
îïèñàííîé ðàíåå ìåòîäèêå: ãåíåðèðîâàëàñü ìàòðèöà TD (Term � Document) íà
áîëüøîì ìíîæåñòâå ñòàòåé English Wikipedia, âêëþ÷àÿ âñå ñòàòüè, íàçâàíèÿ êîòî-
ðûõ ñîäåðæàò ñëîâà èç LN . Ïîñëå íåîòðèöàòåëüíîé ôàêòîðèçàöèè ìàòðèöû ÒD ïî-
ëó÷åíà ìåðà áëèçîñòè � �( , ) cos ( ( [ ], [ ]))a b Ò a Ò b� .
Ïðåäâàðèòåëüíûé íóëåâîé ýòàï òåñòèðîâàíèÿ — ãåíåðàöèÿ òàêñîíîìèè Ò 0
ñëîâ èç ìíîæåñòâà LN ñ èñïîëüçîâàíèåì àãëîìåðàòèâíîãî àëãîðèòìà êëàñòåðèçà-
öèè ñ ìåðîé áëèçîñòè �( , )a b , ïîñëå ÷åãî âû÷èñëÿåòñÿ îöåíêà F ñîîòâåòñòâèÿ
ñãåíåðèðîâàííîé òàêñîíîìèè Ò 0 ýòàëîííîé èåðàðõèè (ïîäñåòè WordNet ñ êîðíåì
N ) ñîãëàñíî ìåòîäèêå, îïèñàííîé â [8].
Äàëåå âûïîëíÿåòñÿ ïðîöåäóðà ðàñùåïëåíèÿ âåêòîðîâ W, H , X , Y , Z äëÿ ñëîâ
èç LN ñ ïðèâÿçêîé ðàñùåïëåííûõ âåêòîðîâ ê ñîîòâåòñòâóþùèì óçëàì òàêñîíî-
ìèè Ò 0 . Òî÷íîñòü ðàáîòû ïðîöåäóðû ðàñùåïëåíèÿ è ïðèâÿçêè îöåíèâàåòñÿ ñî-
ãëàñíî ìåòîäèêå, îïèñàííîé â [11].
Ïîñëå ýòîãî ïðîâîäèòñÿ ïðîöåäóðà FCA äëÿ ãåíåðàöèè òàêñîíîìèè Ò1 äëÿ
ñëîâ èç LN ñ èñïîëüçîâàíèåì èõ ðàñùåïëåííûõ âåêòîðîâ
W ,
H ,
X ,
Y ,
Z .
Äàëåå âû÷èñëÿåòñÿ çíà÷åíèå îöåíêè F ñîîòâåòñòâèÿ ñãåíåðèðîâàííîé òàêñîíî-
ìèè Ò1 ýòàëîííîé ïîäñåòè WordNet, ïîñëå ÷åãî öèêëè÷åñêè ïîâòîðÿþòñÿ ýòàïû:
— ðàñùåïëåíèå âåêòîðîâ W, H , X , Y , Z äëÿ ñëîâ èç LN ñ ïðèâÿçêîé ê ñîîòâåò-
ñòâóþùèì óçëàì òàêñîíîìèè Ò i ;
— îöåíêà òî÷íîñòè ðàñùåïëåíèÿ è ïðèâÿçêè çàíîâî ñôîðìèðîâàííûõ âåêòî-
ðîâ
W ,
H ,
X ,
Y ,
Z ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè êîíöåïòîâ ê óçëàì
òàêñîíîìèè Ò i ;
— âûïîëíåíèå ïðîöåäóðû FCA, ò.å. ãåíåðàöèè òàêñîíîìèè Ò i�1 äëÿ ñëîâ èç
LN ñ èñïîëüçîâàíèåì ñîîòâåòñòâóþùèõ èì çàíîâî ðàñùåïëåííûõ âåêòîðîâ
W ,
H ,
X ,
Y ,
Z ;
— âû÷èñëåíèå îöåíêè F ñîîòâåòñòâèÿ ïîñòðîåííîé òàêñîíîìèè Ò i�1 ýòàëîí-
íîé ïîäñåòè WordNet.
Âûõîä èç öèêëà ïðîèñõîäèò, êîãäà Ò i�1 ïîëíîñòüþ ñîâïàäåò ñ Ò i .
Ýêñïåðèìåíòû âûïîëíÿëèñü äëÿ òåñòîâûõ íàáîðîâ N 0 � «åäà» è N 0 � «òðàíñ-
ïîðò», â ðåçóëüòàòå êîòîðûõ íàáëþäàëàñü ñõîäèìîñòü îöåíêè ñîîòâåòñòâèÿ ãåíåðè-
ðóåìûõ òàêñîíîìèé ýòàëîííîé èåðàðõèè WordNet. Äëÿ òåñòîâîãî íàáîðà N 0 �
«åäà» ïîëó÷åíû ñëåäóþùèå îöåíêè:
F T T( , )0 ýòàëîí � 59.82 %; F T T( , )1 ýòàëîí � 64.45 %;
F T T( , )2 ýòàëîí � 65.03 %; F T T( , )3 ýòàëîí � 66.19 %;
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 35
F T T( , )4 ýòàëîí � 67.67 %; F T T( , )5 ýòàëîí � 68.99 %;
F T T( , )6 ýòàëîí � 71.15 %; F T T( , )7 ýòàëîí � 73.64 %;
F T T( , )8 ýòàëîí � 75.64 %; F T T( , )9 ýòàëîí � 75.64 %.
Äëÿ òåñòîâîãî íàáîðà N 0 � «òðàíñïîðò» ïîëó÷åíû ñëåäóþùèå îöåíêè:
F T T( , )0 ýòàëîí � 61.61 %; F T T( , )1 ýòàëîí � 65.18 %; F T T( , )2 ýòàëîí � 67.98 %;
F T T( , )3 ýòàëîí � 70.29 %; F T T( , )4 ýòàëîí � 73.94 %; F T T( , )5 ýòàëîí � 75.71 %;
F T T( , )6 ýòàëîí � 77.04 %; F T T( , )7 ýòàëîí � 79.04 %; F T T( , )8 ýòàëîí � 79.04 %.
Ýêñïåðèìåíòû äëÿ òåñòîâûõ íàáîðîâ N 0 � «åäà» è N 0 � «òðàíñïîðò» ïðîâî-
äèëèñü â öåëÿõ îöåíêè êà÷åñòâà àâòîìàòè÷åñêîé ãåíåðàöèè òàêñîíîìèé êîíöåï-
òîâ-ñóùåñòâèòåëüíûõ. Ïîýòîìó äëÿ ïîñòðîåíèÿ èåðàðõè÷åñêèõ ãðàôîâ ïðîöåäóðà
FCA èñïîëüçîâàëà âåêòîðû X (ñóùåñòâèòåëüíîå-ïîäëåæàùåå), Z (ñóùåñòâèòåëü-
íîå-äîïîëíåíèå) è W (îáúåêò, îïðåäåëÿåìûé â ñèíòàãìàòè÷åñêîé êîëüöåâîé ñâÿ-
çè). Äëÿ êîíöåïòîâ-ñóùåñòâèòåëüíûõ òàêæå ìîæíî èñïîëüçîâàòü âåêòîðû H (îáú-
åêò, îïðåäåëÿþùèé â ñèíòàãìàòè÷åñêîé êîëüöåâîé ñâÿçè), îäíàêî íà ïðàêòèêå íà-
ïîëíåíèå ýòèõ âåêòîðîâ äëÿ ñóùåñòâèòåëüíûõ íåçíà÷èòåëüíî. Ïîýòîìó âåêòîðû H ,
à òàêæå âåêòîðû Y , îïèñûâàþùèå â îñíîâíîì êîììóòàöèîííûå ñâîéñòâà ãëàãî-
ëîâ, äëÿ ïîñòðîåíèÿ èåðàðõèé ñóùåñòâèòåëüíûõ íå ïðèìåíÿëèñü.
Êàê âèäíî èç ïîëó÷åííûõ äàííûõ, ñ ïåðåõîäîì íà àëãîðèòì FCA è ñ èñïîëü-
çîâàíèåì âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè êîíöåïòîâ çíà÷èòåëü-
íî ðàñòåò îöåíêà êà÷åñòâà ñòðóêòóðû òàêñîíîìèé. Ïîñëå ñóùåñòâåííîãî óëó÷øå-
íèÿ êà÷åñòâà ñòðóêòóð òàêñîíîìèé íà ñëåäóþùåì ýòàïå çàìåòíî ðàñòåò ïîêàçà-
òåëü òî÷íîñòè ðàñùåïëåíèÿ âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè
ñëîâ è ïðèâÿçêè èõ ê óçëàì çàíîâî ïîñòðîåííîé òàêñîíîìèè (òàáë. 1 è 2).
Äàëåå ìîæíî íàáëþäàòü ðàâíîìåðíûé ðîñò êà÷åñòâà ãåíåðèðóåìûõ òàêñîíî-
ìèé è îöåíîê òî÷íîñòè ðàñùåïëåíèÿ è ïðèâÿçêè âåêòîðîâ ñåìàíòèêî-ñèíòàêñè-
÷åñêîé âàëåíòíîñòè ê óçëàì òàêñîíîìèé. Óëó÷øåíèå êà÷åñòâà ñòðóêòóðû òàêñî-
íîìèè Ò ïîâûøàåò òî÷íîñòü ðàñùåïëåíèÿ è ïðèâÿçêè âåêòîðîâ ñåìàíòèêî-ñèí-
òàêñè÷åñêîé âàëåíòíîñòè, ÷òî, â ñâîþ î÷åðåäü, ïðèâîäèò ê óëó÷øåíèþ êà÷åñòâà
äàííîé ñòðóêòóðû íà ñëåäóþùåé èòåðàöèè. Ýòîò ïðîöåññ âçàèìíîãî ðåêóðñèâíî-
ãî óëó÷øåíèÿ ïðîäîëæàåòñÿ äî ìîìåíòà ïîëó÷åíèÿ ìàêñèìàëüíî äîñòèæèìîãî
óðîâíÿ êà÷åñòâà Ò (â äàííîé êîíôèãóðàöèè âû÷èñëèòåëüíîãî ïðîöåññà {àëãî-
36 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
Ò à á ë è ö à 1 . Ðåçóëüòàòû ýêñïåðèìåíòà äëÿ òåñòîâîãî íàáîðà N 0 � «åäà»
Âåêòîðû
ñåìàíòèêî-ñèíòàêñè-
÷åñêîé âàëåíòíîñòè
Îöåíêè òî÷íîñòè ðàñùåïëåíèÿ è ïðèâÿçêè âåêòîðîâ
ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè ê óçëàì òàêñîíîìèè Ò i (%)
Ýòàï 0 Ýòàï 1 Ýòàï 2 Ýòàï 3 Ýòàï 4 Ýòàï 5 Ýòàï 6 Ýòàï 7 Ýòàï 8
X 72.87 77.13 78.73 80.11 82.40 84.71 85.49 87.11 87.11
Z 71.39 75.83 76.49 77.32 79.14 80.23 81.84 83.59 83.59
W 66.18 72.95 74.07 76.81 78.21 81.04 83.78 86.43 86.43
Ò à á ë è ö à 2 . Ðåçóëüòàòû ýêñïåðèìåíòà äëÿ òåñòîâîãî íàáîðà N 0 � «òðàíñïîðò»
Âåêòîðû
ñåìàíòèêî-ñèíòàêñè÷å-
ñêîé âàëåíòíîñòè
Îöåíêè òî÷íîñòè ðàñùåïëåíèÿ è ïðèâÿçêè âåêòîðîâ
ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè ê óçëàì òàêñîíîìèè Ò i (%)
Ýòàï 0 Ýòàï 1 Ýòàï 2 Ýòàï 3 Ýòàï 4 Ýòàï 5 Ýòàï 6 Ýòàï 7
X 73.32 78.93 80.53 82.19 84.73 85.06 86.79 86.79
Z 69.04 75.81 78.09 80.54 84.29 84.82 85.11 85.11
W 68.81 73.98 75.22 77.37 78.96 81.59 83.27 83.27
ðèòì, äàííûå}), êîãäà ñòðóêòóðà òàêñîíîìèè îêîí÷àòåëüíî ôèêñèðóåòñÿ
Ò Òi i� �1. Áóäåì íàçûâàòü òàêóþ òàêñîíîìèþ Ò i íåïîäâèæíîé òî÷êîé àëãîðèòìà
ïîñòðîåíèÿ òàêñîíîìèè.
Ðàáîòà àëãîðèòìà çàâåðøàåòñÿ, êîãäà îí «ïîïàäàåò» â íåïîäâèæíóþ òî÷êó,
êîòîðîé ñîîòâåòñòâóåò íåêîòîðûé íàáîð âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âà-
ëåíòíîñòè XZW³ , íå èçìåíÿþùèé ñòðóêòóðû Ò ( )Ò Òi i� �1 .  òàêîì ñëó÷àå àëãî-
ðèòì ðàñùåïëåíèÿ âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè ñëîâ è ïðè-
âÿçêè ïîëó÷åííûõ âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè êîíöåïòîâ
ê óçëàì òàêñîíîìèè Ò i , ñòðóêòóðíî èäåíòè÷íîé Ò i�1, íå ïðèâåäåò ê èçìåíåíèþ
äàííîãî íàáîðà âåêòîðîâ, ò.å. XZW XZW³ ³� �1 . Àëãîðèòì FCA íà òåõ æå äàííûõ
ñòðîèò àíàëîãè÷íóþ ñòðóêòóðó Ò Òi i� �1 è ïîïàäàåò â ñîñòîÿíèå íåïîäâèæíîé
òî÷êè, êîòîðàÿ ñîîòâåòñòâóåò íàèëó÷øåé äîñòèæèìîé ñòðóêòóðå Ò best .
Êà÷åñòâî Ò best îãðàíè÷åíî ïîëíîòîé äàííûõ â ìàññèâàõ áàçû ñèñòåìû.
Àëãîðèòì äîñòèãàåò òîãî ìàêñèìóìà, êîòîðûé îáóñëîâëåí ýòîé ïîëíîòîé è êà÷åñò-
âîì äàííûõ.
Ïîñëå ãåíåðàöèè âûñîêîêà÷åñòâåííîé òàêñîíîìèè ïîëó÷àåòñÿ òàêæå òî÷íàÿ
è íàäåæíàÿ ïðèâÿçêà âåêòîðîâ ñåìàíòèêî-ñèíòàêñè÷åñêîé âàëåíòíîñòè ê óçëàì-
êîíöåïòàì èåðàðõè÷åñêîé ñåòè. Çàòåì ïî ýòèì âåêòîðàì ñåìàíòèêî-ñèíòàêñè÷åñ-
êîé âàëåíòíîñòè êîíöåïòîâ ìîæíî ïåðåõîäèòü ê îïèñàíèþ ÿâíûõ ñåìàíòè÷åñêèõ
ñâÿçåé-îòíîøåíèé ìåæäó ïîíÿòèéíûìè óçëàìè ãåíåðèðóåìîé îíòîëîãèè, èñ-
ïîëüçóÿ àëãîðèòì, îïèñàííûé â [1].
Òàêèì îáðàçîì, ïîëó÷åíî îïèñàíèå ïîëíîñòüþ àâòîíîìíîé àëãîðèòìè÷åñ-
êîé ìîäåëè ñèñòåìû àâòîìàòè÷åñêîãî ïîñòðîåíèÿ îíòîëîãè÷åñêîé áàçû çíàíèé
óíèâåðñàëüíîãî òèïà. Ïðè ýòîì åäèíñòâåííûì íåîáõîäèìûì ðåñóðñîì âõîäíûõ
äàííûõ äëÿ ôóíêöèîíèðîâàíèÿ è ñàìîðàçâèòèÿ ñèñòåìû ÿâëÿåòñÿ òåêñòîâûé êîð-
ïóñ ýëåêòðîííîé ýíöèêëîïåäèè English Wikipedia. Ñèñòåìà ÷èòàåò Âèêèïåäèþ
è òðàíñëèðóåò òåêñòû åå ñòàòåé íà åñòåñòâåííîì ÿçûêå âî âíóòðåííåå ïðåäñòàâëå-
íèå â ôîðìå çàïèñåé îíòîëîãè÷åñêîé áàçû çíàíèé. ×åì ëó÷øå àëãîðèòì ïîíèìà-
åò ñìûñë ïðåäëîæåíèé òåêñòîâ, òåì òî÷íåå è àäåêâàòíåå ñåìàíòè÷åñêèå ñòðóêòó-
ðû ñîçäàâàåìîé îíòîëîãèè êàê ïîíÿòèéíîé ñèñòåìû.
ÇÀÊËÞ×ÅÍÈÅ
 ñòàòüå îïèñàíà ìîäåëü åñòåñòâåííîãî ÿçûêà, ðåàëèçîâàííàÿ ñ ïîìîùüþ ôàêòî-
ðèçàöèè ëèíãâèñòè÷åñêèõ òåíçîðîâ. Íà îñíîâå ïîñòðîåííîé ìîäåëè ðàçðàáîòàí
àëãîðèòì ïîïîëíåíèÿ îíòîëîãè÷åñêèõ áàç çíàíèé íîâûìè ñåìàíòè÷åñêèìè îòíî-
øåíèÿìè ìåæäó óçëàìè-êîíöåïòàìè. Òàêæå îïèñàí ïîäõîä ê àâòîìàòè÷åñêîìó
ïîñòðîåíèþ èåðàðõè÷åñêîé îñíîâû îíòîëîãèé — òàêñîíîìèé, ñ ïðèìåíåíèåì
ñòðóêòóð äàííûõ è àëãîðèòìîâ ïðåäñòàâëåííîé ìîäåëè åñòåñòâåííîãî ÿçûêà. Âñå
äàííûå êîìïîíåíòû, èíòåãðèðîâàííûå âìåñòå, ïðåäñòàâëÿþò ñîáîé ïîëíîñòüþ àâ-
òîíîìíóþ àëãîðèòìè÷åñêóþ ìîäåëü ñèñòåìû àâòîìàòè÷åñêîãî ïîñòðîåíèÿ îíòî-
ëîãè÷åñêîé áàçû çíàíèé óíèâåðñàëüíîãî òèïà. Ñèñòåìà àíàëèçèðóåò òåêñòû íà åñ-
òåñòâåííîì ÿçûêå, ãåíåðèðóåò èõ ñåìàíòèêî-ñèíòàêñè÷åñêèå ñòðóêòóðû, çàïèñûâà-
åò èõ â ñïåöèàëüíûå ìàññèâû äàííûõ, ñ ïîìîùüþ ïðîöåäóð ôàêòîðèçàöèè
ïðåîáðàçóåò ýòè äàííûå âî âíóòðåííèé ôîðìàò, èíòåðïðåòèðóåò èõ è äîáàâëÿåò
ïîëó÷åííûå çíàíèÿ â îíòîëîãè÷åñêóþ áàçó. Ðåçóëüòàòû ýêñïåðèìåíòà è òåñòèðî-
âàíèÿ ñâèäåòåëüñòâóþò î êîððåêòíîñòè è íàäåæíîñòè ðàáîòû ñèñòåìû è åå îò-
äåëüíûõ êîìïîíåíòîâ, ÷òî äîêàçûâàåò àäåêâàòíîñòü è ýôôåêòèâíîñòü ïðåäñòàâ-
ëåííîé ìîäåëè, à òàêæå ïåðñïåêòèâíîñòü åå ïîëíîìàñøòàáíîé ðåàëèçàöèè è èñ-
ïîëüçîâàíèÿ ñèñòåì äàííîãî òèïà äëÿ ñîçäàíèÿ, ðàçâèòèÿ, ïîïîëíåíèÿ
è îáîãàùåíèÿ îíòîëîãèé íà ïðàêòèêå.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. Ì à ð ÷ å í ê î À . À . Ìåòîä àâòîìàòè÷åñêîãî ïîñòðîåíèÿ îíòîëîãè÷åñêèõ áàç çíàíèé.
II. Àâòîìàòè÷åñêîå îïðåäåëåíèå ñåìàíòè÷åñêèõ îòíîøåíèé â îíòîëîãè÷åñêîé ñåòè // Êèáåð-
íåòèêà è ñèñòåìíûé àíàëèç. — 2016. — 52, ¹ 2. — Ñ. 30–36.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 37
2. C a r a b a l l o S . A . Automatic construction of a hypernym-labeled noun hierarchy from text //
Proceedings of the 37th Annual Meeting of the ACL-1999. — 1999. — P. 120–126.
3. H i n d l e D . Noun classification from predicate-argument structures // Proceedings of the Annual
Meeting of the ACL-1990. — 1990. — P. 268–275.
4. F a u r e D . , N e d e l l e c C . A corpus-based conceptual clustering method for verb frames and
ontology acquisition // LREC Workshop on Adapting Lexical and Corpus Resources to
Sublanguages and Applications. — 1998. — P. 1–30.
5. P e r e i r a F . , T i s h b y N . , L e e L . Distributional clustering of English words // Proceedings of
the 31-st Annual Meeting of the ACL-1993. — 1993. — P. 183–190.
6. B i s s o n G . , N e d e l l e c C . , C a ~n a m e r o D . Designing clustering methods for ontology
building // Proceedings of the ECAI Ontology Learning Workshop. — 2000. — P. 13–19.
7. G a n t e r B . , W i l l e R. Formal concept analysis — mathematical foundations. — Berlin;
Heilderberg: Springer-Verlag, 1999. — 284 p.
8. C i m i a n o P . , H o t h o A . , S t a a b S . Comparing conceptual, divisive and agglomerative
clustering for learning taxonomies from text // Proceedings of the European Conference on Artificial
Intelligence (ECAI). — 2004. — P. 435–439.
9. V y c h o d i l V . A new algorithm for computing formal concepts // Cybernetics and Systems 2008.
Proceedings of the 19th European Meeting on Cybernetics and Systems Research. — 2008. —
P. 15–21.
10. Ì à ð ÷ å í ê î À . À . Ìåòîä àâòîìàòè÷åñêîãî ïîñòðîåíèÿ îíòîëîãè÷åñêèõ áàç çíàíèé. I. Ðàçðà-
áîòêà ñåìàíòèêî-ñèíòàêñè÷åñêîé ìîäåëè åñòåñòâåííîãî ÿçûêà // Êèáåðíåòèêà è ñèñòåìíûé
àíàëèç. — 2016. — 52, ¹ 1. — Ñ. 23–33.
11. À í è ñ è ì î â À .  . , Ì à ð ÷ å í ê î À . À . ,  î ç í þ ê Ò . à . Îïðåäåëåíèå ñåìàíòè÷åñêèõ âà-
ëåíòíîñòåé êîíöåïòîâ îíòîëîãèé ñ ïîìîùüþ íåîòðèöàòåëüíîé ôàêòîðèçàöèè òåíçîðîâ áîëü-
øèõ òåêñòîâûõ êîðïóñîâ // Êèáåðíåòèêà è ñèñòåìíûé àíàëèç. — 2014. — 50, ¹ 3. — Ñ. 3–16.
Íàä³éøëà äî ðåäàêö³¿ 16.07.2015
Î.Î. Ìàð÷åíêî
ÌÅÒÎÄ ÀÂÒÎÌÀÒÈ×Íί ÏÎÁÓÄÎÂÈ ÎÍÒÎËÎò×ÍÈÕ ÁÀÇ ÇÍÀÍÜ.
III. ÀÂÒÎÌÀÒÈ×ÍÀ ÃÅÍÅÐÀÖ²ß ÒÀÊÑÎÍÎ̲¯ ßÊ ÎÑÍÎÂÈ ÎÍÒÎËÎò¯
Àíîòàö³ÿ. Ðîçðîáëåíî ìåòîä àâòîìàòè÷íî¿ ïîáóäîâè îíòîëîã³÷íèõ áàç
çíàíü. Ñòâîðåíî àëãîðèòì âèä³ëåííÿ ÿâíèõ ñåìàíòè÷íèõ â³äíîøåíü ì³æ êîí-
öåïòàìè îíòîëî㳿 ç âåêòîð³â ¿õíüî¿ ñåìàíòèêî-ñèíòàêñè÷íî¿ âàëåíòíîñò³.
Âåêòîðè ñåìàíòèêî-ñèíòàêñè÷íèõ âàëåíòíîñòåé òàêîæ âèêîðèñòàíî ÿê êîí-
òåêñòí³ âåêòîðè â àëãîðèòì³ ôîðìàëüíîãî êîíöåïòóàëüíîãî àíàë³çó, ùî äîç-
âîëèëî ñòâîðèòè ìåòîä àâòîìàòè÷íî¿ ãåíåðàö³¿ òàêñîíîì³é âèñîêî¿ ÿêîñò³.
 ðåçóëüòàò³ ñòâîðåíî áàçîâèé àëãîðèòì àâòîìàòè÷íî¿ ïîáóäîâè îíòî-
ëîã³÷íèõ áàç çíàíü íà îñíîâ³ ðîçðîáëåíî¿ òåíçîðíî¿ ñåìàíòèêî-ñèíòàêñè÷íî¿
ìîäåë³ ïðèðîäíî¿ ìîâè.
Êëþ÷îâ³ ñëîâà: àâòîìàòè÷íå äîáóâàííÿ çíàíü, êîðïóñíà ë³íãâ³ñòèêà, îíòî-
ëî㳿, íåâ³ä’ºìíà ôàêòîðèçàö³ÿ òåíçîð³â.
O.O. Marchenko
A METHOD FOR AUTOMATIC CONSTRUCTION OF ONTOLOGICAL KNOWLEDGE BASES.
III. AUTOMATIC GENERATION OF TAXONOMY AS THE FOUNDATION OF ONTOLOGY
Abstract. The author develops à method for automatic generation of ontological
knowledge bases. An algorithm for extraction of explicit semantic relationships
between concepts of ontology on the basis of their semantic-syntactic valence
vectors has been developed. Vectors of semantic-syntactic valences of words
have been also used as context vectors for formal concept analysis algorithm,
which has allowed us to develop the method of automatic generation of
high-quality taxonomies. A basic algorithm for automatic construction of
ontological knowledge bases has been developed on the basis of the tensor
semantic-syntactic model of natural language.
Keywords: automatic extraction of knowledge, corpus linguistics, ontologies,
non-negative tensor factorization.
Ìàð÷åíêî Àëåêñàíäð Àëåêñàíäðîâè÷,
äîêòîð ôèç.-ìàò. íàóê, äîöåíò Êèåâñêîãî íàöèîíàëüíîãî óíèâåðñèòåòà èìåíè Òàðàñà Øåâ÷åíêî,
e-mail: omarchenko@univ.kiev.ua.
38 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
|
| id | nasplib_isofts_kiev_ua-123456789-133679 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 0023-1274 |
| language | Russian |
| last_indexed | 2025-12-07T16:18:42Z |
| publishDate | 2016 |
| publisher | Інститут кібернетики ім. В.М. Глушкова НАН України |
| record_format | dspace |
| spelling | Марченко, А.А. 2018-06-05T05:39:16Z 2018-06-05T05:39:16Z 2016 Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии / А.А. Марченко // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 32-38. — Бібліогр.: 11 назв. — рос. 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/133679 681.3 Кибернетика 681.3 Разработан метод автоматического построения онтологических баз знаний. Создан алгоритм выделения явных семантических отношений между концептами онтологии из векторов их семантико-синтаксической валентности. Векторы семантико-синтаксических валентностей также использованы в качестве контекстных векторов в алгоритме формального концептуального анализа, что позволило разработать метод автоматической генерации таксономий высокого качества. В результате создан базовый алгоритм автоматического построения онтологических баз знаний на основе разработанной тензорной семантико-синтаксической модели естественного языка. Розроблено метод автоматичної побудови онтологічних баз знань. Створено алгоритм виділення явних семантичних відношень між концептами онтології з векторів їхньої семантико-синтаксичної валентності. Вектори семантико-синтаксичних валентностей також використано як контекстні вектори в алгоритмі формального концептуального аналізу, що дозволило створити метод автоматичної генерації таксономій високої якості. В результаті створено базовий алгоритм автоматичної побудови онтологічних баз знань на основі розробленої тензорної семантико-синтаксичної моделі природної мови. The author develops а method for automatic generation of ontological knowledge bases. An algorithm for extraction of explicit semantic relationships between concepts of ontology on the basis of their semantic-syntactic valence vectors has been developed. Vectors of semantic-syntactic valences of words have been also used as context vectors for formal concept analysis algorithm, which has allowed us to develop the method of automatic generation of high-quality taxonomies. A basic algorithm for automatic construction of ontological knowledge bases has been developed on the basis of the tensor semantic-syntactic model of natural language. ru Інститут кібернетики ім. В.М. Глушкова НАН України Кибернетика и системный анализ Кибернетика Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии Метод автоматичної побудови онтологічних баз знань. III. Автоматична генерація таксономії як основи онтології A method for automatic construction of ontological knowledge bases. III. Automatic generation of taxonomy as the foundation of ontology Article published earlier |
| spellingShingle | Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии Марченко, А.А. Кибернетика |
| title | Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии |
| title_alt | Метод автоматичної побудови онтологічних баз знань. III. Автоматична генерація таксономії як основи онтології A method for automatic construction of ontological knowledge bases. III. Automatic generation of taxonomy as the foundation of ontology |
| title_full | Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии |
| title_fullStr | Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии |
| title_full_unstemmed | Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии |
| title_short | Метод автоматического построения онтологических баз знаний. III. Автоматическая генерация таксономии как основы онтологии |
| title_sort | метод автоматического построения онтологических баз знаний. iii. автоматическая генерация таксономии как основы онтологии |
| topic | Кибернетика |
| topic_facet | Кибернетика |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/133679 |
| work_keys_str_mv | AT marčenkoaa metodavtomatičeskogopostroeniâontologičeskihbazznaniiiiiavtomatičeskaâgeneraciâtaksonomiikakosnovyontologii AT marčenkoaa metodavtomatičnoípobudoviontologíčnihbazznanʹiiiavtomatičnageneracíâtaksonomííâkosnoviontologíí AT marčenkoaa amethodforautomaticconstructionofontologicalknowledgebasesiiiautomaticgenerationoftaxonomyasthefoundationofontology |