Метод вычисления семантической близости-связности между словами естественного языка

Розглянуто методи обчислення семантичної близькості-зв’язності слів природної мови. Поняття семантичної близькості дозволяє будувати алгоритмічні моделі контекстно-лінгвістичного аналізу для вирішення таких задач: розв’язання смислових неоднозначностей, розпізнавання центральних сутнос-тей тексту, а...

Full description

Saved in:
Bibliographic Details
Published in:Кибернетика и системный анализ
Date:2011
Main Authors: Анисимов, А.В., Марченко, А.А., Кисенко, В.К.
Format: Article
Language:Russian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2011
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/84214
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Метод вычисления семантической близости-связности между словами естественного языка / А.В. Анисимов, А.А. Марченко, В.К. Кисенко // Кибернетика и системный анализ. — 2011. — Т. 47, № 4. — С. 18-27. — Бібліогр.: 16 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860260818125324288
author Анисимов, А.В.
Марченко, А.А.
Кисенко, В.К.
author_facet Анисимов, А.В.
Марченко, А.А.
Кисенко, В.К.
citation_txt Метод вычисления семантической близости-связности между словами естественного языка / А.В. Анисимов, А.А. Марченко, В.К. Кисенко // Кибернетика и системный анализ. — 2011. — Т. 47, № 4. — С. 18-27. — Бібліогр.: 16 назв. — рос.
collection DSpace DC
container_title Кибернетика и системный анализ
description Розглянуто методи обчислення семантичної близькості-зв’язності слів природної мови. Поняття семантичної близькості дозволяє будувати алгоритмічні моделі контекстно-лінгвістичного аналізу для вирішення таких задач: розв’язання смислових неоднозначностей, розпізнавання центральних сутнос-тей тексту, аналіз природномовних текстів. Запропоновано новий алгоритм оцінки семантичної відстані для слів природної мови, який є зваженою модифікацією відомого підходу Леска, засновано-го на побудові лексичного перетину словникових статей. The paper develops methods to calculate the semantic relatedness of natural language words. The concept of semantic relatedness allows constructing algorithmic models for the context-linguistic analysis to solve problems such as word sense disambiguation, named entity recognition, natural language text analysis, etc. The study proposes a new algorithm to estimate the semantic distance between natural language words. This method is a weighted modification of Lesk’s famous approach, which is based on lexical overlap of glossary entries.
first_indexed 2025-12-07T18:55:21Z
format Article
fulltext ÓÄÊ 681.3 À.Â. ÀÍÈÑÈÌÎÂ, À.À. ÌÀÐ×ÅÍÊÎ, Â.Ê. ÊÈÑÅÍÊÎ ÌÅÒÎÄ ÂÛ×ÈÑËÅÍÈß ÑÅÌÀÍÒÈ×ÅÑÊÎÉ ÁËÈÇÎÑÒÈ-ÑÂßÇÍÎÑÒÈ ÌÅÆÄÓ ÑËÎÂÀÌÈ ÅÑÒÅÑÒÂÅÍÍÎÃÎ ßÇÛÊÀ Êëþ÷åâûå ñëîâà: êîìïüþòåðíàÿ ëèíãâèñòèêà, ñåìàíòè÷åñêèé àíàëèç òåêñòîâ íà åñòåñòâåííîì ÿçûêå, ñåìàíòè÷åñêàÿ áëèçîñòü-ñâÿçíîñòü ñëîâ, ñìûñëîâàÿ íåîäíîçíà÷íîñòü ñëîâ. ÂÂÅÄÅÍÈÅ Êëþ÷åâûì ýëåìåíòîì â ìàøèííîì ìîäåëèðîâàíèè åñòåñòâåííî-ÿçûêîâûõ ïðîöåñ- ñîâ ÿâëÿåòñÿ âîçìîæíîñòü îïðåäåëÿòü ñåìàíòè÷åñêóþ áëèçîñòü — ñìûñëîâîå ðàñ- ñòîÿíèå ìåæäó ïîíÿòèÿìè, êîòîðîå ÷àñòî çàäàåòñÿ íà ãðàôå ïîíÿòèé-êîíöåïòîâ îíòîëîãè÷åñêîé áàçû çíàíèé. Âû÷èñëåíèå ñåìàíòè÷åñêîãî ðàññòîÿíèÿ øèðîêî èñ- ïîëüçóåòñÿ âî ìíîãèõ çàäà÷àõ âû÷èñëèòåëüíîé ëèíãâèñòèêè, òàêèõ êàê: àâòîìàòè- ÷åñêîå ðåôåðèðîâàíèå è àííîòèðîâàíèå òåêñòîâ, ðàçðåøåíèå ñìûñëîâûõ íåîäíîç- íà÷íîñòåé, àíàëèç àíàôîð, èíäåêñèðîâàíèå è ïîèñê, ìàøèííûé ïåðåâîä.  åñòåñòâåííîì ÿçûêå ñóùåñòâóåò ðÿä êëàññè÷åñêèõ ïðîáëåì, ïðåäñòàâëÿþ- ùèõ çíà÷èòåëüíóþ ñëîæíîñòü äëÿ áîëüøèíñòâà çàäà÷ êîìïüþòåðíîé ëèíãâèñòèêè, à èìåííî: ïîëèñåìèÿ, îìîíèìèÿ, àíàôîðè÷åñêèå ññûëêè, ìåñòîèìåíèÿ è äðóãèå ÿçûêîâûå ôåíîìåíû, êîìïüþòåðíàÿ îáðàáîòêà êîòîðûõ íåâîçìîæíà áåç ñåìàíòè- ÷åñêîãî àíàëèçà è ñìûñëîâîé èíòåðïðåòàöèè òåêñòà. Ñóòü ïðîáëåì ïîëèñåìèè è îìîíèìèè â òîì, ÷òî îäíè è òå æå ñëîâà îçíà÷àþò ìíîæåñòâà ðàçëè÷íûõ ïîíÿòèé (íàïðèìåð, àíãëèéñêîå ñëîâî bank èìååò ðàçíûå ñåìàíòè÷åñêèå çíà÷åíèÿ: ôèíàíñî- âîå ó÷ðåæäåíèå è áåðåã ðåêè). Êîíòåêñò, â êîòîðîì íàõîäèòñÿ äàííîå ñëîâî, ïîäñêà- çûâàåò, â êàêîì çíà÷åíèè îíî óïîòðåáëåíî. Äëÿ òîãî ÷òîáû ó÷åñòü âëèÿíèå êîíòåê- ñòà è îïðåäåëèòü ðåàëüíîå çíà÷åíèå íåêîòîðîãî ñëîâà, êîìïüþòåðíîé ñèñòåìå íåîá- õîäèìî äëÿ êàæäîãî çíà÷åíèÿ ýòîãî ñëîâà íàéòè îöåíêó ñåìàíòè÷åñêîé áëèçîñòè ïî îòíîøåíèþ ê çíà÷åíèÿì ñëîâ, ðàñïîëîæåííûõ ðÿäîì ñ íèì â òåêñòå. Ýòî ðåøàåòñÿ ïðèìåíåíèåì ôóíêöèè âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè è ñâÿçíîñòè ïîíÿòèé. Ïðîáëåìà àíàôîð â êîìïüþòåðíîé ëèíãâèñòèêå çàêëþ÷àåòñÿ â òîì, ÷òî îäíà è òà æå ñóùíîñòü â òåêñòå óïîìèíàåòñÿ ñ èñïîëüçîâàíèåì ðàçíûõ ñëîâ-íàçâàíèé; ÷àñòíûé ñëó÷àé àíàôîðû — ìåñòîèìåíèÿ. Äëÿ êàæäîãî ìåñòîèìåíèÿ ìîæåò ñó- ùåñòâîâàòü öåëûé íàáîð êàíäèäàòîâ íà çàìåíó (àíòåöåäåíòîâ) — ãðóïïû ñóùåñ- òâèòåëüíûõ, ðàñïîëîæåííûå âûøå ïî òåêñòó, íà êîòîðûå ìîæåò óêàçûâàòü äàí- íîå ìåñòîèìåíèå. Îïðåäåëèòü, êàêîé èç êàíäèäàòîâ — ïðàâèëüíûé àíòåöåäåíò, ìîæíî, ïîäñòàâèâ êàæäîãî èç íèõ âìåñòî ìåñòîèìåíèÿ (àíàôîðû) è âû÷èñëèâ, íàñêîëüêî êîíòåêñò êàíäèäàòà íà çàìåíó ñîîòâåòñòâóåò êîíòåêñòó ìåñòîèìåíèÿ (àíàôîðû). Òàêîå ñîîòâåòñòâèå òàêæå íàõîäèòñÿ ñ ïîìîùüþ ôóíêöèè âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè è ñâÿçíîñòè ïîíÿòèé. Îòíîøåíèå ñåìàíòè÷åñêîé áëèçîñòè óêàçûâàåò íå òîëüêî íà îòíîøåíèå ñè- íîíèìèè — ïîíÿòèÿ ìîãóò áûòü áëèçêè ïî ñìûñëó, íî íå òîæäåñòâåííû. Íàëè- ÷èå ìíîæåñòâà äðóãèõ îòíîøåíèé îáóñëîâëèâàåò óòî÷íåíèå ñåìàíòè÷åñêîé ñâÿç- íîñòè: äâèãàòåëü è àâòîìîáèëü ñâÿçàíû îòíîøåíèåì ÷àñòü–öåëîå, õîëîäíîå è ãî- ðÿ÷åå — àíòîíèìû.  òî æå âðåìÿ ìåæäó ìíîãèìè ñëîâàìè ñëîæíî óñòàíîâèòü ïðÿìîå îòíîøåíèå (íàïðèìåð, çèìà è ìåòåëü), íî, íåñìîòðÿ íà ýòî, ìåæäó íèìè âèäíà ÿâíàÿ ñåìàíòè÷åñêàÿ ñâÿçü. 18 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 © À.Â. Àíèñèìîâ, À.À. Ìàð÷åíêî, Â.Ê. Êèñåíêî, 2011 Îòíîøåíèÿ ñåìàíòè÷åñêîãî áëèçîñòè è ñåìàíòè÷åñêîé ñâÿçíîñòè ðàçëè÷àþò- ñÿ. Åñëè ëîäêà è êàòåð — ñåìàíòè÷åñêè áëèçêèå êîíöåïòû, òî äâèãàòåëü è òîï- ëèâî — ñåìàíòè÷åñêè ñâÿçíûå ïîíÿòèÿ, õîòÿ è íå ïîäîáíû ïî ñìûñëó. Ñåìàíòè÷åñêàÿ áëèçîñòü è ñåìàíòè÷åñêàÿ ñâÿçíîñòü — îòíîøåíèÿ, òðàäèöè- îííî îïðåäåëÿåìûå íà ñåìàíòè÷åñêîì ãðàôå îíòîëîãè÷åñêîé áàçû çíàíèé. Îïðå- äåëåíèå íàëè÷èÿ òîãî èëè èíîãî îòíîøåíèÿ ìåæäó ïîíÿòèÿìè ðåàëèçóåòñÿ ïðî- âåðêîé ñóùåñòâîâàíèÿ â îíòîëîãè÷åñêîé ñåòè ñåìàíòè÷åñêèõ ñâÿçåé ìåæäó óçëà- ìè, êîòîðûå ñîäåðæàò ñîîòâåòñòâóþùèå ïîíÿòèÿ. ×àñòî òàêàÿ ïðîâåðêà ñâîäèòñÿ ê çàäà÷å ïîèñêà êðàò÷àéøåãî ïóòè ìåæäó âåðøèíàìè–ïîíÿòèÿìè â ãðàôå áàçû çíàíèé. Ïîñëå òîãî êàê ïóòü ïîñòðîåí, ñëåäóåò ýòàï åãî àíàëèçà è èíòåðïðåòàöèè, öåëü êîòîðûõ — îïðåäåëåíèå ñåìàíòè÷åñêîãî çíà÷åíèÿ íàéäåííîãî ïóòè, ò.å. êàêîé òèï ñåìàíòè÷åñêîé ñâÿçè ñóùåñòâóåò ìåæäó äàííûìè ïîíÿòèÿìè è êàêîâà ãëóáèíà ýòîé ñâÿçè. Ñóùåñòâóåò òàêæå äðóãîé ïîäõîä ê îïðåäåëåíèþ îöåíêè ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñòè ïîíÿòèé, ïðåäëîæåííûé â [1]. Ìåòîäû ýòîãî íàïðàâëåíèÿ âû÷èñëÿþò ïåðåñå÷åíèå ëåêñè÷åñêîãî ñîñòàâà ñòàòåé-îïðåäåëåíèé äëÿ äâóõ âõîäíûõ ïîíÿòèé, è ÷åì áîëüøå ñëîâ ïîïàäàþò â ïåðåñå÷åíèå, òåì áîëåå ñâÿçàí- íûìè ñ÷èòàþòñÿ ýòè ïîíÿòèÿ.  äàííîé ñòàòüå ïðåäëîæåí íîâûé ìåòîä îïðåäåëåíèÿ ñåìàíòè÷åñêîé ñâÿç- íîñòè ïîíÿòèé. Ïðåäïîëàãàåòñÿ, ÷òî öåëåñîîáðàçíåå âû÷èñëÿòü è ðàññìàòðèâàòü íå ïðîñòîå ïåðåñå÷åíèå ìíîæåñòâ ëåêñåì äâóõ ñòàòåé íåêîòîðîãî òåçàóðóñà, äàþ- ùèõ îïðåäåëåíèå äëÿ äâóõ âõîäíûõ ïîíÿòèé, à ó÷èòûâàòü òàêæå ïîçèöèþ êàæäî- ãî ñëîâà âíóòðè ñòàòüè-îïðåäåëåíèÿ ïîíÿòèÿ. Äëÿ ýòîãî íåîáõîäèìî ñòðóêòóðè- ðîâàòü ñòàòüþ òåçàóðóñà ðàçáèåíèåì íà çîíû ðàçëè÷íîé ñòåïåíè ïðèîðèòåòà, íà- ïðèìåð, «íàçâàíèå», «îïðåäåëåíèå», «ññûëêè íà äðóãèå òåðìèíû», «îïèñàòåëüíàÿ ÷àñòü».  çàâèñèìîñòè îò òîãî, êóäà ïîïàëî òî èëè èíîå çíà÷àùåå ñëîâî, åìó ïðèñâàèâàåòñÿ îïðåäåëåííûé ïðèîðèòåòíûé âåñ. Òàêèì îáðàçîì, ðàñ- ñìàòðèâàåòñÿ íå ïðîñòîå ìíîæåñòâî ëåêñåì òåêñòà îïðåäåëåíèÿ ïîíÿòèÿ, à ìíî- æåñòâî ïîäìíîæåñòâ òåðìèíîâ, ãäå êàæäîå ïîäìíîæåñòâî èìååò ñâîé âåñ. Ïðåä- ëàãàåòñÿ âû÷èñëÿòü è àíàëèçèðîâàòü íå ïåðåñå÷åíèå äâóõ ëåêñè÷åñêèõ ìíîæåñòâ òåêñòîâ îïðåäåëåíèé âõîäíûõ ïîíÿòèé, à ïåðåñå÷åíèå ñòðóêòóðèðîâàííûõ «ìíî- ãîóðîâíåâûõ» ìíîæåñòâ. Ýòî ïîçâîëÿåò ïðîñìîòðåòü âñå âàðèàíòû ïîïàðíûõ ïå- ðåñå÷åíèé ïîäìíîæåñòâ èç ïåðâîãî è âòîðîãî ìíîæåñòâà è ó÷åñòü òîíêèå íþàíñû ëåêñè÷åñêîé ñòðóêòóðíîé îðãàíèçàöèè òåêñòîâ: íàïðèìåð, ñêîëüêî îáùèõ ñëîâ â íàçâàíèÿõ ïåðâîãî è âòîðîãî ïîíÿòèÿ (òàêîå ïðåñå÷åíèå èìååò íàèâûñøèé âåñ ïðèîðèòåòà), ñêîëüêî îáùèõ ñëîâ â îïðåäåëåíèè ïåðâîãî ïîíÿòèÿ è â íàçâàíèè âòîðîãî (î÷åâèäíî, âåñ äîëæåí áûòü ìåíüøå ïðåäûäóùåãî), ñêîëüêî îáùèõ ñëîâ â îïðåäåëåíèè ïåðâîãî ïîíÿòèÿ è îïèñàòåëüíîé ÷àñòè ñòàòüè âòîðîãî (âåñ ïîíèæàåòñÿ åùå áîëüøå) è ò.ä. Àíàëèçèðóÿ âñå âîçìîæíûå âàðèàíòû ìíîãîóðîâ- íåâûõ ïåðåñå÷åíèé è ïîäáèðàÿ îïòèìàëüíûé âåñ äëÿ êàæäîãî âàðèàíòà, ìîæíî ïîñòðîèòü êà÷åñòâåííî íîâóþ ýôôåêòèâíóþ îöåíêó ñåìàíòè÷åñêîé áëèçîñòè- ñâÿçíîñòè ñëîâ åñòåñòâåííîãî ÿçûêà. ÑÎÂÐÅÌÅÍÍÛÅ ÌÅÒÎÄÛ ÂÛ×ÈÑËÅÍÈß ÑÅÌÀÍÒÈ×ÅÑÊÎÉ ÁËÈÇÎÑÒÈ Ðàññìîòðèì ðàíåå ñîçäàííûå ìåòîäû âû÷èñëåíèÿ ñåìàíòè÷åñêîãî ðàññòîÿíèÿ. Ñ íà- ÷àëà 80-õ ãîäîâ ïðîøëîãî ñòîëåòèÿ ðàçðàáîòàíî íåñêîëüêî ýâðèñòè÷åñêèõ ìåòîäîâ. Î÷åíü âàæíûì ÿâëÿåòñÿ âûáîð èñòî÷íèêà äàííûõ — îñíîâû äëÿ âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè.  èññëåäîâàíèÿõ ÷àùå âñåãî èñïîëüçóþòñÿ ëèíãâèñòè- ÷åñêèå áàçû çíàíèé WordNet, ConceptNet; çàäåéñòâîâàíû òàêæå Wikipedia, ïîèñê Google. Íàèáîëåå çíà÷èòåëüíûå ðåçóëüòàòû äîñòèãíóòû ïðè èñïîëüçîâàíèè WordNet è Wikipedia [2–4]. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 19 Îäèí êëàññ ìåòîäîâ áàçèðóåòñÿ íà âû÷èñëåíèè ðàññòîÿíèÿ �( , )c c1 2 ìåæäó äâóìÿ êîíöåïòàìè (óçëàìè) c c1 2, â íåêîòîðîé òàêñîíîìèè (WordNet, äåðåâî êà- òåãîðèé Wikipedia). Òàê, íàïðèìåð, ìîæåò áûòü èñïîëüçîâàí êðàò÷àéøèé ïóòü ìåæäó äâóìÿ ñîîòâåòñòâóþùèìè âåðøèíàìè â äàííîé òàêñîíîìèè. Îäíà èç ïåðâûõ òàêèõ ìåòðèê ïðåäëîæåíà â ðàáîòå [5]: �( , )c c N p 1 2 � 1 , ãäå N p — êîëè÷åñòâî âåðøèí â êðàò÷àéøåì ïóòè, ñâÿçûâàþùåì óçëû c c1 2, . Îòìå÷åíî, ÷òî ìèíóñîì ýòîé ìåòðèêè ÿâëÿåòñÿ íåðàâíîìåðíîñòü ãëóáèí íåêî- òîðûõ êîíöåïòîâ â òàêñîíîìèè.  [6] ïðèâåäåíà íîðìàëèçîâàííàÿ âåðñèÿ äàí- íîãî ìåòîäà, ó÷èòûâàþùàÿ âûñîòó èñïîëüçóåìîé òàêñîíîìèè: �( , )c c N D p 1 2 � �log 2 , ãäå D — ìàêñèìàëüíàÿ ãëóáèíà äåðåâà òàêñîíîìèè. Åùå îäèí ìåòîä îïèñàí â [7].  ïðåäëîæåííîì àëãîðèòìå ó÷èòûâàåòñÿ LSO( , )c c1 2 — ãëóáèíà íàèìåíüøåãî îáùåãî ïðåäêà (Lowest Super Ordinate) äâóõ óçëîâ ãðàôà òàêñîíîìèè, êîòîðûå ñîîòâåòñòâóþò êîíöåïòàì c c1 2, : �( , ) ( ( , )) ( ) ( ) c c c c c c 1 2 � � � log depth LSO depth depth 1 2 1 2 , ãäå depth( )x — ðàññòîÿíèå îò êîðíÿ òàêñîíîìèè äî óçëà x.  ðàáîòå [8] âïåðâûå èñïîëüçîâàíà Wikipedia äëÿ âû÷èñëåíèÿ ñåìàíòè÷åñêî- ãî ðàññòîÿíèÿ. Ìåòîä WikiRelate! ïðèìåíÿåò îïèñàííûå âûøå ìåòðèêè íà äåðåâå êàòåãîðèé Wikipedia. Äðóãîé êëàññ àëãîðèòìîâ ðàçðàáîòàí Ì. Ëåñêîì [1]. Îí ïîñòðîèë àëãîðèòì, îñíîâàííûé íà èäåå îïðåäåëåíèÿ áëèçêèõ ïîíÿòèé ñ ïîìîùüþ ñõîæåãî íàáîðà ñëîâ.  êà÷åñòâå ñåìàíòè÷åñêîãî ðàññòîÿíèÿ ìåæäó ïîíÿòèÿìè èñïîëüçîâàíî îò- íîøåíèå êîëè÷åñòâà îäèíàêîâûõ ñëîâ â îïðåäåëåíèÿõ ïîíÿòèé ê îáùåìó êîëè- ÷åñòâó ñëîâ â äâóõ îïðåäåëåíèÿõ. Íà ïðîòÿæåíèè ïîñëåäíèõ ïÿòè ëåò ðàçðàáîòàíî íåñêîëüêî ìåòîäîâ, îñíîâàí- íûõ íà èñïîëüçîâàíèè Wikipedia, êîòîðûå îáëàäàþò íåäîñòèæèìîé ðàíåå òî÷íîñ- òüþ.  [9] ïðåäëîæåí ìåòîä âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè Wikipedia Link-based Measure (WLM), îñíîâàííûé íà èñïîëüçîâàíèè ññûëîê ìåæäó ñòðàíè- öàìè. Ãëàâíîé åãî èäååé ÿâëÿåòñÿ ïðåäïîëîæåíèå î òîì, ÷òî ïîíÿòèå (â äàííîì ñëó÷àå ïðåäñòàâëåííîå ñòàòüåé Wikipedia) äîñòàòî÷íî òî÷íî îïèñûâàåòñÿ ñ ïî- ìîùüþ âõîäÿùèõ è èñõîäÿùèõ ññûëîê. Êàæäàÿ ññûëêà èìååò ñâîé âåñ, îïðåäåëÿå- ìûé ÷àñòîòîé åå ïîÿâëåíèÿ ñðåäè âñåõ ñòðàíèö ýíöèêëîïåäèè. Òàêèì îáðàçîì, êàæäîé ñòàòüå ñîîòâåòñòâóåò âåêòîð ñî ññûëêàìè. Âåñ ññûëêè âû÷èñëÿåòñÿ ñ ïðè- ìåíåíèåì èçâåñòíîé ôîðìóëû TD-IDF. Ðàññòîÿíèå ìåæäó ñòàòüÿìè íàõîäèòñÿ ñ ïîìîùüþ êîñèíóñíîãî ðàññòîÿíèÿ ìåæäó âåêòîðàìè âåñîâ ñòàòåé. Îäèí èç íàèáîëåå ýôôåêòèâíûõ ìåòîäîâ — Explicit Semantic Analysis (ESA) — îïèñàí â [4]. Ïî ñðàâíåíèþ ñ ðàíåå èçâåñòíûì àëãîðèòìîì Latent Semantic Analysis (LSA), â êîòîðîì îïðåäåëÿþòñÿ íåÿâíûå ñâÿçè ìåæäó òåêñòàìè ñòàòåé, â äàííîì ìåòîäå ïîíÿòèå ïðåäñòàâëÿåòñÿ â ÿâíîì âèäå ñ ïîìîùüþ âçâå- øåííîé ñóìû òåðìèíîâ, ïîëó÷åííûõ èç Wikipedia. Çàäàííîå ïîíÿòèå ïðîåêòèðóåòñÿ â ïðîñòðàíñòâî âåêòîðîâ-ñòàòåé Wikipedia. Òàêèì îáðàçîì, ñåìàíòè÷åñêàÿ áëèçîñòü îïðåäåëÿåòñÿ êàê êîñèíóñíîå ðàññòîÿíèå ìåæäó âåêòîðàìè, ñïðîåêòèðîâàííûìè â ïðîñòðàíñòâî ñòàòåé Wikipedia. 20 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4  ðàáîòå 10] ïðåäñòàâëåí ìåòîä WikiWalk, ïðèìåíÿþùèé òåõíèêó ñëó÷àé- íûõ áëóæäàíèé íà ãðàôå. Ðàññìàòðèâàåòñÿ äâà òèïà ãðàôîâ: ïîñòðîåííûå ñ ïî- ìîùüþ WordNet è Wikipedia. Ýòîò ìåòîä èñïîëüçóåò àëãîðèòì Personalized PageRank: íåêàÿ ÷àñòèöà ñëó÷àéíî áëóæäàåò ïî âåðøèíàì ãðàôà (â ñëó÷àå Wikipedia — ïî ñòàòüÿì) è ïåðåõîäèò íà íîâóþ ñòðàíèöó ñ íåêîé âåðîÿòíîñòüþ. Òàêèì îáðàçîì, êàæäàÿ âåðøèíà ãðàôà îïðåäåëÿåòñÿ âåêòîðîì âåðîÿòíîñòåé ïå- ðåõîäîâ íà äðóãèå ñòðàíèöû (âåêòîðîì òåëåïîðòàöèé). Òàêîé âåêòîð îêàçûâàåòñÿ óíèêàëüíîé õàðàêòåðèñòèêîé ñòðàíèöû Wikipedia (à ñ íåé è îïèñàííîãî ïîíÿ- òèÿ). Ñåìàíòè÷åñêàÿ áëèçîñòü âû÷èñëÿåòñÿ êàê ðàññòîÿíèå ìåæäó âåêòîðàìè òåëåïîðòàöèé ñîîòâåòñòâóþùèõ ñòðàíèö. ÌÅÒÎÄ ÂÛ×ÈÑËÅÍÈß ÑÅÌÀÍÒÈ×ÅÑÊÎÉ ÁËÈÇÎÑÒÈ-ÑÂßÇÍÎÑÒÈ Èñòî÷íèêîì äàííûõ, êîòîðûé èñïîëüçóåòñÿ â íàñòîÿùåé ðàáîòå, ñëóæèò ñâî- áîäíàÿ èíòåðíåò-ýíöèêëîïåäèÿ Wikipedia.  äàííûé ìîìåíò àíãëèéñêàÿ âåðñèÿ Wikipedia ñîäåðæèò áîëåå 3,5 ìèëëèîíîâ ñëîâàðíûõ ñòàòåé, ðóññêàÿ — áîëåå 600 òûñÿ÷, óêðàèíñêàÿ — áîëåå 250 òûñÿ÷. Òàêîå áîëüøîå êîëè÷åñòâî ñòàòåé îáåñïå÷èâàåòñÿ «ñâîáîäíîñòüþ» ïðîåêòà. Êàæäûé ïîëüçîâàòåëü ìîæåò ñîçäà- âàòü, èñïðàâëÿòü è äîïîëíÿòü ñòàòüè. Áëàãîäàðÿ ìîäåðàöèè ýòî íå âåäåò ê ñíè- æåíèþ êà÷åñòâà òåêñòîâ ñòàòåé, ïðàêòè÷åñêè êàæäîå èçìåíåíèå ïðîâåðÿåòñÿ îäíèì èëè ãðóïïîé ïîëüçîâàòåëåé, êîòîðûå ðàíåå òåì èëè èíûì îáðàçîì äî- êàçàëè ñâîþ êîìïåòåíòíîñòü. Î÷åíü âàæíûì ôàêòîðîì òàêæå ÿâëÿåòñÿ âîç- ìîæíîñòü çàãðóçêè ïîëíîé ëîêàëüíîé êîïèè Wikipedia. Îäíàêî ýòà ýíöèêëîïå- äèÿ èìååò îïðåäåëåííûå íåäîñòàòêè. Íåêîòîðûå ñòàòüè íå ïîëíîñòüþ îáúåê- òèâíû: íàïðèìåð, àâòîð ìîæåò âíåñòè ñâîå ëè÷íîå ìíåíèå ïî ïîâîäó òîãî èëè èíîãî âîïðîñà. Åùå îäèí ìèíóñ — íåäîñòàòî÷íàÿ ñòðîãîñòü ôîðìàòà îïèñàíèÿ ñòàòüè, ÷òî î÷åíü óñëîæíÿåò ðàçðàáîòêó ïðîãðàììû-àíàëèçàòîðà òåêñòîâ ýí- öèêëîïåäèè. Èíòåðíåò-ýíöèêëîïåäèÿ Wikipedia ÿâëÿåòñÿ óíèêàëüíûì è öåí- íûì, íî íå ôîðìàëèçèðîâàííûì èñòî÷íèêîì äàííûõ. Ñòðóêòóðà Wikipedia èìååò ðÿä ñâîéñòâ, êîòîðûå ìîæíî èñïîëüçîâàòü ïðè âû÷èñëåíèè ñåìàíòè÷åñêîé áëèçîñòè. Ýòè ñâîéñòâà ìîãóò ìîäåëèðîâàòü íåêîòî- ðûå òèïû ëåêñè÷åñêèõ îòíîøåíèé ìåæäó ñëîâàìè. • Ñèíîíèìèÿ. Îïðåäåëÿåòñÿ ñ ïîìîùüþ ñòðàíèö-ïåðåíàïðàâëåíèé. Êàê ïðàâèëî, ñîäåðæèìîå òàêèõ ñòàòåé ñîñòîèò èç ñòðîêè «#REDIRECT <èìÿ ñòðàíè- öû >». Íàïðèìåð, ñòàòüÿ êîò íàïðàâëÿåò íà ñòðàíèöó êîøêà, à ñòàòüÿ àâòî — íà àâòîìîáèëü. • Îìîíèìèÿ. Çàäàåòñÿ ñïåöèàëüíûìè ñòðàíèöàìè ñî ñïèñêîì âîçìîæíûõ çíà÷åíèé äàííîãî ïîíÿòèÿ.  êà÷åñòâå ïðèìåðà ìîæíî ïðèâåñòè ñòðàíèöó íîòà, êîòîðàÿ ñîäåðæèò ññûëêè íà ðàçëè÷íûå çíà÷åíèÿ ýòîãî ñëîâà, íàïðèìåð: ìóçû- êàëüíûé çíàê, äèïëîìàòè÷åñêîå îáðàùåíèå, ôèíàíñîâàÿ îáëèãàöèÿ, ìàðêà ìàãíè- òîôîíîâ, íàçâàíèå ðåêè.  äàííîé ðàáîòå ñòðàíèöû òàêîãî òèïà èñïîëüçóþòñÿ äëÿ ðàçðåøåíèÿ ñìûñëîâûõ íåîäíîçíà÷íîñòåé, â ÷àñòíîñòè äëÿ ïîëó÷åíèÿ ñïèñ- êà âîçìîæíûõ çíà÷åíèé òåðìèíà. • Ïåðåêðåñòíûå ññûëêè. Ïðåäñòàâëåíû ññûëêàìè íà äðóãèå ñòàòüè Wikipedia. Íàïðèìåð, ñòàòüÿ âîäà ñîäåðæèò ññûëêè íà ñòàòüè: õèìè÷åñêîå âåùåñ- òâî, æèäêîñòü, ëåä, ñíåã, ïàð, ðàñòâîðèòåëü, îêåàí, ðåêà, æèçíü, ïîãîäà, êëèìàò è ò.ä. Òàêèå ññûëêè óêàçûâàþò íà âçàèìîñâÿçü ìåæäó ïîíÿòèÿìè. Ïðåäëàãàåìûé ìåòîä, íàçîâåì åãî «îöåíî÷íîå âçâåøåííîå ïåðåñå÷åíèå» (Estimated Weighted Overlap — EWO), ÿâëÿåòñÿ ðàçâèòèåì ðàíåå óïîìÿíóòîãî ïîäõîäà Ëåñêà. Åãî ìåòîä èñõîäèò èç ïðåäïîëîæåíèÿ, ÷òî áëèçêèå ïîíÿòèÿ îïè- ñûâàþòñÿ (èëè îïðåäåëÿþòñÿ) ñ èñïîëüçîâàíèåì ïîäîáíîãî íàáîðà ñëîâ, ò.å. êî- ëè÷åñòâî îáùèõ ñëîâ â ñëîâàðíûõ îïðåäåëåíèÿõ ìîæåò ïîêàçûâàòü, íàñêîëüêî ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 21 ýòè äâà ïîíÿòèÿ áëèçêè ñåìàíòè÷åñêè. Ïðåäëàãàåìîå ôóíêöèîíàëüíî-ñòðóêòóð- íîå îáîáùåíèå ìåòîäà Ëåñêà îñíîâûâàåòñÿ íà èäåå î òîì, ÷òî â òåêñòå îòðàæåíî ñìûñëîâîå óïîðÿäî÷åíèå ìåæäó ñëîâàìè. Íåêîòîðûå ñëîâà ÿâëÿþòñÿ áîëåå âàæ- íûìè, ÷åì äðóãèå, èñõîäÿ èç èõ ïîçèöèè â òåêñòå. Íàïðèìåð, ñëîâî èç íàçâàíèÿ ñòàòüè (èëè èç îïðåäåëåíèÿ òåðìèíà) îáû÷íî èìååò áîëüøåå çíà÷åíèå, ÷åì ñëîâî èç êîíöà òåêñòà. Äëÿ ââåäåíèÿ òàêîãî ðàçëè÷èÿ â ïðåäëàãàåìîì àëãîðèòìå êàæäî- ìó ñëîâó èç òåêñòà ñòàòüè ïðèñâàèâàåòñÿ âåñ, ñîîòâåòñòâóþùèé âàæíîñòè ñëîâà. Âåñà ñëîâ ðàññ÷èòûâàþòñÿ íà îñíîâå ñëåäóþùèõ ïðèçíàêîâ: íàçâàíèå ñòàòüè ñî- äåðæèò äàííîå ñëîâî; ñëîâî ïðèíàäëåæèò îïðåäåëåíèþ ïîíÿòèÿ; ñëîâî ïðèíàä- ëåæèò ïåðâîìó ïàðàãðàôó ñòàòüè; ñëîâî ÿâëÿåòñÿ ññûëêîé íà äðóãóþ ñòàòüþ; äðóãèå ñëîâà. Èòàê, ïðåäïîëîæèì, àëãîðèòì ïîëó÷àåò íà âõîä äâà ñëîâà äëÿ îöåíêè. Ïðåæ- äå âñåãî îí âûáèðàåò ñîîòâåòñòâóþùèå ñëîâàðíûå ñòàòüè èç Wikipedia. Ïîñëå ýòîãî òåêñòû ñòàòåé ðàçáèâàþòñÿ íà ñëîâà. Äàëåå àëãîðèòì óäàëÿåò ñëîâà èç «ñòîï-ñïèñêà». Ñòîï-ñïèñîê ñîäåðæèò ñëîâà, êîòîðûå íå íåñóò áîëüøîé ñåìàíòè- ÷åñêîé íàãðóçêè: ïðåäëîãè, ñîþçû, ìåñòîèìåíèÿ, îáùåóïîòðåáèòåëüíûå ñëîâà è ò.ä. Íà ñëåäóþùåì øàãå àëãîðèòì ðàçáèâàåò ìíîæåñòâà ñëîâ íà ïîäìíîæåñòâà, ñîîòâåòñòâóþùèå çàäàííûì ôàêòîðàì. Íàïðèìåð, äëÿ îïèñàííûõ âûøå ïðèçíà- êîâ ìíîæåñòâà áóäóò òàêèìè: L1 — ñëîâà èç íàçâàíèÿ; L2 — ñëîâà èç îïðåäåëå- íèÿ ïîíÿòèÿ; L3 — ñëîâà èç ïåðâîãî ïàðàãðàôà; L4 — ñëîâà, ÿâëÿþùèåñÿ ïåðå- êðåñòíûìè ññûëêàìè; L5 — îñòàëüíûå ñëîâà. Ïðè÷åì åñëè íåêîòîðîå ñëîâî w ïî- ïàäàåò â Li , òî îíî èñêëþ÷àåòñÿ èç L j äëÿ ëþáîãî j i� .  äàííîì ìåòîäå ïðåäëàãàåòñÿ àíàëèçèðîâàòü íå ïðîñòî ïåðåñå÷åíèÿ äâóõ ëåêñè÷åñêèõ íàáîðîâ ñòàòåé Wikipedia äëÿ äâóõ âõîäíûõ ïîíÿòèé, à ó÷èòûâàòü ñòðóêòóðó ñòàòåé. Åñëè íàçâàíèÿ è îïðåäåëåíèÿ ïîíÿòèé ñîäåðæàò îáùèå òåðìè- íû, òî ñïèñîê ïåðåñå÷åíèÿ ëåêñåì äëÿ íàçâàíèé è îïðåäåëåíèé äîëæåí èìåòü íà- ìíîãî áîëüøèé âåñ âàæíîñòè, ÷åì ñïèñîê ïåðåñå÷åíèÿ äëÿ âñåãî îñòàëüíîãî òåëà ñòàòüè. Ïðåäëàãàåòñÿ ðàçáèòü çíà÷àùèå ñëîâà îáåèõ ñòàòåé ïî ñîîòâåòñòâóþùèì ïðèçíàêàì íà ãðóïïû L Ln1 1 1, ,� , L Ln1 2 2, ,� è äàëåå ñ÷èòàòü ïåðåñå÷åíèÿ ïîïàðíî: L Li j 1 2� .  ðàññìàòðèâàåìîì ñëó÷àå êîëè÷åñòâî ïðèçíàêîâ ðàâíî ïÿòè (÷èñëî ïðèçíàêîâ ìîæåò áûòü äðóãèì â èíîé ðåàëèçàöèè àëãîðèòìà). Äëÿ êàæäîãî âîç- ìîæíîãî ïåðåñå÷åíèÿ îïðåäåëÿåòñÿ ñîîòâåòñòâóþùèé âåñ ïðèîðèòåòà: ìàêñè- ìàëüíûé — äëÿ ñëó÷àÿ ïåðåñå÷åíèÿ òåðìèíîâ èç íàçâàíèÿ L L 1 1 1 2� , ìèíèìàëü- íûé — äëÿ îáùèõ òåðìèíîâ èç îïèñàòåëüíîé ÷àñòè ñòàòüè L L 5 1 5 2� . Ïðîìåæóòî÷- íîìó âàðèàíòó, íàïðèìåð, êîãäà íåêîòîðûå òåðìèíû èñïîëüçóþòñÿ â îïðåäåëåíèè ïåðâîãî ïîíÿòèÿ, à äëÿ âòîðîãî ïîíÿòèÿ îíè ôèãóðèðóåò îïèñàòåëüíî â êîíöå ñòàòüè (ïåðåñå÷åíèå L L 2 1 5 2� ), ïðèñâàèâàåòñÿ ïðîìåæóòî÷íûé âåñ. Êàæäîìó ñëîâó èç ìíîæåñòâà Li ïðèñâîåí âåñ wi . Íà îñíîâàíèè ìíîæåñòâ Li 1 è Li 2 ñòðîèòñÿ ìàòðèöà D, ýëåìåíò êîòîðîé D i j[ , ] ðàâåí êîëè÷åñòâó îáùèõ ñëîâ â Li 1 è Li 2 — | |L Li j 1 � 2 , óìíîæåííîìó íà âåñ w w wij i j� � . Ïðåäïîëîæèì, ÷òî ñå- ìàíòè÷åñêàÿ áëèçîñòü ðàâíà íîðìàëèçîâàííîé ñóììå ýëåìåíòîâ ìàòðèöû D. Àëãîðèòì âûïîëíÿåò ñëåäóþùèå äåéñòâèÿ. 1. Äëÿ äâóõ ïîíÿòèé c c1 2, èçâëå÷ü ñòàòüè t1 è t2 , îïðåäåëÿþùèå ýòè ïîíÿ- òèÿ. Âûáðàòü âñå ñëîâà èç ñòàòåé t1 è t2 . Îáîçíà÷èòü ìíîæåñòâà ñëîâ êàê T1 è T2 ñîîòâåòñòâåííî. 2. Óäàëèòü èç T1, T2 ñëîâà èç ñòîï-ñïèñêà. 22 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 3. Ðàçáèòü ìíîæåñòâà T1, T2 íà ïîäìíîæåñòâà L Ln1 1 1, ,� è L Ln1 2 2, ,� ïî çà- äàííûì ïðèçíàêàì, ãäå n — êîëè÷åñòâî ïðèçíàêîâ. 4. Ïîñòðîèòü ìàòðèöó D: w L L w L L w L L w n n n n n 11 1 1 | | | | | | 1 1 1 2 1 1 2 1 1 2 � � � � � � � � � � � � � � � n n nL L| |1 2� � � � � � � � � . 5. Âû÷èñëèòü âåëè÷èíó ñåìàíòè÷åñêîé áëèçîñòè êàê íîðìàëèçîâàííóþ ñóììó: EWO 11 1 2 1 ( , ) (| | | | ) , c c D w L L i j j n i n i i i i n1 2 � � �� � . Ïðîöåäóðà ïîëó÷åíèÿ âåñîâ wi , îñíîâàííàÿ íà àëãîðèòìå èìèòàöèè îòæèãà (ìåòîä ãëîáàëüíîé äèñêðåòíîé îïòèìèçàöèè), äåòàëüíî îïèñàíà äàëåå. ÐÀÇÐÅØÅÍÈÅ ÑÌÛÑËÎÂÛÕ ÍÅÎÄÍÎÇÍÀ×ÍÎÑÒÅÉ Íåêîòîðûå ïîíÿòèÿ ìîãóò èìåòü îäèíàêîâîå íàïèñàíèå è ðàçíîå çíà÷åíèå. Íàïðèìåð, ñëîâî ÿãóàð ìîæåò îçíà÷àòü æèâîòíîå èç ðîäà êîøà÷üèõ è ìàðêó áðèòàíñêîãî àâòîìîáèëÿ. Òàêèì îáðàçîì, íåîáõîäèìî ïðàâèëüíî âûáèðàòü çíà÷åíèå (è ñòàòüþ èç Wikipedia), â çàâèñèìîñòè îò âòîðîãî ñëîâà ïàðû. Íà- ïðèìåð, åñëè íà âõîä àëãîðèòìà ïîäàíà ïàðà ñëîâ <ÿãóàð; ëåâ>, òî ÿãóàð äîë- æåí ñ÷èòàòüñÿ áîëüøîé êîøêîé, à åñëè ïàðà <ÿãóàð; ìåðñåäåñ>, òî èíòåðïðå- òèðîâàòüñÿ êàê ìàðêà àâòîìîáèëÿ. Äëÿ ðàçðåøåíèÿ òàêèõ íåîäíîçíà÷íîñòåé ðàçðàáîòàí àëãîðèòì. Êàê è â ïðåäûäóùåì ñëó÷àå, àëãîðèòì ïîëó÷àåò íà âõîä ïàðó ñëîâ. Äëÿ îáîèõ ñëîâ ïîëó÷àåì ñïèñîê âîçìîæíûõ ñòàòåé-êàíäèäàòîâ (çíà÷åíèé). Çàòåì äëÿ êàæäîé ïàðû çíà÷åíèé, ãäå ïåðâîå çíà÷åíèå ïðèíàäëåæèò îäíîìó ñïèñêó, âòîðîå — äðóãî- ìó, âû÷èñëÿåòñÿ âåëè÷èíà ñåìàíòè÷åñêîé áëèçîñòè. Ïîñëå ýòîãî âûáèðàåòñÿ ïàðà ñ íàèáîëüøèì çíà÷åíèåì. Áîëåå ôîðìàëüíî àëãîðèòì çàïèøåòñÿ ñëåäóþùèì îáðàçîì. 1. Äëÿ îáîèõ ñëîâ ïîëó÷èòü ñïèñîê çíà÷åíèé: • èçâëå÷ü èç èíäåêñà ñïèñîê ñòàòåé ñ íàçâàíèåì âèäà <ñëîâî> (óòî÷íå- íèå); • (äîïîëíèòåëüíî) èçâëå÷ü èç ñòðàíèöû ñ îïèñàíèåì íåîäíîçíà÷íîñòåé ñïèñîê âîçìîæíûõ çíà÷åíèé. 2. Äëÿ êàæäîé ïàðû ñòàòåé ïîäñ÷èòàòü çíà÷åíèå ñåìàíòè÷åñêîé áëèçîñ- òè-ñâÿçíîñòè. 3. Âûáðàòü ïàðó ñ íàèáîëüøåé ñåìàíòè÷åñêîé áëèçîñòüþ.  ïðàêòè÷åñêèõ ðåàëèçàöèÿõ ýòîò ïðîöåññ ìîæíî îïòèìèçèðîâàòü: âìåñòî ïåðåñå÷åíèÿ ïîëíîãî òåêñòà ñòàòåé èñïîëüçîâàòü òîëüêî ïåðâûå ïàðàãðàôû. Òà- êàÿ îïòèìèçàöèÿ çíà÷èòåëüíî ñíèæàåò òðóäîåìêîñòü ïðîöåññà, ïðè ýòîì íå âëèÿÿ íà òî÷íîñòü âû÷èñëåíèé. ÎÖÅÍÊÀ ÂÅÑΠÄëÿ îöåíêè âåñîâ wij èñïîëüçóåòñÿ ìåòîä èìèòàöèè îòæèãà [11] — âåðîÿòíîñ- òíàÿ ýâðèñòèêà äëÿ ðåøåíèÿ çàäà÷ ãëîáàëüíîé îïòèìèçàöèè. Äàííûé ìåòîä îïåðèðóåò òî÷êàìè â ïðîñòðàíñòâå ðåøåíèé.  ðàññìàòðèâàåìîì ñëó÷àå òî÷- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 23 êîé ÿâëÿåòñÿ âåêòîð èç ïÿòè âåñîâ, êîòîðûå ñîîòâåòñòâóþò âûáðàííûì ïðèçíà- êàì. Íà êàæäîé èòåðàöèè àëãîðèòìà õðàíèòñÿ îäíà òî÷êà — òåêóùàÿ, êîòîðàÿ ìîæåò áûòü èçìåíåíà ïî îïðåäåëåííîìó âåðîÿòíîñòíîìó ïðàâèëó. Ïñåâäî- êîä [12] ýòîãî àëãîðèòìà äëÿ ìàêñèìèçàöèè ôóíêöèè F x( ) èìååò ñëåäóþùóþ ñòðóêòóðó. 1. Âûáðàòü ñëó÷àéíûì îáðàçîì íà÷àëüíóþ òî÷êó x0 . 2. Ïîëîæèòü x xbest 0� . 3. Ïîêà i k� , âûïîëíÿòü òàêèå øàãè: • ñëó÷àéíî âûáðàòü òî÷êó x ñðåäè ñîñåäåé òî÷êè xi ; • åñëè F x F x( ) ( )best � , òî x xbest � ; • åñëè F x F xi( ) ( )� , òî x xi� �1 ; • åñëè rnd � � e F x F x ti i( ( ) ( ))/ , òî x xi� �1 . 4. Âåðíóòü x best . Çäåñü rnd — ñëó÷àéíîå ÷èñëî îò 0 äî 1, ïàðàìåòð ti — ýëåìåíòû íåêîòîðîé óáûâàþùåé ïîñëåäîâàòåëüíîñòè. Ýòè çíà÷åíèÿ íàçûâàþòñÿ òåìïåðàòóðîé îòæèãà.  öåëîì, äàííûé ìåòîä ïîäîáåí ìåòîäó ãðàäèåíòíîãî ñïóñêà, íî èñïîëüçî- âàíèå âåðîÿòíîñòíîãî çàêîíà íå ïîçâîëÿåò àëãîðèòìó «çàñòðåâàòü» â òî÷êàõ ëî- êàëüíîãî ìàêñèìóìà. Ýòî ñâîéñòâî ïîìîãàåò ïîëó÷àòü áîëåå ýôôåêòèâíûå ðåçóëüòàòû.  êà÷åñòâå ôóíêöèè äëÿ ìàêñèìèçàöèè ïðèìåíåí êîýôôèöèåíò ðàíãîâîé êîððåëÿöèè Ñïèðìåíà. Ïðîñòðàíñòâîì ðåøåíèé äëÿ ïîèñêà ÿâëÿåòñÿ ïðîñòðàí- ñòâî âåêòîðîâ, ðàçìåðíîñòü êîòîðûõ ðàâíà êîëè÷åñòâó ïðèçíàêîâ, èñïîëüçóåìûõ â àëãîðèòìå, ò.å. êàæäîé êîîðäèíàòå âåêòîðà ñîîòâåòñòâóåò âåñ íåêîòîðîãî ïðè- çíàêà. Äëÿ îöåíêè âåñîâ ñîçäàíà íåáîëüøàÿ òðåíèðîâî÷íàÿ áàçà, ñîñòîÿùàÿ èç ïàð ñëîâ, ïðèíàäëåæàùèõ îñíîâíûì êëàññàì îòíîøåíèé ñåìàíòè÷åñêîé áëèçî- ñòè-ñâÿçíîñòè: î÷åíü áëèçêèå ïîíÿòèÿ, àáñîëþòíî íåçàâèñèìûå ïîíÿòèÿ, ñëîâà ñ ìíîæåñòâîì çíà÷åíèé è ò.ä. Íåñêîëüêî ðàç çàïóùåíà îïòèìèçèðóþùàÿ ïðîöåäóðà è âûáðàíû âåñà, êîòîðûå äàþò ìàêñèìàëüíóþ êîððåëÿöèþ ñ òðåíèðîâî÷íîé áàçîé. ÏÐÎÃÐÀÌÌÍÀß ÐÅÀËÈÇÀÖÈß Ðàçðàáîòàíà ïðîãðàììíàÿ ðåàëèçàöèÿ ïðåäëîæåííîãî ìåòîäà. Ïðîãðàììà íàïè- ñàíà íà ÿçûêå ïðîãðàììèðîâàíèÿ Scala [13, 14] — ñîâðåìåííîì, õîðîøî ïðî- ðàáîòàííîì ÿçûêå, óäîáíîì äëÿ ñîçäàíèÿ ïðîãðàìì îáðàáîòêè òåêñòîâ. Òåêó- ùàÿ ðåàëèçàöèÿ Scala êîìïèëèðóåò èñõîäíûé òåêñò â áàéò-êîä äëÿ âèðòóàëü- íîé ìàøèíû JVM. Ýòî ñâîéñòâî äàåò âîçìîæíîñòü âûïîëíÿòü ïðîãðàììó íà âñåõ îïåðàöèîííûõ ñèñòåìàõ, êîòîðûå ïîääåðæèâàþòñÿ JVM (íàïðèìåð, Windows, GNU/Linux, MacOS X).  êà÷åñòâå èñòî÷íèêà äàííûõ èñïîëüçóåòñÿ ëîêàëüíàÿ êîïèÿ Wikipedia, çàãðóæåííàÿ ñ âåá-ñàéòà ïðîåêòà. Îáùèé ðàçìåð àðõèâà ÷ðåçâû÷àéíî âåëèê (áîëåå 5,5 Ãá), ïîýòîìó äëÿ ðåàëèçàöèè ýôôåêòèâ- íîãî, áûñòðîãî ïîèñêà ñòàòåé âûïîëíåíà ïðåäâàðèòåëüíàÿ îáðàáîòêà. Îòìå- òèì, ÷òî äëÿ ñîçäàíèÿ àðõèâà èñïîëüçóåòñÿ áëî÷íàÿ àðõèâàöèÿ. Ýòî ïîçâîëÿåò ðàçáèòü áîëüøîé àðõèâ íà ìíîæåñòâî ìàëåíüêèõ (îêîëî 1 Ìá êàæäûé) è ñîçäàòü ïîèñêîâûé èíäåêñ äëÿ íèõ.  ñðåäèíå àðõèâà íàõîäèòñÿ åäèíñòâåííûé XML-ôàéë (ðàçìåðîì îêîëî 25 Ãá), êîòîðûé ñîäåðæèò âñå ñòàòüè Wikipedia. Äëÿ èçâëå÷åíèÿ ñòàòåé èç ýòîãî ôàéëà ñ ó÷åòîì áëî÷íîé ñòðóêòóðû àðõèâà ðàçðàáîòàíà ïðîãðàììà-ïàðñåð, ñïîñîáíàÿ îáðàáàòûâàòü áîëüøèå îáúåìû äàí- íûõ.  îáùèõ ÷åðòàõ ïðåäâàðèòåëüíóþ îáðàáîòêó ìîæíî îïèñàòü ñëåäóþùèì îáðàçîì. 24 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 1. Äëÿ êàæäîé ñòàòüè èç ëîêàëüíîé êîïèè Wikipedia: • èçâëå÷ü íàçâàíèå è òåêñò; • èñêëþ÷èòü èç òåêñòà ÷àñòè, êîòîðûå íå âàæíû äëÿ àëãîðèòìà, íàïðè- ìåð ññûëêè íà âíåøíèå ðåñóðñû, êîììåíòàðèè, îïèñàíèÿ èçîáðàæå- íèé; • ñîõðàíèòü íàçâàíèå è îáðàáîòàííûé òåêñò ñòàòüè â òåêñòîâîì ôàéëå; • äîáàâèòü â áàçó äàííûõ ïàðó <Íàçâàíèå ñòàòüè; íàçâàíèå òåêñòîâîãî ôàéëà, â êîòîðîì õðàíèòñÿ ñîäåðæèìîå>. 2. Ïîñëå îáðàáîòêè âñåõ ñòàòåé èç Wikipedia ñîçäàòü èíäåêñ áàçû äàííûõ äëÿ ïîëÿ «íàçâàíèå ñòàòüè». Òàêèì îáðàçîì, ñòàòüè ñîõðàíÿþòñÿ â îáû÷íûõ òåêñòîâûõ ôàéëàõ.  êà÷åñòâå áàçû äàííûõ èñïîëüçóåòñÿ MongoDB — ñîâðåìåííàÿ íåðåëÿöèîííàÿ, äîêóìåí- òíî-îðèåíòèðîâàííàÿ áàçà äàííûõ, êîòîðàÿ, ñîãëàñíî ðåçóëüòàòàì ìíîæåñòâà òåñòè- ðîâàíèé, ñ÷èòàåòñÿ îäíîé èç íàèáîëåå ïðîèçâîäèòåëüíûõ. Âàæíûì òàêæå ÿâëÿåòñÿ âîçìîæíîñòü ïîèñêà â áàçå äàííûõ ïî ðåãóëÿðíûì âûðàæåíèÿì, ÷òî àêòèâíî èñ- ïîëüçóåòñÿ ïðè ðàçðåøåíèè ñìûñëîâûõ íåîäíîçíà÷íîñòåé. Ðàçìåð êîíå÷íîé áàçû äàííûõ — 1,5 Ãá.  öåëîì, òàêîé ïîäõîä ê õðàíåíèþ äàííûõ ïîçâîëèë äîáèòüñÿ ÷ðåçâû÷àéíî âûñîêîé ïðîèçâîäèòåëüíîñòè â ïîèñêå è èçâëå÷åíèè ñòàòåé. Äëÿ îïòèìèçàöèè âåñîâûõ ïàðàìåòðîâ ðàçðàáîòàíî îòäåëüíîå ïðèëîæåíèå (ðåàëèçàöèÿ ìåòîäà èìèòàöèè îòæèãà). Âçàèìîäåéñòâèå îïòèìèçàòîðà ñ ïðîãðàì- ìîé ïðîèñõîäèò ïîñðåäñòâîì êîíôèãóðàöèîííûõ ôàéëîâ. Ïðîãðàììà-îïòèìèçàòîð âûäàåò îòâåò â âèäå âåêòîðà âåùåñòâåííûõ ÷èñåë — âåñîâûõ ïàðàìåòðîâ àëãîðèò- ìà, ïðè êîòîðûõ äîñòèãàåòñÿ íàèáîëüøàÿ êîððåëÿöèÿ ñ îáó÷àþùåé âûáîðêîé. Ïðîãðàììà âû÷èñëåíèÿ ñåìàíòè÷åñêîãî ðàññòîÿíèÿ ðàçðàáîòàíà â äâóõ âåð- ñèÿõ: ñ êîíñîëüíûì è ãðàôè÷åñêèì èíòåðôåéñîì. Ãðàôè÷åñêèé èíòåðôåéñ äàåò âîçìîæíîñòü â èíòåðàêòèâíîì ðåæèìå ââîäèòü ïàðû ñëîâ äëÿ îöåíêè ñåìàíòè- ÷åñêîé áëèçîñòè. Òàêîé èíòåðôåéñ áîëåå óäîáåí äëÿ ïîëüçîâàòåëÿ è ïîçâîëÿåò, êðîìå íåïîñðåäñòâåííî îöåíêè, ïðîñìàòðèâàòü ìíîæåñòâî äîïîëíèòåëüíîé èí- ôîðìàöèè: òåêñòû ñòàòåé, ñïèñêè ñòàòåé-êàíäèäàòîâ, âåñà ñëîâ è ò.ä. Êîíñîëü- íûé èíòåðôåéñ ÿâëÿåòñÿ áîëåå ïîäõîäÿùèì äëÿ âûçîâà èç äðóãèõ ïðîãðàìì è êîíòðîëèðóåòñÿ ñ ïîìîùüþ ïàðàìåòðîâ êîìàíäíîé ñòðîêè. Ïëàíèðóåòñÿ òàêæå ðàçðàáîòêà îòäåëüíîé ïîäãðóæàåìîé áèáëèîòåêè äëÿ ëó÷øåé èíòåãðàöèè ñî ñòîðîííèìè ïðèëîæåíèÿìè. Äëÿ òåñòèðîâàíèÿ àëãîðèòìîâ âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñòè ÷àñòî èñïîëüçóåòñÿ íàáîð âçâåøåííûõ ïàð ñëîâ Finkelstein WordSimilarity-353 [15]. Îí ñîäåðæèò 353 ïàðû ñëîâ, êîòîðûå îöåíåíû ýêñïåðòàìè-ëþäüìè. Êàæäàÿ ïàðà îöåíåíà äåéñòâèòåëüíûì ÷èñëîì îò 0 äî 10.  êà÷åñòâå îöåíêè ðàáîòû ïðåäëî- æåííîãî àëãîðèòìà èñïîëüçîâàëñÿ êîýôôèöèåíò ðàíãîâîé êîððåëÿöèè Ñïèðìåíà. Äàëåå ïðèâåäåíû êîýôôèöèåíòû êîððåëÿöèè âû÷èñëåííûõ ïðåäëîæåííûì àëãî- ðèòìîì çíà÷åíèé ñ îöåíêàìè èç Finkelstein WordSimilarity äëÿ òðåõ ðåæèìîâ: • áåç ðàçðåøåíèÿ ñìûñëîâîé íåîäíîçíà÷íîñòè — 0,63; • ñ ÷àñòè÷íûì ðàçðåøåíèåì ñìûñëîâîé íåîäíîçíà÷íîñòè (êàíäèäàòàìè ÿâ- ëÿþòñÿ ñòàòüè ñ íàçâàíèåì âèäà <ñëîâî> (<óòî÷íåíèå>)) — 0,68; • ñ ïîëíûì ðàçðåøåíèåì ñìûñëîâîé íåîäíîçíà÷íîñòè (êàíäèäàòû ïîëó÷å- íû èç ñòàòåé-ñïèñêîâ íåîäíîçíà÷íîñòåé; êàê ïðàâèëî, ýòî ñòàòüè ñ íàçâà- íèåì <ñëîâî> (disambiguation) ) — 0,74. Äàííûå çíà÷åíèÿ óêàçûâàþò íà ñóùåñòâåííîå óëó÷øåíèå ðåçóëüòàòîâ ïðè èñïîëüçîâàíèè ðàçðåøåíèÿ ñìûñëîâîé íåîäíîçíà÷íîñòè. Äëÿ ñðàâíåíèÿ ñ íåêî- òîðûìè äðóãèìè ìåòîäàìè ïîñòðîåíà äèàãðàììà (ðèñ. 1), îòðàæàþùàÿ ðåçóëüòà- òû èçìåðåíèé äëÿ ðàçëè÷íûõ àëãîðèòìîâ âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè. Íà äèàãðàììàå ïðèâåäåíû îöåíêè, ïîëó÷åííûå ðàçíûìè ìåòîäàìè: ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 25 • ìåòîä RND, âîçâðàùàþùèé ñëó÷àéíîå çíà÷åíèå äëÿ ïàðû ñëîâ; • ìåòîäû, îñíîâàííûå íà ïîèñêå ïóòè â ãðàôå, à èìåííî ìåòîä êðàò÷àéøåãî ïóòè (PATH), ìåòîä Ëèêîêà–×îäîðîâà (LCH), ìåòîä Âó–Ïàëìåðà (WUP), ìåòîä Ðåçíèêà (RES) [8, 16]; • ìåòîä WLM [9]; • ìåòîä ESA [4, 9]; • ìåòîä EWO. Ïðîãðàììíàÿ ðåàëèçàöèÿ ìå- òîäà EWO ïîêàçûâàåò åãî âûñî- êóþ ïðîèçâîäèòåëüíîñòü: îöåíêà 20–100 ïàð ñëîâ â ñåêóíäó. Ïðèìå- ðû ðåçóëüòàòîâ ðàáîòû ïðîãðàììû âû÷èñëåíèÿ îöåíêè ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñòè ñëîâ íà òåñòî- âîé âûáîðêå ïðèâåäåíû â òàáë. 1. ÇÀÊËÞ×ÅÍÈÅ Â äàííîé ñòàòüå îïèñàí íîâûé ýôôåêòèâíûé ìåòîä âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñ- òè ìåæäó ñëîâàìè åñòåñòâåííîãî ÿçûêà. Ïðåäñòàâëåííûé àëãîðèòì ÿâëÿåòñÿ ìîäèôèêàöèåé èçâåñòíî- ãî ïîäõîäà Ëåñêà. Îí ïîñòðîåí íà îñíîâå ïîçèöèîííîãî ñòðóê- òóðèðîâàíèÿ òåêñòà ñëîâàðíûõ ñòàòåé ãëîññàðèÿ, ïîñëå êîòîðîãî êàæäûé çíà÷èìûé òåðìèí ïîëó÷àåò ïðèîðèòåò- íûé âåñ â çàâèñèìîñòè îò ðàñïîëîæåíèÿ â òîé èëè èíîé ÷àñòè òåêñòà ñòàòüè, ÷òî ïîçâîëÿåò âû÷èñëÿòü ðàçíîóðîâíåâûå ëåêñè÷åñêèå ïåðåñå÷åíèÿ ñ ðàçíûì âåñîì ïðèîðèòåòà. Ïðè ýòîì ó÷èòûâàþòñÿ íþàíñû ëåêñè÷åñêîé ñòðóêòóðû ñòàòåé îïðåäå- ëåíèé ïîíÿòèé, à íå ïðîñòîå ñëîâàðíîå ïåðåñå÷åíèå äâóõ òåêñòîâ.  êà÷åñòâå èñ- òî÷íèêà äàííûõ äëÿ âû÷èñëåíèé èñïîëüçóåòñÿ èíòåðíåò-ýíöèêëîïåäèÿ Wikipedia. Äëÿ îïðåäåëåíèÿ âåñîâûõ ïàðàìåòðîâ ïðèìåíÿåòñÿ ìåòîä èìèòàöèè îòæèãà. 26 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 Ðèñ. 1 Ïàðà ñëîâ Îöåíêà ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñòè ñëîâ ñëîâî 1 ñëîâî 2 ýêñïåðò àëãîðèòì ñar automobile 8.94 9.99 magician wizard 9.02 6.93 glass magician 2.08 1.1 money currency 9.04 5.67 noon string 0.54 0.82 FBI fingerprint 6.94 4.05 tiger cat 7.35 4.13 tiger tiger 10 10 book paper 7.46 4.44 computer keyboard 7.62 4.38 computer internet 7.58 4.04 physics chemistry 7.35 4.28 drink ear 1.31 1.13 Ò à á ë è ö à 1 Îïèñàííûé ìåòîä ïîêàçàë âûñîêîé óðîâåíü êîððåëÿöèè ñ òåñòîâûìè äàííûìè. Òàêèì îáðàçîì, ïðåäëîæåííûé àëãîðèòì äåìîíñòðèðóåò ðåçóëüòàòû íà óðîâíå ëó÷- øèõ ñîâðåìåííûõ ìåòîäîâ, ïðè ýòîì ÿâëÿÿñü ïðîçðà÷íûì è èíòóèòèâíûì. Ðàçðàáî- òàíà ïðîãðàììíàÿ ðåàëèçàöèÿ ìåòîäà, âûñîêàÿ ñêîðîñòü ðàáîòû êîòîðîé ïîçâîëÿåò èñïîëüçîâàòü åå ïðè ðåøåíèè ðàçíîîáðàçíûõ çàäà÷ êîìïüþòåðíîé ëèíãâèñòèêè. Âîçìîæíî íåñêîëüêî ïóòåé óëó÷øåíèÿ êà÷åñòâà îöåíêè: • äîáàâëåíèå íîâûõ ôàêòîðîâ â âåñîâóþ ìîäåëü; • èíòåãðàöèÿ ñ äðóãèìè òåõíèêàìè âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè äëÿ ïîñòðîåíèÿ êîìïëåêñíîé îöåíêè. Ïðîèçâîäèòåëüíîñòü ìîæåò áûòü ïîâûøåíà, íàïðèìåð, ðàçðàáîòêîé ïàðàë- ëåëüíîé âåðñèè ïðîãðàììû. Ýòî ïîçâîëèò èñïîëüçîâàòü ñîâðåìåííûå ìíîãîïðî- öåññîðíûå è ìíîãîÿäåðíûå âû÷èñëèòåëüíûå ñèñòåìû. Äàííàÿ ïðîãðàììà âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñòè ìåæäó ñëî- âàìè åñòåñòâåííîãî ÿçûêà ðàçðàáîòàíà â ðàìêàõ êîìïëåêñà ìíîãîöåëåâûõ ïðèêëàä- íûõ ñèñòåì ñåìàíòè÷åñêîãî àíàëèçà è ñìûñëîâîé îáðàáîòêè òåêñòîâûõ äîêóìåíòîâ. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. L e s k M . Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone // SIGDOC’86: Proc. of the 5th Annu. Intern. Conf. on Syst. document. — New York: ACM, 1986. — P. 24–26. 2. W u b b e n S . Using free link structure to calculate semantic relatedness: (Rep.) / ILK Res. Group Techn. — N 08-01. — Tilburq: Tilburq Univ., 2008. 3. P o n z e t t o S . P . , S t r u b e M . Knowledge deriver from Wikipedia for computing semantic re- latedness // Artif. Intell. Res. — 2007. — N 30. — P. 181–212. 4. G a b r i l o v i c h E . , M a r k o v i t c h S . Computing semantic relatedness using Wikipedia-based explicit semantic analysis // Proc. of the 20th Intern. Joint Conf. on Artif. Intell., Hyderabad (India), 2007. — San Francisco: Morgan Kauffman Publ., 2007. — P. 1606–1611. 5. R e s n i k P . Using information content to evaluate semantic similarity in a taxonomy // Proc. of In- tern. Joint Conf. on Artif. Intell., Montreal, 1995. — San Francisco: Morgan Kauffman Publ., 1995. — P. 448–453. 6. L e a c o c k C . , C h o d o r o w M . , a n d M i l l e r G . A . Using corpus statistics and wordnet re- lations for sense identification // Comput. Ling. — 1998. — 24, N 1. — P. 147–165. 7. W u Z . , P a l m e r M . Verb semantics and lexical selection // 32nd. Annu. Meet. of the Assoc. for Comput. Ling., Las Cruces (USA), 1994. — San Francisco: Morgan Kauffman Publ., 1994.— P. 133–138. 8. S t r u b e M . , P o n z e t t o S . P . WikiRelate! Computing semantic relatedness using Wikipedia // Proc. of the 21st Nat. Conf. on Artif. Intell., Boston, 2006. — Berlin: Springer, 2004. — P. 1419–1424. 9. M i l n e D . , W i t t e n I . H . An effective, low-cost measure of semantic relatedness obtained from Wikipedia links // Proc. of the first AAAI Workshop on Wikipedia and Artif. Intell. (CIKM’2008), Chicago, 2008. — Menlo Park (USA): AAAI Press, 2008. 10. W i k i W a l k : Random walks on Wikipedia for semantic relatedness / E. Yeh, D. Ramage, C.D. Manning, et al. // ACL-IJCNLP TextGraphs-4 Workshop 2009. — Singapore, 2009. 11. K i r k p a t r i c k S . , G e l a t t C . D . , V e c c h i M . P . Optimization by simulated annealing // Science. New Ser. — 1983. — N 220. — P. 671–680. 12. L u k e S . Essentials of metaheuristics. — 2009. — http://cs.gmu.edu/!sean/book/metaheuristics/. 13. O d e r s k y M . Scala by example / Progr. meth. lab., EPFL. — Lausanne, 2009. — 145 p. 14. O d e r s k y M . , S p o o n L . , V e n n e r s B . Programming in Scala. — Montain View: Artima Press, 2008. — 754 p. 15. P l a c i n g search in context: The concept revisited / L. Finkelstein, E. Gabrilovich, Y. Matias, et al. // ACM Trans. Inform. Systems. — 2002. — 20, N 1. — P. 116–131. 16. P e d e r s e n T . , P a t h w a r d h a n S . , M i c h e l i z z i J . Wordnet::Similarity — Measuring the relatedness of concepts // Proc. of the 19th Nat. Conf. on Artif. Intell., San Jose (USA), 2004. — Berlin: Springer, 2004. — P. 1024–1025. Ïîñòóïèëà 10.03.2011 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 27
id nasplib_isofts_kiev_ua-123456789-84214
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0023-1274
language Russian
last_indexed 2025-12-07T18:55:21Z
publishDate 2011
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Анисимов, А.В.
Марченко, А.А.
Кисенко, В.К.
2015-07-03T18:40:36Z
2015-07-03T18:40:36Z
2011
Метод вычисления семантической близости-связности между словами естественного языка / А.В. Анисимов, А.А. Марченко, В.К. Кисенко // Кибернетика и системный анализ. — 2011. — Т. 47, № 4. — С. 18-27. — Бібліогр.: 16 назв. — рос.
0023-1274
https://nasplib.isofts.kiev.ua/handle/123456789/84214
681.3
Розглянуто методи обчислення семантичної близькості-зв’язності слів природної мови. Поняття семантичної близькості дозволяє будувати алгоритмічні моделі контекстно-лінгвістичного аналізу для вирішення таких задач: розв’язання смислових неоднозначностей, розпізнавання центральних сутнос-тей тексту, аналіз природномовних текстів. Запропоновано новий алгоритм оцінки семантичної відстані для слів природної мови, який є зваженою модифікацією відомого підходу Леска, засновано-го на побудові лексичного перетину словникових статей.
The paper develops methods to calculate the semantic relatedness of natural language words. The concept of semantic relatedness allows constructing algorithmic models for the context-linguistic analysis to solve problems such as word sense disambiguation, named entity recognition, natural language text analysis, etc. The study proposes a new algorithm to estimate the semantic distance between natural language words. This method is a weighted modification of Lesk’s famous approach, which is based on lexical overlap of glossary entries.
ru
Інститут кібернетики ім. В.М. Глушкова НАН України
Кибернетика и системный анализ
Кибернетика
Метод вычисления семантической близости-связности между словами естественного языка
Метод обчислення семантичної близькості-зв’язності між словами природної мови
Method for estimation of semantic relatedness of natural language words
Article
published earlier
spellingShingle Метод вычисления семантической близости-связности между словами естественного языка
Анисимов, А.В.
Марченко, А.А.
Кисенко, В.К.
Кибернетика
title Метод вычисления семантической близости-связности между словами естественного языка
title_alt Метод обчислення семантичної близькості-зв’язності між словами природної мови
Method for estimation of semantic relatedness of natural language words
title_full Метод вычисления семантической близости-связности между словами естественного языка
title_fullStr Метод вычисления семантической близости-связности между словами естественного языка
title_full_unstemmed Метод вычисления семантической близости-связности между словами естественного языка
title_short Метод вычисления семантической близости-связности между словами естественного языка
title_sort метод вычисления семантической близости-связности между словами естественного языка
topic Кибернетика
topic_facet Кибернетика
url https://nasplib.isofts.kiev.ua/handle/123456789/84214
work_keys_str_mv AT anisimovav metodvyčisleniâsemantičeskoiblizostisvâznostimežduslovamiestestvennogoâzyka
AT marčenkoaa metodvyčisleniâsemantičeskoiblizostisvâznostimežduslovamiestestvennogoâzyka
AT kisenkovk metodvyčisleniâsemantičeskoiblizostisvâznostimežduslovamiestestvennogoâzyka
AT anisimovav metodobčislennâsemantičnoíblizʹkostízvâznostímížslovamiprirodnoímovi
AT marčenkoaa metodobčislennâsemantičnoíblizʹkostízvâznostímížslovamiprirodnoímovi
AT kisenkovk metodobčislennâsemantičnoíblizʹkostízvâznostímížslovamiprirodnoímovi
AT anisimovav methodforestimationofsemanticrelatednessofnaturallanguagewords
AT marčenkoaa methodforestimationofsemanticrelatednessofnaturallanguagewords
AT kisenkovk methodforestimationofsemanticrelatednessofnaturallanguagewords