Метод вычисления семантической близости-связности между словами естественного языка
Розглянуто методи обчислення семантичної близькості-зв’язності слів природної мови. Поняття семантичної близькості дозволяє будувати алгоритмічні моделі контекстно-лінгвістичного аналізу для вирішення таких задач: розв’язання смислових неоднозначностей, розпізнавання центральних сутнос-тей тексту, а...
Збережено в:
| Опубліковано в: : | Кибернетика и системный анализ |
|---|---|
| Дата: | 2011 |
| Автори: | , , |
| Формат: | Стаття |
| Мова: | Російська |
| Опубліковано: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2011
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/84214 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Метод вычисления семантической близости-связности между словами естественного языка / А.В. Анисимов, А.А. Марченко, В.К. Кисенко // Кибернетика и системный анализ. — 2011. — Т. 47, № 4. — С. 18-27. — Бібліогр.: 16 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860260818125324288 |
|---|---|
| author | Анисимов, А.В. Марченко, А.А. Кисенко, В.К. |
| author_facet | Анисимов, А.В. Марченко, А.А. Кисенко, В.К. |
| citation_txt | Метод вычисления семантической близости-связности между словами естественного языка / А.В. Анисимов, А.А. Марченко, В.К. Кисенко // Кибернетика и системный анализ. — 2011. — Т. 47, № 4. — С. 18-27. — Бібліогр.: 16 назв. — рос. |
| collection | DSpace DC |
| container_title | Кибернетика и системный анализ |
| description | Розглянуто методи обчислення семантичної близькості-зв’язності слів природної мови. Поняття семантичної близькості дозволяє будувати алгоритмічні моделі контекстно-лінгвістичного аналізу для вирішення таких задач: розв’язання смислових неоднозначностей, розпізнавання центральних сутнос-тей тексту, аналіз природномовних текстів. Запропоновано новий алгоритм оцінки семантичної відстані для слів природної мови, який є зваженою модифікацією відомого підходу Леска, засновано-го на побудові лексичного перетину словникових статей.
The paper develops methods to calculate the semantic relatedness of natural language words. The concept of semantic relatedness allows constructing algorithmic models for the context-linguistic analysis to solve problems such as word sense disambiguation, named entity recognition, natural language text analysis, etc. The study proposes a new algorithm to estimate the semantic distance between natural language words. This method is a weighted modification of Lesk’s famous approach, which is based on lexical overlap of glossary entries.
|
| first_indexed | 2025-12-07T18:55:21Z |
| format | Article |
| fulltext |
ÓÄÊ 681.3
À.Â. ÀÍÈÑÈÌÎÂ, À.À. ÌÀÐ×ÅÍÊÎ, Â.Ê. ÊÈÑÅÍÊÎ
ÌÅÒÎÄ ÂÛ×ÈÑËÅÍÈß ÑÅÌÀÍÒÈ×ÅÑÊÎÉ ÁËÈÇÎÑÒÈ-ÑÂßÇÍÎÑÒÈ
ÌÅÆÄÓ ÑËÎÂÀÌÈ ÅÑÒÅÑÒÂÅÍÍÎÃÎ ßÇÛÊÀ
Êëþ÷åâûå ñëîâà: êîìïüþòåðíàÿ ëèíãâèñòèêà, ñåìàíòè÷åñêèé àíàëèç òåêñòîâ
íà åñòåñòâåííîì ÿçûêå, ñåìàíòè÷åñêàÿ áëèçîñòü-ñâÿçíîñòü ñëîâ, ñìûñëîâàÿ
íåîäíîçíà÷íîñòü ñëîâ.
ÂÂÅÄÅÍÈÅ
Êëþ÷åâûì ýëåìåíòîì â ìàøèííîì ìîäåëèðîâàíèè åñòåñòâåííî-ÿçûêîâûõ ïðîöåñ-
ñîâ ÿâëÿåòñÿ âîçìîæíîñòü îïðåäåëÿòü ñåìàíòè÷åñêóþ áëèçîñòü — ñìûñëîâîå ðàñ-
ñòîÿíèå ìåæäó ïîíÿòèÿìè, êîòîðîå ÷àñòî çàäàåòñÿ íà ãðàôå ïîíÿòèé-êîíöåïòîâ
îíòîëîãè÷åñêîé áàçû çíàíèé. Âû÷èñëåíèå ñåìàíòè÷åñêîãî ðàññòîÿíèÿ øèðîêî èñ-
ïîëüçóåòñÿ âî ìíîãèõ çàäà÷àõ âû÷èñëèòåëüíîé ëèíãâèñòèêè, òàêèõ êàê: àâòîìàòè-
÷åñêîå ðåôåðèðîâàíèå è àííîòèðîâàíèå òåêñòîâ, ðàçðåøåíèå ñìûñëîâûõ íåîäíîç-
íà÷íîñòåé, àíàëèç àíàôîð, èíäåêñèðîâàíèå è ïîèñê, ìàøèííûé ïåðåâîä.
 åñòåñòâåííîì ÿçûêå ñóùåñòâóåò ðÿä êëàññè÷åñêèõ ïðîáëåì, ïðåäñòàâëÿþ-
ùèõ çíà÷èòåëüíóþ ñëîæíîñòü äëÿ áîëüøèíñòâà çàäà÷ êîìïüþòåðíîé ëèíãâèñòèêè,
à èìåííî: ïîëèñåìèÿ, îìîíèìèÿ, àíàôîðè÷åñêèå ññûëêè, ìåñòîèìåíèÿ è äðóãèå
ÿçûêîâûå ôåíîìåíû, êîìïüþòåðíàÿ îáðàáîòêà êîòîðûõ íåâîçìîæíà áåç ñåìàíòè-
÷åñêîãî àíàëèçà è ñìûñëîâîé èíòåðïðåòàöèè òåêñòà. Ñóòü ïðîáëåì ïîëèñåìèè è
îìîíèìèè â òîì, ÷òî îäíè è òå æå ñëîâà îçíà÷àþò ìíîæåñòâà ðàçëè÷íûõ ïîíÿòèé
(íàïðèìåð, àíãëèéñêîå ñëîâî bank èìååò ðàçíûå ñåìàíòè÷åñêèå çíà÷åíèÿ: ôèíàíñî-
âîå ó÷ðåæäåíèå è áåðåã ðåêè). Êîíòåêñò, â êîòîðîì íàõîäèòñÿ äàííîå ñëîâî, ïîäñêà-
çûâàåò, â êàêîì çíà÷åíèè îíî óïîòðåáëåíî. Äëÿ òîãî ÷òîáû ó÷åñòü âëèÿíèå êîíòåê-
ñòà è îïðåäåëèòü ðåàëüíîå çíà÷åíèå íåêîòîðîãî ñëîâà, êîìïüþòåðíîé ñèñòåìå íåîá-
õîäèìî äëÿ êàæäîãî çíà÷åíèÿ ýòîãî ñëîâà íàéòè îöåíêó ñåìàíòè÷åñêîé áëèçîñòè ïî
îòíîøåíèþ ê çíà÷åíèÿì ñëîâ, ðàñïîëîæåííûõ ðÿäîì ñ íèì â òåêñòå. Ýòî ðåøàåòñÿ
ïðèìåíåíèåì ôóíêöèè âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè è ñâÿçíîñòè ïîíÿòèé.
Ïðîáëåìà àíàôîð â êîìïüþòåðíîé ëèíãâèñòèêå çàêëþ÷àåòñÿ â òîì, ÷òî îäíà
è òà æå ñóùíîñòü â òåêñòå óïîìèíàåòñÿ ñ èñïîëüçîâàíèåì ðàçíûõ ñëîâ-íàçâàíèé;
÷àñòíûé ñëó÷àé àíàôîðû — ìåñòîèìåíèÿ. Äëÿ êàæäîãî ìåñòîèìåíèÿ ìîæåò ñó-
ùåñòâîâàòü öåëûé íàáîð êàíäèäàòîâ íà çàìåíó (àíòåöåäåíòîâ) — ãðóïïû ñóùåñ-
òâèòåëüíûõ, ðàñïîëîæåííûå âûøå ïî òåêñòó, íà êîòîðûå ìîæåò óêàçûâàòü äàí-
íîå ìåñòîèìåíèå. Îïðåäåëèòü, êàêîé èç êàíäèäàòîâ — ïðàâèëüíûé àíòåöåäåíò,
ìîæíî, ïîäñòàâèâ êàæäîãî èç íèõ âìåñòî ìåñòîèìåíèÿ (àíàôîðû) è âû÷èñëèâ,
íàñêîëüêî êîíòåêñò êàíäèäàòà íà çàìåíó ñîîòâåòñòâóåò êîíòåêñòó ìåñòîèìåíèÿ
(àíàôîðû). Òàêîå ñîîòâåòñòâèå òàêæå íàõîäèòñÿ ñ ïîìîùüþ ôóíêöèè
âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè è ñâÿçíîñòè ïîíÿòèé.
Îòíîøåíèå ñåìàíòè÷åñêîé áëèçîñòè óêàçûâàåò íå òîëüêî íà îòíîøåíèå ñè-
íîíèìèè — ïîíÿòèÿ ìîãóò áûòü áëèçêè ïî ñìûñëó, íî íå òîæäåñòâåííû. Íàëè-
÷èå ìíîæåñòâà äðóãèõ îòíîøåíèé îáóñëîâëèâàåò óòî÷íåíèå ñåìàíòè÷åñêîé ñâÿç-
íîñòè: äâèãàòåëü è àâòîìîáèëü ñâÿçàíû îòíîøåíèåì ÷àñòü–öåëîå, õîëîäíîå è ãî-
ðÿ÷åå — àíòîíèìû.  òî æå âðåìÿ ìåæäó ìíîãèìè ñëîâàìè ñëîæíî óñòàíîâèòü
ïðÿìîå îòíîøåíèå (íàïðèìåð, çèìà è ìåòåëü), íî, íåñìîòðÿ íà ýòî, ìåæäó íèìè
âèäíà ÿâíàÿ ñåìàíòè÷åñêàÿ ñâÿçü.
18 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4
© À.Â. Àíèñèìîâ, À.À. Ìàð÷åíêî, Â.Ê. Êèñåíêî, 2011
Îòíîøåíèÿ ñåìàíòè÷åñêîãî áëèçîñòè è ñåìàíòè÷åñêîé ñâÿçíîñòè ðàçëè÷àþò-
ñÿ. Åñëè ëîäêà è êàòåð — ñåìàíòè÷åñêè áëèçêèå êîíöåïòû, òî äâèãàòåëü è òîï-
ëèâî — ñåìàíòè÷åñêè ñâÿçíûå ïîíÿòèÿ, õîòÿ è íå ïîäîáíû ïî ñìûñëó.
Ñåìàíòè÷åñêàÿ áëèçîñòü è ñåìàíòè÷åñêàÿ ñâÿçíîñòü — îòíîøåíèÿ, òðàäèöè-
îííî îïðåäåëÿåìûå íà ñåìàíòè÷åñêîì ãðàôå îíòîëîãè÷åñêîé áàçû çíàíèé. Îïðå-
äåëåíèå íàëè÷èÿ òîãî èëè èíîãî îòíîøåíèÿ ìåæäó ïîíÿòèÿìè ðåàëèçóåòñÿ ïðî-
âåðêîé ñóùåñòâîâàíèÿ â îíòîëîãè÷åñêîé ñåòè ñåìàíòè÷åñêèõ ñâÿçåé ìåæäó óçëà-
ìè, êîòîðûå ñîäåðæàò ñîîòâåòñòâóþùèå ïîíÿòèÿ. ×àñòî òàêàÿ ïðîâåðêà ñâîäèòñÿ
ê çàäà÷å ïîèñêà êðàò÷àéøåãî ïóòè ìåæäó âåðøèíàìè–ïîíÿòèÿìè â ãðàôå áàçû
çíàíèé. Ïîñëå òîãî êàê ïóòü ïîñòðîåí, ñëåäóåò ýòàï åãî àíàëèçà è èíòåðïðåòàöèè,
öåëü êîòîðûõ — îïðåäåëåíèå ñåìàíòè÷åñêîãî çíà÷åíèÿ íàéäåííîãî ïóòè, ò.å.
êàêîé òèï ñåìàíòè÷åñêîé ñâÿçè ñóùåñòâóåò ìåæäó äàííûìè ïîíÿòèÿìè è êàêîâà
ãëóáèíà ýòîé ñâÿçè.
Ñóùåñòâóåò òàêæå äðóãîé ïîäõîä ê îïðåäåëåíèþ îöåíêè ñåìàíòè÷åñêîé
áëèçîñòè-ñâÿçíîñòè ïîíÿòèé, ïðåäëîæåííûé â [1]. Ìåòîäû ýòîãî íàïðàâëåíèÿ
âû÷èñëÿþò ïåðåñå÷åíèå ëåêñè÷åñêîãî ñîñòàâà ñòàòåé-îïðåäåëåíèé äëÿ äâóõ
âõîäíûõ ïîíÿòèé, è ÷åì áîëüøå ñëîâ ïîïàäàþò â ïåðåñå÷åíèå, òåì áîëåå ñâÿçàí-
íûìè ñ÷èòàþòñÿ ýòè ïîíÿòèÿ.
 äàííîé ñòàòüå ïðåäëîæåí íîâûé ìåòîä îïðåäåëåíèÿ ñåìàíòè÷åñêîé ñâÿç-
íîñòè ïîíÿòèé. Ïðåäïîëàãàåòñÿ, ÷òî öåëåñîîáðàçíåå âû÷èñëÿòü è ðàññìàòðèâàòü
íå ïðîñòîå ïåðåñå÷åíèå ìíîæåñòâ ëåêñåì äâóõ ñòàòåé íåêîòîðîãî òåçàóðóñà, äàþ-
ùèõ îïðåäåëåíèå äëÿ äâóõ âõîäíûõ ïîíÿòèé, à ó÷èòûâàòü òàêæå ïîçèöèþ êàæäî-
ãî ñëîâà âíóòðè ñòàòüè-îïðåäåëåíèÿ ïîíÿòèÿ. Äëÿ ýòîãî íåîáõîäèìî ñòðóêòóðè-
ðîâàòü ñòàòüþ òåçàóðóñà ðàçáèåíèåì íà çîíû ðàçëè÷íîé ñòåïåíè ïðèîðèòåòà, íà-
ïðèìåð, «íàçâàíèå», «îïðåäåëåíèå», «ññûëêè íà äðóãèå òåðìèíû»,
«îïèñàòåëüíàÿ ÷àñòü».  çàâèñèìîñòè îò òîãî, êóäà ïîïàëî òî èëè èíîå çíà÷àùåå
ñëîâî, åìó ïðèñâàèâàåòñÿ îïðåäåëåííûé ïðèîðèòåòíûé âåñ. Òàêèì îáðàçîì, ðàñ-
ñìàòðèâàåòñÿ íå ïðîñòîå ìíîæåñòâî ëåêñåì òåêñòà îïðåäåëåíèÿ ïîíÿòèÿ, à ìíî-
æåñòâî ïîäìíîæåñòâ òåðìèíîâ, ãäå êàæäîå ïîäìíîæåñòâî èìååò ñâîé âåñ. Ïðåä-
ëàãàåòñÿ âû÷èñëÿòü è àíàëèçèðîâàòü íå ïåðåñå÷åíèå äâóõ ëåêñè÷åñêèõ ìíîæåñòâ
òåêñòîâ îïðåäåëåíèé âõîäíûõ ïîíÿòèé, à ïåðåñå÷åíèå ñòðóêòóðèðîâàííûõ «ìíî-
ãîóðîâíåâûõ» ìíîæåñòâ. Ýòî ïîçâîëÿåò ïðîñìîòðåòü âñå âàðèàíòû ïîïàðíûõ ïå-
ðåñå÷åíèé ïîäìíîæåñòâ èç ïåðâîãî è âòîðîãî ìíîæåñòâà è ó÷åñòü òîíêèå íþàíñû
ëåêñè÷åñêîé ñòðóêòóðíîé îðãàíèçàöèè òåêñòîâ: íàïðèìåð, ñêîëüêî îáùèõ ñëîâ
â íàçâàíèÿõ ïåðâîãî è âòîðîãî ïîíÿòèÿ (òàêîå ïðåñå÷åíèå èìååò íàèâûñøèé âåñ
ïðèîðèòåòà), ñêîëüêî îáùèõ ñëîâ â îïðåäåëåíèè ïåðâîãî ïîíÿòèÿ è â íàçâàíèè
âòîðîãî (î÷åâèäíî, âåñ äîëæåí áûòü ìåíüøå ïðåäûäóùåãî), ñêîëüêî îáùèõ ñëîâ
â îïðåäåëåíèè ïåðâîãî ïîíÿòèÿ è îïèñàòåëüíîé ÷àñòè ñòàòüè âòîðîãî (âåñ
ïîíèæàåòñÿ åùå áîëüøå) è ò.ä. Àíàëèçèðóÿ âñå âîçìîæíûå âàðèàíòû ìíîãîóðîâ-
íåâûõ ïåðåñå÷åíèé è ïîäáèðàÿ îïòèìàëüíûé âåñ äëÿ êàæäîãî âàðèàíòà, ìîæíî
ïîñòðîèòü êà÷åñòâåííî íîâóþ ýôôåêòèâíóþ îöåíêó ñåìàíòè÷åñêîé áëèçîñòè-
ñâÿçíîñòè ñëîâ åñòåñòâåííîãî ÿçûêà.
ÑÎÂÐÅÌÅÍÍÛÅ ÌÅÒÎÄÛ ÂÛ×ÈÑËÅÍÈß ÑÅÌÀÍÒÈ×ÅÑÊÎÉ ÁËÈÇÎÑÒÈ
Ðàññìîòðèì ðàíåå ñîçäàííûå ìåòîäû âû÷èñëåíèÿ ñåìàíòè÷åñêîãî ðàññòîÿíèÿ. Ñ íà-
÷àëà 80-õ ãîäîâ ïðîøëîãî ñòîëåòèÿ ðàçðàáîòàíî íåñêîëüêî ýâðèñòè÷åñêèõ ìåòîäîâ.
Î÷åíü âàæíûì ÿâëÿåòñÿ âûáîð èñòî÷íèêà äàííûõ — îñíîâû äëÿ âû÷èñëåíèÿ
ñåìàíòè÷åñêîé áëèçîñòè.  èññëåäîâàíèÿõ ÷àùå âñåãî èñïîëüçóþòñÿ ëèíãâèñòè-
÷åñêèå áàçû çíàíèé WordNet, ConceptNet; çàäåéñòâîâàíû òàêæå Wikipedia, ïîèñê
Google. Íàèáîëåå çíà÷èòåëüíûå ðåçóëüòàòû äîñòèãíóòû ïðè èñïîëüçîâàíèè
WordNet è Wikipedia [2–4].
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 19
Îäèí êëàññ ìåòîäîâ áàçèðóåòñÿ íà âû÷èñëåíèè ðàññòîÿíèÿ �( , )c c1 2 ìåæäó
äâóìÿ êîíöåïòàìè (óçëàìè) c c1 2, â íåêîòîðîé òàêñîíîìèè (WordNet, äåðåâî êà-
òåãîðèé Wikipedia). Òàê, íàïðèìåð, ìîæåò áûòü èñïîëüçîâàí êðàò÷àéøèé ïóòü
ìåæäó äâóìÿ ñîîòâåòñòâóþùèìè âåðøèíàìè â äàííîé òàêñîíîìèè. Îäíà èç
ïåðâûõ òàêèõ ìåòðèê ïðåäëîæåíà â ðàáîòå [5]:
�( , )c c
N p
1 2 �
1
,
ãäå N p — êîëè÷åñòâî âåðøèí â êðàò÷àéøåì ïóòè, ñâÿçûâàþùåì óçëû c c1 2, .
Îòìå÷åíî, ÷òî ìèíóñîì ýòîé ìåòðèêè ÿâëÿåòñÿ íåðàâíîìåðíîñòü ãëóáèí íåêî-
òîðûõ êîíöåïòîâ â òàêñîíîìèè. Â [6] ïðèâåäåíà íîðìàëèçîâàííàÿ âåðñèÿ äàí-
íîãî ìåòîäà, ó÷èòûâàþùàÿ âûñîòó èñïîëüçóåìîé òàêñîíîìèè:
�( , )c c
N
D
p
1 2 � �log
2
,
ãäå D — ìàêñèìàëüíàÿ ãëóáèíà äåðåâà òàêñîíîìèè.
Åùå îäèí ìåòîä îïèñàí â [7].  ïðåäëîæåííîì àëãîðèòìå ó÷èòûâàåòñÿ
LSO( , )c c1 2 — ãëóáèíà íàèìåíüøåãî îáùåãî ïðåäêà (Lowest Super Ordinate) äâóõ
óçëîâ ãðàôà òàêñîíîìèè, êîòîðûå ñîîòâåòñòâóþò êîíöåïòàì c c1 2, :
�( , )
( ( , ))
( ) ( )
c c
c c
c c
1 2 � �
�
log
depth LSO
depth depth
1 2
1 2
,
ãäå depth( )x — ðàññòîÿíèå îò êîðíÿ òàêñîíîìèè äî óçëà x.
 ðàáîòå [8] âïåðâûå èñïîëüçîâàíà Wikipedia äëÿ âû÷èñëåíèÿ ñåìàíòè÷åñêî-
ãî ðàññòîÿíèÿ. Ìåòîä WikiRelate! ïðèìåíÿåò îïèñàííûå âûøå ìåòðèêè íà äåðåâå
êàòåãîðèé Wikipedia.
Äðóãîé êëàññ àëãîðèòìîâ ðàçðàáîòàí Ì. Ëåñêîì [1]. Îí ïîñòðîèë àëãîðèòì,
îñíîâàííûé íà èäåå îïðåäåëåíèÿ áëèçêèõ ïîíÿòèé ñ ïîìîùüþ ñõîæåãî íàáîðà
ñëîâ.  êà÷åñòâå ñåìàíòè÷åñêîãî ðàññòîÿíèÿ ìåæäó ïîíÿòèÿìè èñïîëüçîâàíî îò-
íîøåíèå êîëè÷åñòâà îäèíàêîâûõ ñëîâ â îïðåäåëåíèÿõ ïîíÿòèé ê îáùåìó êîëè-
÷åñòâó ñëîâ â äâóõ îïðåäåëåíèÿõ.
Íà ïðîòÿæåíèè ïîñëåäíèõ ïÿòè ëåò ðàçðàáîòàíî íåñêîëüêî ìåòîäîâ, îñíîâàí-
íûõ íà èñïîëüçîâàíèè Wikipedia, êîòîðûå îáëàäàþò íåäîñòèæèìîé ðàíåå òî÷íîñ-
òüþ.  [9] ïðåäëîæåí ìåòîä âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè Wikipedia
Link-based Measure (WLM), îñíîâàííûé íà èñïîëüçîâàíèè ññûëîê ìåæäó ñòðàíè-
öàìè. Ãëàâíîé åãî èäååé ÿâëÿåòñÿ ïðåäïîëîæåíèå î òîì, ÷òî ïîíÿòèå (â äàííîì
ñëó÷àå ïðåäñòàâëåííîå ñòàòüåé Wikipedia) äîñòàòî÷íî òî÷íî îïèñûâàåòñÿ ñ ïî-
ìîùüþ âõîäÿùèõ è èñõîäÿùèõ ññûëîê. Êàæäàÿ ññûëêà èìååò ñâîé âåñ, îïðåäåëÿå-
ìûé ÷àñòîòîé åå ïîÿâëåíèÿ ñðåäè âñåõ ñòðàíèö ýíöèêëîïåäèè. Òàêèì îáðàçîì,
êàæäîé ñòàòüå ñîîòâåòñòâóåò âåêòîð ñî ññûëêàìè. Âåñ ññûëêè âû÷èñëÿåòñÿ ñ ïðè-
ìåíåíèåì èçâåñòíîé ôîðìóëû TD-IDF. Ðàññòîÿíèå ìåæäó ñòàòüÿìè íàõîäèòñÿ
ñ ïîìîùüþ êîñèíóñíîãî ðàññòîÿíèÿ ìåæäó âåêòîðàìè âåñîâ ñòàòåé.
Îäèí èç íàèáîëåå ýôôåêòèâíûõ ìåòîäîâ — Explicit Semantic Analysis
(ESA) — îïèñàí â [4]. Ïî ñðàâíåíèþ ñ ðàíåå èçâåñòíûì àëãîðèòìîì Latent
Semantic Analysis (LSA), â êîòîðîì îïðåäåëÿþòñÿ íåÿâíûå ñâÿçè ìåæäó òåêñòàìè
ñòàòåé, â äàííîì ìåòîäå ïîíÿòèå ïðåäñòàâëÿåòñÿ â ÿâíîì âèäå ñ ïîìîùüþ âçâå-
øåííîé ñóìû òåðìèíîâ, ïîëó÷åííûõ èç Wikipedia. Çàäàííîå ïîíÿòèå ïðîåêòèðóåòñÿ
â ïðîñòðàíñòâî âåêòîðîâ-ñòàòåé Wikipedia. Òàêèì îáðàçîì, ñåìàíòè÷åñêàÿ áëèçîñòü
îïðåäåëÿåòñÿ êàê êîñèíóñíîå ðàññòîÿíèå ìåæäó âåêòîðàìè, ñïðîåêòèðîâàííûìè
â ïðîñòðàíñòâî ñòàòåé Wikipedia.
20 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4
 ðàáîòå 10] ïðåäñòàâëåí ìåòîä WikiWalk, ïðèìåíÿþùèé òåõíèêó ñëó÷àé-
íûõ áëóæäàíèé íà ãðàôå. Ðàññìàòðèâàåòñÿ äâà òèïà ãðàôîâ: ïîñòðîåííûå ñ ïî-
ìîùüþ WordNet è Wikipedia. Ýòîò ìåòîä èñïîëüçóåò àëãîðèòì Personalized
PageRank: íåêàÿ ÷àñòèöà ñëó÷àéíî áëóæäàåò ïî âåðøèíàì ãðàôà (â ñëó÷àå
Wikipedia — ïî ñòàòüÿì) è ïåðåõîäèò íà íîâóþ ñòðàíèöó ñ íåêîé âåðîÿòíîñòüþ.
Òàêèì îáðàçîì, êàæäàÿ âåðøèíà ãðàôà îïðåäåëÿåòñÿ âåêòîðîì âåðîÿòíîñòåé ïå-
ðåõîäîâ íà äðóãèå ñòðàíèöû (âåêòîðîì òåëåïîðòàöèé). Òàêîé âåêòîð îêàçûâàåòñÿ
óíèêàëüíîé õàðàêòåðèñòèêîé ñòðàíèöû Wikipedia (à ñ íåé è îïèñàííîãî ïîíÿ-
òèÿ). Ñåìàíòè÷åñêàÿ áëèçîñòü âû÷èñëÿåòñÿ êàê ðàññòîÿíèå ìåæäó âåêòîðàìè
òåëåïîðòàöèé ñîîòâåòñòâóþùèõ ñòðàíèö.
ÌÅÒÎÄ ÂÛ×ÈÑËÅÍÈß ÑÅÌÀÍÒÈ×ÅÑÊÎÉ ÁËÈÇÎÑÒÈ-ÑÂßÇÍÎÑÒÈ
Èñòî÷íèêîì äàííûõ, êîòîðûé èñïîëüçóåòñÿ â íàñòîÿùåé ðàáîòå, ñëóæèò ñâî-
áîäíàÿ èíòåðíåò-ýíöèêëîïåäèÿ Wikipedia. Â äàííûé ìîìåíò àíãëèéñêàÿ âåðñèÿ
Wikipedia ñîäåðæèò áîëåå 3,5 ìèëëèîíîâ ñëîâàðíûõ ñòàòåé, ðóññêàÿ — áîëåå
600 òûñÿ÷, óêðàèíñêàÿ — áîëåå 250 òûñÿ÷. Òàêîå áîëüøîå êîëè÷åñòâî ñòàòåé
îáåñïå÷èâàåòñÿ «ñâîáîäíîñòüþ» ïðîåêòà. Êàæäûé ïîëüçîâàòåëü ìîæåò ñîçäà-
âàòü, èñïðàâëÿòü è äîïîëíÿòü ñòàòüè. Áëàãîäàðÿ ìîäåðàöèè ýòî íå âåäåò ê ñíè-
æåíèþ êà÷åñòâà òåêñòîâ ñòàòåé, ïðàêòè÷åñêè êàæäîå èçìåíåíèå ïðîâåðÿåòñÿ
îäíèì èëè ãðóïïîé ïîëüçîâàòåëåé, êîòîðûå ðàíåå òåì èëè èíûì îáðàçîì äî-
êàçàëè ñâîþ êîìïåòåíòíîñòü. Î÷åíü âàæíûì ôàêòîðîì òàêæå ÿâëÿåòñÿ âîç-
ìîæíîñòü çàãðóçêè ïîëíîé ëîêàëüíîé êîïèè Wikipedia. Îäíàêî ýòà ýíöèêëîïå-
äèÿ èìååò îïðåäåëåííûå íåäîñòàòêè. Íåêîòîðûå ñòàòüè íå ïîëíîñòüþ îáúåê-
òèâíû: íàïðèìåð, àâòîð ìîæåò âíåñòè ñâîå ëè÷íîå ìíåíèå ïî ïîâîäó òîãî èëè
èíîãî âîïðîñà. Åùå îäèí ìèíóñ — íåäîñòàòî÷íàÿ ñòðîãîñòü ôîðìàòà îïèñàíèÿ
ñòàòüè, ÷òî î÷åíü óñëîæíÿåò ðàçðàáîòêó ïðîãðàììû-àíàëèçàòîðà òåêñòîâ ýí-
öèêëîïåäèè. Èíòåðíåò-ýíöèêëîïåäèÿ Wikipedia ÿâëÿåòñÿ óíèêàëüíûì è öåí-
íûì, íî íå ôîðìàëèçèðîâàííûì èñòî÷íèêîì äàííûõ.
Ñòðóêòóðà Wikipedia èìååò ðÿä ñâîéñòâ, êîòîðûå ìîæíî èñïîëüçîâàòü ïðè
âû÷èñëåíèè ñåìàíòè÷åñêîé áëèçîñòè. Ýòè ñâîéñòâà ìîãóò ìîäåëèðîâàòü íåêîòî-
ðûå òèïû ëåêñè÷åñêèõ îòíîøåíèé ìåæäó ñëîâàìè.
• Ñèíîíèìèÿ. Îïðåäåëÿåòñÿ ñ ïîìîùüþ ñòðàíèö-ïåðåíàïðàâëåíèé. Êàê
ïðàâèëî, ñîäåðæèìîå òàêèõ ñòàòåé ñîñòîèò èç ñòðîêè «#REDIRECT <èìÿ ñòðàíè-
öû >». Íàïðèìåð, ñòàòüÿ êîò íàïðàâëÿåò íà ñòðàíèöó êîøêà, à ñòàòüÿ àâòî — íà
àâòîìîáèëü.
• Îìîíèìèÿ. Çàäàåòñÿ ñïåöèàëüíûìè ñòðàíèöàìè ñî ñïèñêîì âîçìîæíûõ
çíà÷åíèé äàííîãî ïîíÿòèÿ.  êà÷åñòâå ïðèìåðà ìîæíî ïðèâåñòè ñòðàíèöó íîòà,
êîòîðàÿ ñîäåðæèò ññûëêè íà ðàçëè÷íûå çíà÷åíèÿ ýòîãî ñëîâà, íàïðèìåð: ìóçû-
êàëüíûé çíàê, äèïëîìàòè÷åñêîå îáðàùåíèå, ôèíàíñîâàÿ îáëèãàöèÿ, ìàðêà ìàãíè-
òîôîíîâ, íàçâàíèå ðåêè. Â äàííîé ðàáîòå ñòðàíèöû òàêîãî òèïà èñïîëüçóþòñÿ
äëÿ ðàçðåøåíèÿ ñìûñëîâûõ íåîäíîçíà÷íîñòåé, â ÷àñòíîñòè äëÿ ïîëó÷åíèÿ ñïèñ-
êà âîçìîæíûõ çíà÷åíèé òåðìèíà.
• Ïåðåêðåñòíûå ññûëêè. Ïðåäñòàâëåíû ññûëêàìè íà äðóãèå ñòàòüè
Wikipedia. Íàïðèìåð, ñòàòüÿ âîäà ñîäåðæèò ññûëêè íà ñòàòüè: õèìè÷åñêîå âåùåñ-
òâî, æèäêîñòü, ëåä, ñíåã, ïàð, ðàñòâîðèòåëü, îêåàí, ðåêà, æèçíü, ïîãîäà, êëèìàò
è ò.ä. Òàêèå ññûëêè óêàçûâàþò íà âçàèìîñâÿçü ìåæäó ïîíÿòèÿìè.
Ïðåäëàãàåìûé ìåòîä, íàçîâåì åãî «îöåíî÷íîå âçâåøåííîå ïåðåñå÷åíèå»
(Estimated Weighted Overlap — EWO), ÿâëÿåòñÿ ðàçâèòèåì ðàíåå óïîìÿíóòîãî
ïîäõîäà Ëåñêà. Åãî ìåòîä èñõîäèò èç ïðåäïîëîæåíèÿ, ÷òî áëèçêèå ïîíÿòèÿ îïè-
ñûâàþòñÿ (èëè îïðåäåëÿþòñÿ) ñ èñïîëüçîâàíèåì ïîäîáíîãî íàáîðà ñëîâ, ò.å. êî-
ëè÷åñòâî îáùèõ ñëîâ â ñëîâàðíûõ îïðåäåëåíèÿõ ìîæåò ïîêàçûâàòü, íàñêîëüêî
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 21
ýòè äâà ïîíÿòèÿ áëèçêè ñåìàíòè÷åñêè. Ïðåäëàãàåìîå ôóíêöèîíàëüíî-ñòðóêòóð-
íîå îáîáùåíèå ìåòîäà Ëåñêà îñíîâûâàåòñÿ íà èäåå î òîì, ÷òî â òåêñòå îòðàæåíî
ñìûñëîâîå óïîðÿäî÷åíèå ìåæäó ñëîâàìè. Íåêîòîðûå ñëîâà ÿâëÿþòñÿ áîëåå âàæ-
íûìè, ÷åì äðóãèå, èñõîäÿ èç èõ ïîçèöèè â òåêñòå. Íàïðèìåð, ñëîâî èç íàçâàíèÿ
ñòàòüè (èëè èç îïðåäåëåíèÿ òåðìèíà) îáû÷íî èìååò áîëüøåå çíà÷åíèå, ÷åì ñëîâî
èç êîíöà òåêñòà. Äëÿ ââåäåíèÿ òàêîãî ðàçëè÷èÿ â ïðåäëàãàåìîì àëãîðèòìå êàæäî-
ìó ñëîâó èç òåêñòà ñòàòüè ïðèñâàèâàåòñÿ âåñ, ñîîòâåòñòâóþùèé âàæíîñòè ñëîâà.
Âåñà ñëîâ ðàññ÷èòûâàþòñÿ íà îñíîâå ñëåäóþùèõ ïðèçíàêîâ: íàçâàíèå ñòàòüè ñî-
äåðæèò äàííîå ñëîâî; ñëîâî ïðèíàäëåæèò îïðåäåëåíèþ ïîíÿòèÿ; ñëîâî ïðèíàä-
ëåæèò ïåðâîìó ïàðàãðàôó ñòàòüè; ñëîâî ÿâëÿåòñÿ ññûëêîé íà äðóãóþ ñòàòüþ;
äðóãèå ñëîâà.
Èòàê, ïðåäïîëîæèì, àëãîðèòì ïîëó÷àåò íà âõîä äâà ñëîâà äëÿ îöåíêè. Ïðåæ-
äå âñåãî îí âûáèðàåò ñîîòâåòñòâóþùèå ñëîâàðíûå ñòàòüè èç Wikipedia. Ïîñëå
ýòîãî òåêñòû ñòàòåé ðàçáèâàþòñÿ íà ñëîâà. Äàëåå àëãîðèòì óäàëÿåò ñëîâà èç
«ñòîï-ñïèñêà». Ñòîï-ñïèñîê ñîäåðæèò ñëîâà, êîòîðûå íå íåñóò áîëüøîé ñåìàíòè-
÷åñêîé íàãðóçêè: ïðåäëîãè, ñîþçû, ìåñòîèìåíèÿ, îáùåóïîòðåáèòåëüíûå ñëîâà
è ò.ä. Íà ñëåäóþùåì øàãå àëãîðèòì ðàçáèâàåò ìíîæåñòâà ñëîâ íà ïîäìíîæåñòâà,
ñîîòâåòñòâóþùèå çàäàííûì ôàêòîðàì. Íàïðèìåð, äëÿ îïèñàííûõ âûøå ïðèçíà-
êîâ ìíîæåñòâà áóäóò òàêèìè: L1 — ñëîâà èç íàçâàíèÿ; L2 — ñëîâà èç îïðåäåëå-
íèÿ ïîíÿòèÿ; L3 — ñëîâà èç ïåðâîãî ïàðàãðàôà; L4 — ñëîâà, ÿâëÿþùèåñÿ ïåðå-
êðåñòíûìè ññûëêàìè; L5 — îñòàëüíûå ñëîâà. Ïðè÷åì åñëè íåêîòîðîå ñëîâî w ïî-
ïàäàåò â Li , òî îíî èñêëþ÷àåòñÿ èç L j äëÿ ëþáîãî j i� .
 äàííîì ìåòîäå ïðåäëàãàåòñÿ àíàëèçèðîâàòü íå ïðîñòî ïåðåñå÷åíèÿ äâóõ
ëåêñè÷åñêèõ íàáîðîâ ñòàòåé Wikipedia äëÿ äâóõ âõîäíûõ ïîíÿòèé, à ó÷èòûâàòü
ñòðóêòóðó ñòàòåé. Åñëè íàçâàíèÿ è îïðåäåëåíèÿ ïîíÿòèé ñîäåðæàò îáùèå òåðìè-
íû, òî ñïèñîê ïåðåñå÷åíèÿ ëåêñåì äëÿ íàçâàíèé è îïðåäåëåíèé äîëæåí èìåòü íà-
ìíîãî áîëüøèé âåñ âàæíîñòè, ÷åì ñïèñîê ïåðåñå÷åíèÿ äëÿ âñåãî îñòàëüíîãî òåëà
ñòàòüè. Ïðåäëàãàåòñÿ ðàçáèòü çíà÷àùèå ñëîâà îáåèõ ñòàòåé ïî ñîîòâåòñòâóþùèì
ïðèçíàêàì íà ãðóïïû L Ln1
1 1, ,� , L Ln1
2 2, ,� è äàëåå ñ÷èòàòü ïåðåñå÷åíèÿ ïîïàðíî:
L Li j
1 2� .  ðàññìàòðèâàåìîì ñëó÷àå êîëè÷åñòâî ïðèçíàêîâ ðàâíî ïÿòè (÷èñëî
ïðèçíàêîâ ìîæåò áûòü äðóãèì â èíîé ðåàëèçàöèè àëãîðèòìà). Äëÿ êàæäîãî âîç-
ìîæíîãî ïåðåñå÷åíèÿ îïðåäåëÿåòñÿ ñîîòâåòñòâóþùèé âåñ ïðèîðèòåòà: ìàêñè-
ìàëüíûé — äëÿ ñëó÷àÿ ïåðåñå÷åíèÿ òåðìèíîâ èç íàçâàíèÿ L L
1
1
1
2� , ìèíèìàëü-
íûé — äëÿ îáùèõ òåðìèíîâ èç îïèñàòåëüíîé ÷àñòè ñòàòüè L L
5
1
5
2� . Ïðîìåæóòî÷-
íîìó âàðèàíòó, íàïðèìåð, êîãäà íåêîòîðûå òåðìèíû èñïîëüçóþòñÿ â îïðåäåëåíèè
ïåðâîãî ïîíÿòèÿ, à äëÿ âòîðîãî ïîíÿòèÿ îíè ôèãóðèðóåò îïèñàòåëüíî â êîíöå
ñòàòüè (ïåðåñå÷åíèå L L
2
1
5
2� ), ïðèñâàèâàåòñÿ ïðîìåæóòî÷íûé âåñ.
Êàæäîìó ñëîâó èç ìíîæåñòâà Li ïðèñâîåí âåñ wi . Íà îñíîâàíèè ìíîæåñòâ Li
1
è Li
2 ñòðîèòñÿ ìàòðèöà D, ýëåìåíò êîòîðîé D i j[ , ] ðàâåí êîëè÷åñòâó îáùèõ ñëîâ
â Li
1 è Li
2 — | |L Li j
1 � 2 , óìíîæåííîìó íà âåñ w w wij i j� � . Ïðåäïîëîæèì, ÷òî ñå-
ìàíòè÷åñêàÿ áëèçîñòü ðàâíà íîðìàëèçîâàííîé ñóììå ýëåìåíòîâ ìàòðèöû D.
Àëãîðèòì âûïîëíÿåò ñëåäóþùèå äåéñòâèÿ.
1. Äëÿ äâóõ ïîíÿòèé c c1 2, èçâëå÷ü ñòàòüè t1 è t2 , îïðåäåëÿþùèå ýòè ïîíÿ-
òèÿ. Âûáðàòü âñå ñëîâà èç ñòàòåé t1 è t2 . Îáîçíà÷èòü ìíîæåñòâà ñëîâ êàê T1 è T2
ñîîòâåòñòâåííî.
2. Óäàëèòü èç T1, T2 ñëîâà èç ñòîï-ñïèñêà.
22 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4
3. Ðàçáèòü ìíîæåñòâà T1, T2 íà ïîäìíîæåñòâà L Ln1
1 1, ,� è L Ln1
2 2, ,� ïî çà-
äàííûì ïðèçíàêàì, ãäå n — êîëè÷åñòâî ïðèçíàêîâ.
4. Ïîñòðîèòü ìàòðèöó D:
w L L w L L
w L L w
n n
n n n
11 1
1
| | | |
| |
1
1
1
2
1
1 2
1
1
2
� �
�
� �
� � � �
� � � �
� � n n nL L| |1 2�
�
�
�
�
�
�
�
�
.
5. Âû÷èñëèòü âåëè÷èíó ñåìàíòè÷åñêîé áëèçîñòè êàê íîðìàëèçîâàííóþ
ñóììó:
EWO
11
1 2
1
( , )
(| | | | )
,
c c
D
w L L
i j
j
n
i
n
i i i
i
n1 2 �
�
��
�
.
Ïðîöåäóðà ïîëó÷åíèÿ âåñîâ wi , îñíîâàííàÿ íà àëãîðèòìå èìèòàöèè îòæèãà
(ìåòîä ãëîáàëüíîé äèñêðåòíîé îïòèìèçàöèè), äåòàëüíî îïèñàíà äàëåå.
ÐÀÇÐÅØÅÍÈÅ ÑÌÛÑËÎÂÛÕ ÍÅÎÄÍÎÇÍÀ×ÍÎÑÒÅÉ
Íåêîòîðûå ïîíÿòèÿ ìîãóò èìåòü îäèíàêîâîå íàïèñàíèå è ðàçíîå çíà÷åíèå.
Íàïðèìåð, ñëîâî ÿãóàð ìîæåò îçíà÷àòü æèâîòíîå èç ðîäà êîøà÷üèõ è ìàðêó
áðèòàíñêîãî àâòîìîáèëÿ. Òàêèì îáðàçîì, íåîáõîäèìî ïðàâèëüíî âûáèðàòü
çíà÷åíèå (è ñòàòüþ èç Wikipedia), â çàâèñèìîñòè îò âòîðîãî ñëîâà ïàðû. Íà-
ïðèìåð, åñëè íà âõîä àëãîðèòìà ïîäàíà ïàðà ñëîâ <ÿãóàð; ëåâ>, òî ÿãóàð äîë-
æåí ñ÷èòàòüñÿ áîëüøîé êîøêîé, à åñëè ïàðà <ÿãóàð; ìåðñåäåñ>, òî èíòåðïðå-
òèðîâàòüñÿ êàê ìàðêà àâòîìîáèëÿ. Äëÿ ðàçðåøåíèÿ òàêèõ íåîäíîçíà÷íîñòåé
ðàçðàáîòàí àëãîðèòì.
Êàê è â ïðåäûäóùåì ñëó÷àå, àëãîðèòì ïîëó÷àåò íà âõîä ïàðó ñëîâ. Äëÿ îáîèõ
ñëîâ ïîëó÷àåì ñïèñîê âîçìîæíûõ ñòàòåé-êàíäèäàòîâ (çíà÷åíèé). Çàòåì äëÿ êàæäîé
ïàðû çíà÷åíèé, ãäå ïåðâîå çíà÷åíèå ïðèíàäëåæèò îäíîìó ñïèñêó, âòîðîå — äðóãî-
ìó, âû÷èñëÿåòñÿ âåëè÷èíà ñåìàíòè÷åñêîé áëèçîñòè. Ïîñëå ýòîãî âûáèðàåòñÿ ïàðà ñ
íàèáîëüøèì çíà÷åíèåì. Áîëåå ôîðìàëüíî àëãîðèòì çàïèøåòñÿ ñëåäóþùèì îáðàçîì.
1. Äëÿ îáîèõ ñëîâ ïîëó÷èòü ñïèñîê çíà÷åíèé:
• èçâëå÷ü èç èíäåêñà ñïèñîê ñòàòåé ñ íàçâàíèåì âèäà <ñëîâî> (óòî÷íå-
íèå);
• (äîïîëíèòåëüíî) èçâëå÷ü èç ñòðàíèöû ñ îïèñàíèåì íåîäíîçíà÷íîñòåé
ñïèñîê âîçìîæíûõ çíà÷åíèé.
2. Äëÿ êàæäîé ïàðû ñòàòåé ïîäñ÷èòàòü çíà÷åíèå ñåìàíòè÷åñêîé áëèçîñ-
òè-ñâÿçíîñòè.
3. Âûáðàòü ïàðó ñ íàèáîëüøåé ñåìàíòè÷åñêîé áëèçîñòüþ.
 ïðàêòè÷åñêèõ ðåàëèçàöèÿõ ýòîò ïðîöåññ ìîæíî îïòèìèçèðîâàòü: âìåñòî
ïåðåñå÷åíèÿ ïîëíîãî òåêñòà ñòàòåé èñïîëüçîâàòü òîëüêî ïåðâûå ïàðàãðàôû. Òà-
êàÿ îïòèìèçàöèÿ çíà÷èòåëüíî ñíèæàåò òðóäîåìêîñòü ïðîöåññà, ïðè ýòîì íå âëèÿÿ
íà òî÷íîñòü âû÷èñëåíèé.
ÎÖÅÍÊÀ ÂÅÑÎÂ
Äëÿ îöåíêè âåñîâ wij èñïîëüçóåòñÿ ìåòîä èìèòàöèè îòæèãà [11] — âåðîÿòíîñ-
òíàÿ ýâðèñòèêà äëÿ ðåøåíèÿ çàäà÷ ãëîáàëüíîé îïòèìèçàöèè. Äàííûé ìåòîä
îïåðèðóåò òî÷êàìè â ïðîñòðàíñòâå ðåøåíèé.  ðàññìàòðèâàåìîì ñëó÷àå òî÷-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 23
êîé ÿâëÿåòñÿ âåêòîð èç ïÿòè âåñîâ, êîòîðûå ñîîòâåòñòâóþò âûáðàííûì ïðèçíà-
êàì. Íà êàæäîé èòåðàöèè àëãîðèòìà õðàíèòñÿ îäíà òî÷êà — òåêóùàÿ, êîòîðàÿ
ìîæåò áûòü èçìåíåíà ïî îïðåäåëåííîìó âåðîÿòíîñòíîìó ïðàâèëó. Ïñåâäî-
êîä [12] ýòîãî àëãîðèòìà äëÿ ìàêñèìèçàöèè ôóíêöèè F x( ) èìååò ñëåäóþùóþ
ñòðóêòóðó.
1. Âûáðàòü ñëó÷àéíûì îáðàçîì íà÷àëüíóþ òî÷êó x0 .
2. Ïîëîæèòü x xbest 0� .
3. Ïîêà i k� , âûïîëíÿòü òàêèå øàãè:
• ñëó÷àéíî âûáðàòü òî÷êó x ñðåäè ñîñåäåé òî÷êè xi ;
• åñëè F x F x( ) ( )best � , òî x xbest � ;
• åñëè F x F xi( ) ( )� , òî x xi� �1 ;
• åñëè rnd � �
e
F x F x ti i( ( ) ( ))/
, òî x xi� �1 .
4. Âåðíóòü x best .
Çäåñü rnd — ñëó÷àéíîå ÷èñëî îò 0 äî 1, ïàðàìåòð ti — ýëåìåíòû íåêîòîðîé
óáûâàþùåé ïîñëåäîâàòåëüíîñòè. Ýòè çíà÷åíèÿ íàçûâàþòñÿ òåìïåðàòóðîé îòæèãà.
 öåëîì, äàííûé ìåòîä ïîäîáåí ìåòîäó ãðàäèåíòíîãî ñïóñêà, íî èñïîëüçî-
âàíèå âåðîÿòíîñòíîãî çàêîíà íå ïîçâîëÿåò àëãîðèòìó «çàñòðåâàòü» â òî÷êàõ ëî-
êàëüíîãî ìàêñèìóìà. Ýòî ñâîéñòâî ïîìîãàåò ïîëó÷àòü áîëåå ýôôåêòèâíûå
ðåçóëüòàòû.
 êà÷åñòâå ôóíêöèè äëÿ ìàêñèìèçàöèè ïðèìåíåí êîýôôèöèåíò ðàíãîâîé
êîððåëÿöèè Ñïèðìåíà. Ïðîñòðàíñòâîì ðåøåíèé äëÿ ïîèñêà ÿâëÿåòñÿ ïðîñòðàí-
ñòâî âåêòîðîâ, ðàçìåðíîñòü êîòîðûõ ðàâíà êîëè÷åñòâó ïðèçíàêîâ, èñïîëüçóåìûõ
â àëãîðèòìå, ò.å. êàæäîé êîîðäèíàòå âåêòîðà ñîîòâåòñòâóåò âåñ íåêîòîðîãî ïðè-
çíàêà. Äëÿ îöåíêè âåñîâ ñîçäàíà íåáîëüøàÿ òðåíèðîâî÷íàÿ áàçà, ñîñòîÿùàÿ èç
ïàð ñëîâ, ïðèíàäëåæàùèõ îñíîâíûì êëàññàì îòíîøåíèé ñåìàíòè÷åñêîé áëèçî-
ñòè-ñâÿçíîñòè: î÷åíü áëèçêèå ïîíÿòèÿ, àáñîëþòíî íåçàâèñèìûå ïîíÿòèÿ, ñëîâà
ñ ìíîæåñòâîì çíà÷åíèé è ò.ä. Íåñêîëüêî ðàç çàïóùåíà îïòèìèçèðóþùàÿ
ïðîöåäóðà è âûáðàíû âåñà, êîòîðûå äàþò ìàêñèìàëüíóþ êîððåëÿöèþ
ñ òðåíèðîâî÷íîé áàçîé.
ÏÐÎÃÐÀÌÌÍÀß ÐÅÀËÈÇÀÖÈß
Ðàçðàáîòàíà ïðîãðàììíàÿ ðåàëèçàöèÿ ïðåäëîæåííîãî ìåòîäà. Ïðîãðàììà íàïè-
ñàíà íà ÿçûêå ïðîãðàììèðîâàíèÿ Scala [13, 14] — ñîâðåìåííîì, õîðîøî ïðî-
ðàáîòàííîì ÿçûêå, óäîáíîì äëÿ ñîçäàíèÿ ïðîãðàìì îáðàáîòêè òåêñòîâ. Òåêó-
ùàÿ ðåàëèçàöèÿ Scala êîìïèëèðóåò èñõîäíûé òåêñò â áàéò-êîä äëÿ âèðòóàëü-
íîé ìàøèíû JVM. Ýòî ñâîéñòâî äàåò âîçìîæíîñòü âûïîëíÿòü ïðîãðàììó íà
âñåõ îïåðàöèîííûõ ñèñòåìàõ, êîòîðûå ïîääåðæèâàþòñÿ JVM (íàïðèìåð,
Windows, GNU/Linux, MacOS X).  êà÷åñòâå èñòî÷íèêà äàííûõ èñïîëüçóåòñÿ
ëîêàëüíàÿ êîïèÿ Wikipedia, çàãðóæåííàÿ ñ âåá-ñàéòà ïðîåêòà. Îáùèé ðàçìåð
àðõèâà ÷ðåçâû÷àéíî âåëèê (áîëåå 5,5 Ãá), ïîýòîìó äëÿ ðåàëèçàöèè ýôôåêòèâ-
íîãî, áûñòðîãî ïîèñêà ñòàòåé âûïîëíåíà ïðåäâàðèòåëüíàÿ îáðàáîòêà. Îòìå-
òèì, ÷òî äëÿ ñîçäàíèÿ àðõèâà èñïîëüçóåòñÿ áëî÷íàÿ àðõèâàöèÿ. Ýòî ïîçâîëÿåò
ðàçáèòü áîëüøîé àðõèâ íà ìíîæåñòâî ìàëåíüêèõ (îêîëî 1 Ìá êàæäûé) è
ñîçäàòü ïîèñêîâûé èíäåêñ äëÿ íèõ. Â ñðåäèíå àðõèâà íàõîäèòñÿ åäèíñòâåííûé
XML-ôàéë (ðàçìåðîì îêîëî 25 Ãá), êîòîðûé ñîäåðæèò âñå ñòàòüè Wikipedia.
Äëÿ èçâëå÷åíèÿ ñòàòåé èç ýòîãî ôàéëà ñ ó÷åòîì áëî÷íîé ñòðóêòóðû àðõèâà
ðàçðàáîòàíà ïðîãðàììà-ïàðñåð, ñïîñîáíàÿ îáðàáàòûâàòü áîëüøèå îáúåìû äàí-
íûõ.  îáùèõ ÷åðòàõ ïðåäâàðèòåëüíóþ îáðàáîòêó ìîæíî îïèñàòü ñëåäóþùèì
îáðàçîì.
24 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4
1. Äëÿ êàæäîé ñòàòüè èç ëîêàëüíîé êîïèè Wikipedia:
• èçâëå÷ü íàçâàíèå è òåêñò;
• èñêëþ÷èòü èç òåêñòà ÷àñòè, êîòîðûå íå âàæíû äëÿ àëãîðèòìà, íàïðè-
ìåð ññûëêè íà âíåøíèå ðåñóðñû, êîììåíòàðèè, îïèñàíèÿ èçîáðàæå-
íèé;
• ñîõðàíèòü íàçâàíèå è îáðàáîòàííûé òåêñò ñòàòüè â òåêñòîâîì ôàéëå;
• äîáàâèòü â áàçó äàííûõ ïàðó <Íàçâàíèå ñòàòüè; íàçâàíèå òåêñòîâîãî
ôàéëà, â êîòîðîì õðàíèòñÿ ñîäåðæèìîå>.
2. Ïîñëå îáðàáîòêè âñåõ ñòàòåé èç Wikipedia ñîçäàòü èíäåêñ áàçû äàííûõ
äëÿ ïîëÿ «íàçâàíèå ñòàòüè».
Òàêèì îáðàçîì, ñòàòüè ñîõðàíÿþòñÿ â îáû÷íûõ òåêñòîâûõ ôàéëàõ.  êà÷åñòâå
áàçû äàííûõ èñïîëüçóåòñÿ MongoDB — ñîâðåìåííàÿ íåðåëÿöèîííàÿ, äîêóìåí-
òíî-îðèåíòèðîâàííàÿ áàçà äàííûõ, êîòîðàÿ, ñîãëàñíî ðåçóëüòàòàì ìíîæåñòâà òåñòè-
ðîâàíèé, ñ÷èòàåòñÿ îäíîé èç íàèáîëåå ïðîèçâîäèòåëüíûõ. Âàæíûì òàêæå ÿâëÿåòñÿ
âîçìîæíîñòü ïîèñêà â áàçå äàííûõ ïî ðåãóëÿðíûì âûðàæåíèÿì, ÷òî àêòèâíî èñ-
ïîëüçóåòñÿ ïðè ðàçðåøåíèè ñìûñëîâûõ íåîäíîçíà÷íîñòåé. Ðàçìåð êîíå÷íîé áàçû
äàííûõ — 1,5 Ãá. Â öåëîì, òàêîé ïîäõîä ê õðàíåíèþ äàííûõ ïîçâîëèë äîáèòüñÿ
÷ðåçâû÷àéíî âûñîêîé ïðîèçâîäèòåëüíîñòè â ïîèñêå è èçâëå÷åíèè ñòàòåé.
Äëÿ îïòèìèçàöèè âåñîâûõ ïàðàìåòðîâ ðàçðàáîòàíî îòäåëüíîå ïðèëîæåíèå
(ðåàëèçàöèÿ ìåòîäà èìèòàöèè îòæèãà). Âçàèìîäåéñòâèå îïòèìèçàòîðà ñ ïðîãðàì-
ìîé ïðîèñõîäèò ïîñðåäñòâîì êîíôèãóðàöèîííûõ ôàéëîâ. Ïðîãðàììà-îïòèìèçàòîð
âûäàåò îòâåò â âèäå âåêòîðà âåùåñòâåííûõ ÷èñåë — âåñîâûõ ïàðàìåòðîâ àëãîðèò-
ìà, ïðè êîòîðûõ äîñòèãàåòñÿ íàèáîëüøàÿ êîððåëÿöèÿ ñ îáó÷àþùåé âûáîðêîé.
Ïðîãðàììà âû÷èñëåíèÿ ñåìàíòè÷åñêîãî ðàññòîÿíèÿ ðàçðàáîòàíà â äâóõ âåð-
ñèÿõ: ñ êîíñîëüíûì è ãðàôè÷åñêèì èíòåðôåéñîì. Ãðàôè÷åñêèé èíòåðôåéñ äàåò
âîçìîæíîñòü â èíòåðàêòèâíîì ðåæèìå ââîäèòü ïàðû ñëîâ äëÿ îöåíêè ñåìàíòè-
÷åñêîé áëèçîñòè. Òàêîé èíòåðôåéñ áîëåå óäîáåí äëÿ ïîëüçîâàòåëÿ è ïîçâîëÿåò,
êðîìå íåïîñðåäñòâåííî îöåíêè, ïðîñìàòðèâàòü ìíîæåñòâî äîïîëíèòåëüíîé èí-
ôîðìàöèè: òåêñòû ñòàòåé, ñïèñêè ñòàòåé-êàíäèäàòîâ, âåñà ñëîâ è ò.ä. Êîíñîëü-
íûé èíòåðôåéñ ÿâëÿåòñÿ áîëåå ïîäõîäÿùèì äëÿ âûçîâà èç äðóãèõ ïðîãðàìì è
êîíòðîëèðóåòñÿ ñ ïîìîùüþ ïàðàìåòðîâ êîìàíäíîé ñòðîêè. Ïëàíèðóåòñÿ òàêæå
ðàçðàáîòêà îòäåëüíîé ïîäãðóæàåìîé áèáëèîòåêè äëÿ ëó÷øåé èíòåãðàöèè ñî
ñòîðîííèìè ïðèëîæåíèÿìè.
Äëÿ òåñòèðîâàíèÿ àëãîðèòìîâ âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñòè
÷àñòî èñïîëüçóåòñÿ íàáîð âçâåøåííûõ ïàð ñëîâ Finkelstein WordSimilarity-353 [15].
Îí ñîäåðæèò 353 ïàðû ñëîâ, êîòîðûå îöåíåíû ýêñïåðòàìè-ëþäüìè. Êàæäàÿ ïàðà
îöåíåíà äåéñòâèòåëüíûì ÷èñëîì îò 0 äî 10.  êà÷åñòâå îöåíêè ðàáîòû ïðåäëî-
æåííîãî àëãîðèòìà èñïîëüçîâàëñÿ êîýôôèöèåíò ðàíãîâîé êîððåëÿöèè Ñïèðìåíà.
Äàëåå ïðèâåäåíû êîýôôèöèåíòû êîððåëÿöèè âû÷èñëåííûõ ïðåäëîæåííûì àëãî-
ðèòìîì çíà÷åíèé ñ îöåíêàìè èç Finkelstein WordSimilarity äëÿ òðåõ ðåæèìîâ:
• áåç ðàçðåøåíèÿ ñìûñëîâîé íåîäíîçíà÷íîñòè — 0,63;
• ñ ÷àñòè÷íûì ðàçðåøåíèåì ñìûñëîâîé íåîäíîçíà÷íîñòè (êàíäèäàòàìè ÿâ-
ëÿþòñÿ ñòàòüè ñ íàçâàíèåì âèäà <ñëîâî> (<óòî÷íåíèå>)) — 0,68;
• ñ ïîëíûì ðàçðåøåíèåì ñìûñëîâîé íåîäíîçíà÷íîñòè (êàíäèäàòû ïîëó÷å-
íû èç ñòàòåé-ñïèñêîâ íåîäíîçíà÷íîñòåé; êàê ïðàâèëî, ýòî ñòàòüè ñ íàçâà-
íèåì <ñëîâî> (disambiguation) ) — 0,74.
Äàííûå çíà÷åíèÿ óêàçûâàþò íà ñóùåñòâåííîå óëó÷øåíèå ðåçóëüòàòîâ ïðè
èñïîëüçîâàíèè ðàçðåøåíèÿ ñìûñëîâîé íåîäíîçíà÷íîñòè. Äëÿ ñðàâíåíèÿ ñ íåêî-
òîðûìè äðóãèìè ìåòîäàìè ïîñòðîåíà äèàãðàììà (ðèñ. 1), îòðàæàþùàÿ ðåçóëüòà-
òû èçìåðåíèé äëÿ ðàçëè÷íûõ àëãîðèòìîâ âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè.
Íà äèàãðàììàå ïðèâåäåíû îöåíêè, ïîëó÷åííûå ðàçíûìè ìåòîäàìè:
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 25
• ìåòîä RND, âîçâðàùàþùèé ñëó÷àéíîå çíà÷åíèå äëÿ ïàðû ñëîâ;
• ìåòîäû, îñíîâàííûå íà ïîèñêå ïóòè â ãðàôå, à èìåííî ìåòîä êðàò÷àéøåãî
ïóòè (PATH), ìåòîä Ëèêîêà–×îäîðîâà (LCH), ìåòîä Âó–Ïàëìåðà (WUP),
ìåòîä Ðåçíèêà (RES) [8, 16];
• ìåòîä WLM [9];
• ìåòîä ESA [4, 9];
• ìåòîä EWO.
Ïðîãðàììíàÿ ðåàëèçàöèÿ ìå-
òîäà EWO ïîêàçûâàåò åãî âûñî-
êóþ ïðîèçâîäèòåëüíîñòü: îöåíêà
20–100 ïàð ñëîâ â ñåêóíäó. Ïðèìå-
ðû ðåçóëüòàòîâ ðàáîòû ïðîãðàììû
âû÷èñëåíèÿ îöåíêè ñåìàíòè÷åñêîé
áëèçîñòè-ñâÿçíîñòè ñëîâ íà òåñòî-
âîé âûáîðêå ïðèâåäåíû â òàáë. 1.
ÇÀÊËÞ×ÅÍÈÅ
 äàííîé ñòàòüå îïèñàí íîâûé
ýôôåêòèâíûé ìåòîä âû÷èñëåíèÿ
ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñ-
òè ìåæäó ñëîâàìè åñòåñòâåííîãî
ÿçûêà. Ïðåäñòàâëåííûé àëãîðèòì
ÿâëÿåòñÿ ìîäèôèêàöèåé èçâåñòíî-
ãî ïîäõîäà Ëåñêà. Îí ïîñòðîåí
íà îñíîâå ïîçèöèîííîãî ñòðóê-
òóðèðîâàíèÿ òåêñòà ñëîâàðíûõ
ñòàòåé ãëîññàðèÿ, ïîñëå êîòîðîãî êàæäûé çíà÷èìûé òåðìèí ïîëó÷àåò ïðèîðèòåò-
íûé âåñ â çàâèñèìîñòè îò ðàñïîëîæåíèÿ â òîé èëè èíîé ÷àñòè òåêñòà ñòàòüè, ÷òî
ïîçâîëÿåò âû÷èñëÿòü ðàçíîóðîâíåâûå ëåêñè÷åñêèå ïåðåñå÷åíèÿ ñ ðàçíûì âåñîì
ïðèîðèòåòà. Ïðè ýòîì ó÷èòûâàþòñÿ íþàíñû ëåêñè÷åñêîé ñòðóêòóðû ñòàòåé îïðåäå-
ëåíèé ïîíÿòèé, à íå ïðîñòîå ñëîâàðíîå ïåðåñå÷åíèå äâóõ òåêñòîâ.  êà÷åñòâå èñ-
òî÷íèêà äàííûõ äëÿ âû÷èñëåíèé èñïîëüçóåòñÿ èíòåðíåò-ýíöèêëîïåäèÿ Wikipedia.
Äëÿ îïðåäåëåíèÿ âåñîâûõ ïàðàìåòðîâ ïðèìåíÿåòñÿ ìåòîä èìèòàöèè îòæèãà.
26 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4
Ðèñ. 1
Ïàðà ñëîâ
Îöåíêà ñåìàíòè÷åñêîé
áëèçîñòè-ñâÿçíîñòè ñëîâ
ñëîâî 1 ñëîâî 2 ýêñïåðò àëãîðèòì
ñar automobile 8.94 9.99
magician wizard 9.02 6.93
glass magician 2.08 1.1
money currency 9.04 5.67
noon string 0.54 0.82
FBI fingerprint 6.94 4.05
tiger cat 7.35 4.13
tiger tiger 10 10
book paper 7.46 4.44
computer keyboard 7.62 4.38
computer internet 7.58 4.04
physics chemistry 7.35 4.28
drink ear 1.31 1.13
Ò à á ë è ö à 1
Îïèñàííûé ìåòîä ïîêàçàë âûñîêîé óðîâåíü êîððåëÿöèè ñ òåñòîâûìè äàííûìè.
Òàêèì îáðàçîì, ïðåäëîæåííûé àëãîðèòì äåìîíñòðèðóåò ðåçóëüòàòû íà óðîâíå ëó÷-
øèõ ñîâðåìåííûõ ìåòîäîâ, ïðè ýòîì ÿâëÿÿñü ïðîçðà÷íûì è èíòóèòèâíûì. Ðàçðàáî-
òàíà ïðîãðàììíàÿ ðåàëèçàöèÿ ìåòîäà, âûñîêàÿ ñêîðîñòü ðàáîòû êîòîðîé ïîçâîëÿåò
èñïîëüçîâàòü åå ïðè ðåøåíèè ðàçíîîáðàçíûõ çàäà÷ êîìïüþòåðíîé ëèíãâèñòèêè.
Âîçìîæíî íåñêîëüêî ïóòåé óëó÷øåíèÿ êà÷åñòâà îöåíêè:
• äîáàâëåíèå íîâûõ ôàêòîðîâ â âåñîâóþ ìîäåëü;
• èíòåãðàöèÿ ñ äðóãèìè òåõíèêàìè âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè
äëÿ ïîñòðîåíèÿ êîìïëåêñíîé îöåíêè.
Ïðîèçâîäèòåëüíîñòü ìîæåò áûòü ïîâûøåíà, íàïðèìåð, ðàçðàáîòêîé ïàðàë-
ëåëüíîé âåðñèè ïðîãðàììû. Ýòî ïîçâîëèò èñïîëüçîâàòü ñîâðåìåííûå ìíîãîïðî-
öåññîðíûå è ìíîãîÿäåðíûå âû÷èñëèòåëüíûå ñèñòåìû.
Äàííàÿ ïðîãðàììà âû÷èñëåíèÿ ñåìàíòè÷åñêîé áëèçîñòè-ñâÿçíîñòè ìåæäó ñëî-
âàìè åñòåñòâåííîãî ÿçûêà ðàçðàáîòàíà â ðàìêàõ êîìïëåêñà ìíîãîöåëåâûõ ïðèêëàä-
íûõ ñèñòåì ñåìàíòè÷åñêîãî àíàëèçà è ñìûñëîâîé îáðàáîòêè òåêñòîâûõ äîêóìåíòîâ.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. L e s k M . Automatic sense disambiguation using machine readable dictionaries: how to tell a pine
cone from an ice cream cone // SIGDOC’86: Proc. of the 5th Annu. Intern. Conf. on Syst. document.
— New York: ACM, 1986. — P. 24–26.
2. W u b b e n S . Using free link structure to calculate semantic relatedness: (Rep.) / ILK Res. Group
Techn. — N 08-01. — Tilburq: Tilburq Univ., 2008.
3. P o n z e t t o S . P . , S t r u b e M . Knowledge deriver from Wikipedia for computing semantic re-
latedness // Artif. Intell. Res. — 2007. — N 30. — P. 181–212.
4. G a b r i l o v i c h E . , M a r k o v i t c h S . Computing semantic relatedness using Wikipedia-based
explicit semantic analysis // Proc. of the 20th Intern. Joint Conf. on Artif. Intell., Hyderabad (India),
2007. — San Francisco: Morgan Kauffman Publ., 2007. — P. 1606–1611.
5. R e s n i k P . Using information content to evaluate semantic similarity in a taxonomy // Proc. of In-
tern. Joint Conf. on Artif. Intell., Montreal, 1995. — San Francisco: Morgan Kauffman Publ., 1995.
— P. 448–453.
6. L e a c o c k C . , C h o d o r o w M . , a n d M i l l e r G . A . Using corpus statistics and wordnet re-
lations for sense identification // Comput. Ling. — 1998. — 24, N 1. — P. 147–165.
7. W u Z . , P a l m e r M . Verb semantics and lexical selection // 32nd. Annu. Meet. of the Assoc. for
Comput. Ling., Las Cruces (USA), 1994. — San Francisco: Morgan Kauffman Publ., 1994.— P. 133–138.
8. S t r u b e M . , P o n z e t t o S . P . WikiRelate! Computing semantic relatedness using Wikipedia //
Proc. of the 21st Nat. Conf. on Artif. Intell., Boston, 2006. — Berlin: Springer, 2004. —
P. 1419–1424.
9. M i l n e D . , W i t t e n I . H . An effective, low-cost measure of semantic relatedness obtained from
Wikipedia links // Proc. of the first AAAI Workshop on Wikipedia and Artif. Intell. (CIKM’2008),
Chicago, 2008. — Menlo Park (USA): AAAI Press, 2008.
10. W i k i W a l k : Random walks on Wikipedia for semantic relatedness / E. Yeh, D. Ramage,
C.D. Manning, et al. // ACL-IJCNLP TextGraphs-4 Workshop 2009. — Singapore, 2009.
11. K i r k p a t r i c k S . , G e l a t t C . D . , V e c c h i M . P . Optimization by simulated annealing //
Science. New Ser. — 1983. — N 220. — P. 671–680.
12. L u k e S . Essentials of metaheuristics. — 2009. — http://cs.gmu.edu/!sean/book/metaheuristics/.
13. O d e r s k y M . Scala by example / Progr. meth. lab., EPFL. — Lausanne, 2009. — 145 p.
14. O d e r s k y M . , S p o o n L . , V e n n e r s B . Programming in Scala. — Montain View: Artima
Press, 2008. — 754 p.
15. P l a c i n g search in context: The concept revisited / L. Finkelstein, E. Gabrilovich, Y. Matias, et al.
// ACM Trans. Inform. Systems. — 2002. — 20, N 1. — P. 116–131.
16. P e d e r s e n T . , P a t h w a r d h a n S . , M i c h e l i z z i J . Wordnet::Similarity — Measuring the
relatedness of concepts // Proc. of the 19th Nat. Conf. on Artif. Intell., San Jose (USA), 2004. —
Berlin: Springer, 2004. — P. 1024–1025.
Ïîñòóïèëà 10.03.2011
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 4 27
|
| id | nasplib_isofts_kiev_ua-123456789-84214 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 0023-1274 |
| language | Russian |
| last_indexed | 2025-12-07T18:55:21Z |
| publishDate | 2011 |
| publisher | Інститут кібернетики ім. В.М. Глушкова НАН України |
| record_format | dspace |
| spelling | Анисимов, А.В. Марченко, А.А. Кисенко, В.К. 2015-07-03T18:40:36Z 2015-07-03T18:40:36Z 2011 Метод вычисления семантической близости-связности между словами естественного языка / А.В. Анисимов, А.А. Марченко, В.К. Кисенко // Кибернетика и системный анализ. — 2011. — Т. 47, № 4. — С. 18-27. — Бібліогр.: 16 назв. — рос. 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/84214 681.3 Розглянуто методи обчислення семантичної близькості-зв’язності слів природної мови. Поняття семантичної близькості дозволяє будувати алгоритмічні моделі контекстно-лінгвістичного аналізу для вирішення таких задач: розв’язання смислових неоднозначностей, розпізнавання центральних сутнос-тей тексту, аналіз природномовних текстів. Запропоновано новий алгоритм оцінки семантичної відстані для слів природної мови, який є зваженою модифікацією відомого підходу Леска, засновано-го на побудові лексичного перетину словникових статей. The paper develops methods to calculate the semantic relatedness of natural language words. The concept of semantic relatedness allows constructing algorithmic models for the context-linguistic analysis to solve problems such as word sense disambiguation, named entity recognition, natural language text analysis, etc. The study proposes a new algorithm to estimate the semantic distance between natural language words. This method is a weighted modification of Lesk’s famous approach, which is based on lexical overlap of glossary entries. ru Інститут кібернетики ім. В.М. Глушкова НАН України Кибернетика и системный анализ Кибернетика Метод вычисления семантической близости-связности между словами естественного языка Метод обчислення семантичної близькості-зв’язності між словами природної мови Method for estimation of semantic relatedness of natural language words Article published earlier |
| spellingShingle | Метод вычисления семантической близости-связности между словами естественного языка Анисимов, А.В. Марченко, А.А. Кисенко, В.К. Кибернетика |
| title | Метод вычисления семантической близости-связности между словами естественного языка |
| title_alt | Метод обчислення семантичної близькості-зв’язності між словами природної мови Method for estimation of semantic relatedness of natural language words |
| title_full | Метод вычисления семантической близости-связности между словами естественного языка |
| title_fullStr | Метод вычисления семантической близости-связности между словами естественного языка |
| title_full_unstemmed | Метод вычисления семантической близости-связности между словами естественного языка |
| title_short | Метод вычисления семантической близости-связности между словами естественного языка |
| title_sort | метод вычисления семантической близости-связности между словами естественного языка |
| topic | Кибернетика |
| topic_facet | Кибернетика |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/84214 |
| work_keys_str_mv | AT anisimovav metodvyčisleniâsemantičeskoiblizostisvâznostimežduslovamiestestvennogoâzyka AT marčenkoaa metodvyčisleniâsemantičeskoiblizostisvâznostimežduslovamiestestvennogoâzyka AT kisenkovk metodvyčisleniâsemantičeskoiblizostisvâznostimežduslovamiestestvennogoâzyka AT anisimovav metodobčislennâsemantičnoíblizʹkostízvâznostímížslovamiprirodnoímovi AT marčenkoaa metodobčislennâsemantičnoíblizʹkostízvâznostímížslovamiprirodnoímovi AT kisenkovk metodobčislennâsemantičnoíblizʹkostízvâznostímížslovamiprirodnoímovi AT anisimovav methodforestimationofsemanticrelatednessofnaturallanguagewords AT marčenkoaa methodforestimationofsemanticrelatednessofnaturallanguagewords AT kisenkovk methodforestimationofsemanticrelatednessofnaturallanguagewords |