Алгоритм сегментации слов на основе поиска кратчайшего пути в графе

Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в на...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Реєстрація, зберігання і обробка даних
Datum:2017
Hauptverfasser: Ландэ, Д.В., Березин, Б.А., Павленко, О.Ю.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут проблем реєстрації інформації НАН України 2017
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/168664
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
Beschreibung
Zusammenfassung:Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в национальных до­менах сети Интернет. Реализация алгоритма сегментации слов используется для создания обобщенной модели предметной области на базе мониторинга ресурсов китайского сегмента Интернет. Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет. The features of word segmentation algorithms from such texts are considered. A new algorithm for words segmenting based on a modified wave algorithm has been presented. The algorithm takes into account the features of the input data and is built in such a way that the necessary calculations are performed in a single pass. This reduces its computational complexity. A description of the word segmentation algorithm is given. An example is shown of splitting an input string in English into words, representing it in the form of a graph and finding the shortest path.To assess the quality of segmentation, the EDWS (Edit Distance of the Word Separator) method is presented. A special tool was used to assess the segmentation of Chinese words with a test corpora based on news texts.
ISSN:1560-9189