Алгоритм сегментации слов на основе поиска кратчайшего пути в графе

Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в на...

Full description

Saved in:
Bibliographic Details
Published in:Реєстрація, зберігання і обробка даних
Date:2017
Main Authors: Ландэ, Д.В., Березин, Б.А., Павленко, О.Ю.
Format: Article
Language:Russian
Published: Інститут проблем реєстрації інформації НАН України 2017
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/168664
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1862641475741810688
author Ландэ, Д.В.
Березин, Б.А.
Павленко, О.Ю.
author_facet Ландэ, Д.В.
Березин, Б.А.
Павленко, О.Ю.
citation_txt Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос.
collection DSpace DC
container_title Реєстрація, зберігання і обробка даних
description Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в национальных до­менах сети Интернет. Реализация алгоритма сегментации слов используется для создания обобщенной модели предметной области на базе мониторинга ресурсов китайского сегмента Интернет. Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет. The features of word segmentation algorithms from such texts are considered. A new algorithm for words segmenting based on a modified wave algorithm has been presented. The algorithm takes into account the features of the input data and is built in such a way that the necessary calculations are performed in a single pass. This reduces its computational complexity. A description of the word segmentation algorithm is given. An example is shown of splitting an input string in English into words, representing it in the form of a graph and finding the shortest path.To assess the quality of segmentation, the EDWS (Edit Distance of the Word Separator) method is presented. A special tool was used to assess the segmentation of Chinese words with a test corpora based on news texts.
first_indexed 2025-12-01T04:47:18Z
format Article
fulltext
id nasplib_isofts_kiev_ua-123456789-168664
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1560-9189
language Russian
last_indexed 2025-12-01T04:47:18Z
publishDate 2017
publisher Інститут проблем реєстрації інформації НАН України
record_format dspace
spelling Ландэ, Д.В.
Березин, Б.А.
Павленко, О.Ю.
2020-05-07T14:06:05Z
2020-05-07T14:06:05Z
2017
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос.
1560-9189
:DOI: https://doi.org/10.35681/1560-9189.2017.19.4.142917
https://nasplib.isofts.kiev.ua/handle/123456789/168664
001.103:004.056
Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в национальных до­менах сети Интернет. Реализация алгоритма сегментации слов используется для создания обобщенной модели предметной области на базе мониторинга ресурсов китайского сегмента Интернет.
Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет.
The features of word segmentation algorithms from such texts are considered. A new algorithm for words segmenting based on a modified wave algorithm has been presented. The algorithm takes into account the features of the input data and is built in such a way that the necessary calculations are performed in a single pass. This reduces its computational complexity. A description of the word segmentation algorithm is given. An example is shown of splitting an input string in English into words, representing it in the form of a graph and finding the shortest path.To assess the quality of segmentation, the EDWS (Edit Distance of the Word Separator) method is presented. A special tool was used to assess the segmentation of Chinese words with a test corpora based on news texts.
ru
Інститут проблем реєстрації інформації НАН України
Реєстрація, зберігання і обробка даних
Математичні методи обробки даних
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
Алгоритм сегментації слів на основі пошуку найкоротшого шляху в графі
Algorithm for word segmentation based on the shortest path algorithm inside a graph
Article
published earlier
spellingShingle Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
Ландэ, Д.В.
Березин, Б.А.
Павленко, О.Ю.
Математичні методи обробки даних
title Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_alt Алгоритм сегментації слів на основі пошуку найкоротшого шляху в графі
Algorithm for word segmentation based on the shortest path algorithm inside a graph
title_full Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_fullStr Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_full_unstemmed Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_short Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_sort алгоритм сегментации слов на основе поиска кратчайшего пути в графе
topic Математичні методи обробки даних
topic_facet Математичні методи обробки даних
url https://nasplib.isofts.kiev.ua/handle/123456789/168664
work_keys_str_mv AT landédv algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe
AT berezinba algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe
AT pavlenkooû algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe
AT landédv algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí
AT berezinba algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí
AT pavlenkooû algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí
AT landédv algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph
AT berezinba algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph
AT pavlenkooû algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph