Алгоритм сегментации слов на основе поиска кратчайшего пути в графе

Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в на...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Реєстрація, зберігання і обробка даних
Дата:2017
Автори: Ландэ, Д.В., Березин, Б.А., Павленко, О.Ю.
Формат: Стаття
Мова:Russian
Опубліковано: Інститут проблем реєстрації інформації НАН України 2017
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/168664
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-168664
record_format dspace
spelling Ландэ, Д.В.
Березин, Б.А.
Павленко, О.Ю.
2020-05-07T14:06:05Z
2020-05-07T14:06:05Z
2017
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос.
1560-9189
:DOI: https://doi.org/10.35681/1560-9189.2017.19.4.142917
https://nasplib.isofts.kiev.ua/handle/123456789/168664
001.103:004.056
Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в национальных до­менах сети Интернет. Реализация алгоритма сегментации слов используется для создания обобщенной модели предметной области на базе мониторинга ресурсов китайского сегмента Интернет.
Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет.
The features of word segmentation algorithms from such texts are considered. A new algorithm for words segmenting based on a modified wave algorithm has been presented. The algorithm takes into account the features of the input data and is built in such a way that the necessary calculations are performed in a single pass. This reduces its computational complexity. A description of the word segmentation algorithm is given. An example is shown of splitting an input string in English into words, representing it in the form of a graph and finding the shortest path.To assess the quality of segmentation, the EDWS (Edit Distance of the Word Separator) method is presented. A special tool was used to assess the segmentation of Chinese words with a test corpora based on news texts.
ru
Інститут проблем реєстрації інформації НАН України
Реєстрація, зберігання і обробка даних
Математичні методи обробки даних
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
Алгоритм сегментації слів на основі пошуку найкоротшого шляху в графі
Algorithm for word segmentation based on the shortest path algorithm inside a graph
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
spellingShingle Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
Ландэ, Д.В.
Березин, Б.А.
Павленко, О.Ю.
Математичні методи обробки даних
title_short Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_full Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_fullStr Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_full_unstemmed Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
title_sort алгоритм сегментации слов на основе поиска кратчайшего пути в графе
author Ландэ, Д.В.
Березин, Б.А.
Павленко, О.Ю.
author_facet Ландэ, Д.В.
Березин, Б.А.
Павленко, О.Ю.
topic Математичні методи обробки даних
topic_facet Математичні методи обробки даних
publishDate 2017
language Russian
container_title Реєстрація, зберігання і обробка даних
publisher Інститут проблем реєстрації інформації НАН України
format Article
title_alt Алгоритм сегментації слів на основі пошуку найкоротшого шляху в графі
Algorithm for word segmentation based on the shortest path algorithm inside a graph
description Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в национальных до­менах сети Интернет. Реализация алгоритма сегментации слов используется для создания обобщенной модели предметной области на базе мониторинга ресурсов китайского сегмента Интернет. Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет. The features of word segmentation algorithms from such texts are considered. A new algorithm for words segmenting based on a modified wave algorithm has been presented. The algorithm takes into account the features of the input data and is built in such a way that the necessary calculations are performed in a single pass. This reduces its computational complexity. A description of the word segmentation algorithm is given. An example is shown of splitting an input string in English into words, representing it in the form of a graph and finding the shortest path.To assess the quality of segmentation, the EDWS (Edit Distance of the Word Separator) method is presented. A special tool was used to assess the segmentation of Chinese words with a test corpora based on news texts.
issn 1560-9189
url https://nasplib.isofts.kiev.ua/handle/123456789/168664
citation_txt Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос.
work_keys_str_mv AT landédv algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe
AT berezinba algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe
AT pavlenkooû algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe
AT landédv algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí
AT berezinba algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí
AT pavlenkooû algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí
AT landédv algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph
AT berezinba algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph
AT pavlenkooû algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph
first_indexed 2025-12-01T04:47:18Z
last_indexed 2025-12-01T04:47:18Z
_version_ 1850859280381509632