Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в на...
Збережено в:
| Опубліковано в: : | Реєстрація, зберігання і обробка даних |
|---|---|
| Дата: | 2017 |
| Автори: | , , |
| Формат: | Стаття |
| Мова: | Russian |
| Опубліковано: |
Інститут проблем реєстрації інформації НАН України
2017
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/168664 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-168664 |
|---|---|
| record_format |
dspace |
| spelling |
Ландэ, Д.В. Березин, Б.А. Павленко, О.Ю. 2020-05-07T14:06:05Z 2020-05-07T14:06:05Z 2017 Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос. 1560-9189 :DOI: https://doi.org/10.35681/1560-9189.2017.19.4.142917 https://nasplib.isofts.kiev.ua/handle/123456789/168664 001.103:004.056 Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в национальных доменах сети Интернет. Реализация алгоритма сегментации слов используется для создания обобщенной модели предметной области на базе мониторинга ресурсов китайского сегмента Интернет. Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет. The features of word segmentation algorithms from such texts are considered. A new algorithm for words segmenting based on a modified wave algorithm has been presented. The algorithm takes into account the features of the input data and is built in such a way that the necessary calculations are performed in a single pass. This reduces its computational complexity. A description of the word segmentation algorithm is given. An example is shown of splitting an input string in English into words, representing it in the form of a graph and finding the shortest path.To assess the quality of segmentation, the EDWS (Edit Distance of the Word Separator) method is presented. A special tool was used to assess the segmentation of Chinese words with a test corpora based on news texts. ru Інститут проблем реєстрації інформації НАН України Реєстрація, зберігання і обробка даних Математичні методи обробки даних Алгоритм сегментации слов на основе поиска кратчайшего пути в графе Алгоритм сегментації слів на основі пошуку найкоротшого шляху в графі Algorithm for word segmentation based on the shortest path algorithm inside a graph Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе |
| spellingShingle |
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе Ландэ, Д.В. Березин, Б.А. Павленко, О.Ю. Математичні методи обробки даних |
| title_short |
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе |
| title_full |
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе |
| title_fullStr |
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе |
| title_full_unstemmed |
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе |
| title_sort |
алгоритм сегментации слов на основе поиска кратчайшего пути в графе |
| author |
Ландэ, Д.В. Березин, Б.А. Павленко, О.Ю. |
| author_facet |
Ландэ, Д.В. Березин, Б.А. Павленко, О.Ю. |
| topic |
Математичні методи обробки даних |
| topic_facet |
Математичні методи обробки даних |
| publishDate |
2017 |
| language |
Russian |
| container_title |
Реєстрація, зберігання і обробка даних |
| publisher |
Інститут проблем реєстрації інформації НАН України |
| format |
Article |
| title_alt |
Алгоритм сегментації слів на основі пошуку найкоротшого шляху в графі Algorithm for word segmentation based on the shortest path algorithm inside a graph |
| description |
Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в национальных доменах сети Интернет. Реализация алгоритма сегментации слов используется для создания обобщенной модели предметной области на базе мониторинга ресурсов китайского сегмента Интернет.
Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет.
The features of word segmentation algorithms from such texts are considered. A new algorithm for words segmenting based on a modified wave algorithm has been presented. The algorithm takes into account the features of the input data and is built in such a way that the necessary calculations are performed in a single pass. This reduces its computational complexity. A description of the word segmentation algorithm is given. An example is shown of splitting an input string in English into words, representing it in the form of a graph and finding the shortest path.To assess the quality of segmentation, the EDWS (Edit Distance of the Word Separator) method is presented. A special tool was used to assess the segmentation of Chinese words with a test corpora based on news texts.
|
| issn |
1560-9189 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/168664 |
| citation_txt |
Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос. |
| work_keys_str_mv |
AT landédv algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe AT berezinba algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe AT pavlenkooû algoritmsegmentaciislovnaosnovepoiskakratčaišegoputivgrafe AT landédv algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí AT berezinba algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí AT pavlenkooû algoritmsegmentacííslívnaosnovípošukunaikorotšogošlâhuvgrafí AT landédv algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph AT berezinba algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph AT pavlenkooû algorithmforwordsegmentationbasedontheshortestpathalgorithminsideagraph |
| first_indexed |
2025-12-01T04:47:18Z |
| last_indexed |
2025-12-01T04:47:18Z |
| _version_ |
1850859280381509632 |