Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв

Метою статті є вирішення проблеми немонотонності словника мультироздільникових кодів та дослідження доцільності використання мультироздільникового кодування на стадії попереднього оброблення природномовних текстів у процесі їхнього архівування. Результати. Введено поняття реверсного мультироздільник...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Cybernetics and computer engineering
Дата:2020
Автори: Анісімов, А.В., Завадський, І.О., Чудаков, Т.С.
Формат: Стаття
Мова:Українська
Опубліковано: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України 2020
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/179367
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв / А.В. Анісімов, І.О. Завадський, Т.С. Чудаков // Cybernetics and computer engineering. — 2020. — № 4 (202). — С. 5-24. — Бібліогр.: 17 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1862646799432417280
author Анісімов, А.В.
Завадський, І.О.
Чудаков, Т.С.
author_facet Анісімов, А.В.
Завадський, І.О.
Чудаков, Т.С.
citation_txt Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв / А.В. Анісімов, І.О. Завадський, Т.С. Чудаков // Cybernetics and computer engineering. — 2020. — № 4 (202). — С. 5-24. — Бібліогр.: 17 назв. — укр.
collection DSpace DC
container_title Cybernetics and computer engineering
description Метою статті є вирішення проблеми немонотонності словника мультироздільникових кодів та дослідження доцільності використання мультироздільникового кодування на стадії попереднього оброблення природномовних текстів у процесі їхнього архівування. Результати. Введено поняття реверсного мультироздільникового коду. Побудовано монотонне кодувальне, а також декодувальне відображення з множини натуральних чисел на множину кодових слів реверсного мультироздільникового коду. Досліджено ефективність застосування реверсних мультироздільникових кодів до стискання природномовних текстів. Запропоновано механізм оптимізації використання словника у процесі архівування природномовних текстів. Проведено експерименти, результати яких свідчать, що попереднє кодування англійських та німецьких текстів реверсними мультироздільниковими кодами та застосування запропонованого методу оптимізації словника дає змогу на 1–3% покращити граничну ефективність стискання, яка досягається найкращими архіваторами в режимі максимального стиснення. The purpose of the paper is to solve the problem of non-monotonicity of a multidelimiter code dictionary and investigate the possibility of use the multi-delimiter encoding on the preprocessing stage of natural language texts archiving. Results. The concept of the reverse multi-delimiter code is introduced. The monotonic encoding as well as the decoding mapping from the set of natural numbers to the set of reverse multi-delimiter code codewords is built. The efficiency of applying the reverse multidelimiter codes to natural language text compression is investigated together with the method of dictionary optimization. The provided experiments show that the reverse multi-delimiter encoding of English and German texts on the preprocessing stage and applying the proposed dictionary optimization method allows us to improve the marginal compression efficiency of the most powerful archivers in the maximal compression mode by about 1–3%.
first_indexed 2025-12-01T11:35:56Z
format Article
fulltext
id nasplib_isofts_kiev_ua-123456789-179367
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 2663-2578
language Ukrainian
last_indexed 2025-12-01T11:35:56Z
publishDate 2020
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України
record_format dspace
spelling Анісімов, А.В.
Завадський, І.О.
Чудаков, Т.С.
2021-05-01T19:54:29Z
2021-05-01T19:54:29Z
2020
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв / А.В. Анісімов, І.О. Завадський, Т.С. Чудаков // Cybernetics and computer engineering. — 2020. — № 4 (202). — С. 5-24. — Бібліогр.: 17 назв. — укр.
2663-2578
DOI: https://doi.org/10.15407/kvt202.04.005
https://nasplib.isofts.kiev.ua/handle/123456789/179367
519.72
Метою статті є вирішення проблеми немонотонності словника мультироздільникових кодів та дослідження доцільності використання мультироздільникового кодування на стадії попереднього оброблення природномовних текстів у процесі їхнього архівування. Результати. Введено поняття реверсного мультироздільникового коду. Побудовано монотонне кодувальне, а також декодувальне відображення з множини натуральних чисел на множину кодових слів реверсного мультироздільникового коду. Досліджено ефективність застосування реверсних мультироздільникових кодів до стискання природномовних текстів. Запропоновано механізм оптимізації використання словника у процесі архівування природномовних текстів. Проведено експерименти, результати яких свідчать, що попереднє кодування англійських та німецьких текстів реверсними мультироздільниковими кодами та застосування запропонованого методу оптимізації словника дає змогу на 1–3% покращити граничну ефективність стискання, яка досягається найкращими архіваторами в режимі максимального стиснення.
The purpose of the paper is to solve the problem of non-monotonicity of a multidelimiter code dictionary and investigate the possibility of use the multi-delimiter encoding on the preprocessing stage of natural language texts archiving. Results. The concept of the reverse multi-delimiter code is introduced. The monotonic encoding as well as the decoding mapping from the set of natural numbers to the set of reverse multi-delimiter code codewords is built. The efficiency of applying the reverse multidelimiter codes to natural language text compression is investigated together with the method of dictionary optimization. The provided experiments show that the reverse multi-delimiter encoding of English and German texts on the preprocessing stage and applying the proposed dictionary optimization method allows us to improve the marginal compression efficiency of the most powerful archivers in the maximal compression mode by about 1–3%.
uk
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України
Cybernetics and computer engineering
Informatics and Information Technologies
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
Application of Multi-Delimiter Codes to Natural Language Text Archiving
Article
published earlier
spellingShingle Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
Анісімов, А.В.
Завадський, І.О.
Чудаков, Т.С.
Informatics and Information Technologies
title Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
title_alt Application of Multi-Delimiter Codes to Natural Language Text Archiving
title_full Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
title_fullStr Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
title_full_unstemmed Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
title_short Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
title_sort застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
topic Informatics and Information Technologies
topic_facet Informatics and Information Technologies
url https://nasplib.isofts.kiev.ua/handle/123456789/179367
work_keys_str_mv AT anísímovav zastosuvannâmulʹtirozdilʹnikovihkodivdoarhivuvannâprirodnomovnihtekstiv
AT zavadsʹkiiío zastosuvannâmulʹtirozdilʹnikovihkodivdoarhivuvannâprirodnomovnihtekstiv
AT čudakovts zastosuvannâmulʹtirozdilʹnikovihkodivdoarhivuvannâprirodnomovnihtekstiv
AT anísímovav applicationofmultidelimitercodestonaturallanguagetextarchiving
AT zavadsʹkiiío applicationofmultidelimitercodestonaturallanguagetextarchiving
AT čudakovts applicationofmultidelimitercodestonaturallanguagetextarchiving