Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв
Метою статті є вирішення проблеми немонотонності словника мультироздільникових кодів та дослідження доцільності використання мультироздільникового кодування на стадії попереднього оброблення природномовних текстів у процесі їхнього архівування. Результати. Введено поняття реверсного мультироздільник...
Gespeichert in:
| Veröffentlicht in: | Cybernetics and computer engineering |
|---|---|
| Datum: | 2020 |
| Hauptverfasser: | , , |
| Format: | Artikel |
| Sprache: | Ukrainian |
| Veröffentlicht: |
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України
2020
|
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/179367 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв / А.В. Анісімов, І.О. Завадський, Т.С. Чудаков // Cybernetics and computer engineering. — 2020. — № 4 (202). — С. 5-24. — Бібліогр.: 17 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-179367 |
|---|---|
| record_format |
dspace |
| spelling |
Анісімов, А.В. Завадський, І.О. Чудаков, Т.С. 2021-05-01T19:54:29Z 2021-05-01T19:54:29Z 2020 Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв / А.В. Анісімов, І.О. Завадський, Т.С. Чудаков // Cybernetics and computer engineering. — 2020. — № 4 (202). — С. 5-24. — Бібліогр.: 17 назв. — укр. 2663-2578 DOI: https://doi.org/10.15407/kvt202.04.005 https://nasplib.isofts.kiev.ua/handle/123456789/179367 519.72 Метою статті є вирішення проблеми немонотонності словника мультироздільникових кодів та дослідження доцільності використання мультироздільникового кодування на стадії попереднього оброблення природномовних текстів у процесі їхнього архівування. Результати. Введено поняття реверсного мультироздільникового коду. Побудовано монотонне кодувальне, а також декодувальне відображення з множини натуральних чисел на множину кодових слів реверсного мультироздільникового коду. Досліджено ефективність застосування реверсних мультироздільникових кодів до стискання природномовних текстів. Запропоновано механізм оптимізації використання словника у процесі архівування природномовних текстів. Проведено експерименти, результати яких свідчать, що попереднє кодування англійських та німецьких текстів реверсними мультироздільниковими кодами та застосування запропонованого методу оптимізації словника дає змогу на 1–3% покращити граничну ефективність стискання, яка досягається найкращими архіваторами в режимі максимального стиснення. The purpose of the paper is to solve the problem of non-monotonicity of a multidelimiter code dictionary and investigate the possibility of use the multi-delimiter encoding on the preprocessing stage of natural language texts archiving. Results. The concept of the reverse multi-delimiter code is introduced. The monotonic encoding as well as the decoding mapping from the set of natural numbers to the set of reverse multi-delimiter code codewords is built. The efficiency of applying the reverse multidelimiter codes to natural language text compression is investigated together with the method of dictionary optimization. The provided experiments show that the reverse multi-delimiter encoding of English and German texts on the preprocessing stage and applying the proposed dictionary optimization method allows us to improve the marginal compression efficiency of the most powerful archivers in the maximal compression mode by about 1–3%. uk Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України Cybernetics and computer engineering Informatics and Information Technologies Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв Application of Multi-Delimiter Codes to Natural Language Text Archiving Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв |
| spellingShingle |
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв Анісімов, А.В. Завадський, І.О. Чудаков, Т.С. Informatics and Information Technologies |
| title_short |
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв |
| title_full |
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв |
| title_fullStr |
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв |
| title_full_unstemmed |
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв |
| title_sort |
застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв |
| author |
Анісімов, А.В. Завадський, І.О. Чудаков, Т.С. |
| author_facet |
Анісімов, А.В. Завадський, І.О. Чудаков, Т.С. |
| topic |
Informatics and Information Technologies |
| topic_facet |
Informatics and Information Technologies |
| publishDate |
2020 |
| language |
Ukrainian |
| container_title |
Cybernetics and computer engineering |
| publisher |
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України |
| format |
Article |
| title_alt |
Application of Multi-Delimiter Codes to Natural Language Text Archiving |
| description |
Метою статті є вирішення проблеми немонотонності словника мультироздільникових кодів та дослідження доцільності використання мультироздільникового кодування на стадії попереднього оброблення природномовних текстів у процесі їхнього архівування. Результати. Введено поняття реверсного мультироздільникового коду. Побудовано монотонне кодувальне, а також декодувальне відображення з множини натуральних чисел на множину кодових слів реверсного мультироздільникового коду. Досліджено ефективність застосування реверсних мультироздільникових кодів до стискання природномовних текстів. Запропоновано механізм оптимізації використання словника у процесі архівування природномовних текстів. Проведено експерименти, результати яких свідчать, що попереднє кодування англійських та німецьких текстів реверсними мультироздільниковими кодами та застосування запропонованого методу оптимізації словника дає змогу на 1–3% покращити граничну ефективність стискання, яка досягається найкращими архіваторами в режимі максимального стиснення.
The purpose of the paper is to solve the problem of non-monotonicity of a multidelimiter code dictionary and investigate the possibility of use the multi-delimiter encoding on the preprocessing stage of natural language texts archiving. Results. The concept of the reverse multi-delimiter code is introduced. The monotonic encoding as well as the decoding mapping from the set of natural numbers to the set of reverse multi-delimiter code codewords is built. The efficiency of applying the reverse multidelimiter codes to natural language text compression is investigated together with the method of dictionary optimization. The provided experiments show that the reverse multi-delimiter encoding of English and German texts on the preprocessing stage and applying the proposed dictionary optimization method allows us to improve the marginal compression efficiency of the most powerful archivers in the maximal compression mode by about 1–3%.
|
| issn |
2663-2578 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/179367 |
| citation_txt |
Застосування мульти-роздiльникових кодiв до архiвування природномовних текстiв / А.В. Анісімов, І.О. Завадський, Т.С. Чудаков // Cybernetics and computer engineering. — 2020. — № 4 (202). — С. 5-24. — Бібліогр.: 17 назв. — укр. |
| work_keys_str_mv |
AT anísímovav zastosuvannâmulʹtirozdilʹnikovihkodivdoarhivuvannâprirodnomovnihtekstiv AT zavadsʹkiiío zastosuvannâmulʹtirozdilʹnikovihkodivdoarhivuvannâprirodnomovnihtekstiv AT čudakovts zastosuvannâmulʹtirozdilʹnikovihkodivdoarhivuvannâprirodnomovnihtekstiv AT anísímovav applicationofmultidelimitercodestonaturallanguagetextarchiving AT zavadsʹkiiío applicationofmultidelimitercodestonaturallanguagetextarchiving AT čudakovts applicationofmultidelimitercodestonaturallanguagetextarchiving |
| first_indexed |
2025-12-01T11:35:56Z |
| last_indexed |
2025-12-01T11:35:56Z |
| _version_ |
1850860165412159488 |