Метод обробки неструктурованої інформації на веб-ресурсах

З часом стає складно знайти інформацію в мережі Інтернет, яка зацікавила раніше, навіть якщо відомо, на якому ресурсі вона була розміщена. Пошук відбувається за заданими параметрами, якщо інформація, що знаходиться на ресурсі, є структурованою та систематизованою. Якщо ж це не так, пошук значно ускл...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Проблемы управления и информатики
Дата:2022
Автори: Трофимчук, О.М., Кряжич, О.О.
Формат: Стаття
Мова:Українська
Опубліковано: Інститут кібернетики ім. В.М. Глушкова НАН України 2022
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/210903
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Метод обробки неструктурованої інформації на веб-ресурсах / О.М. Трофимчук, О.О. Кряжич // Проблеми керування та інформатики. — 2022. — № 4. — С. 106-115. — Бібліогр.: 16 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859540527510192128
author Трофимчук, О.М.
Кряжич, О.О.
author_facet Трофимчук, О.М.
Кряжич, О.О.
citation_txt Метод обробки неструктурованої інформації на веб-ресурсах / О.М. Трофимчук, О.О. Кряжич // Проблеми керування та інформатики. — 2022. — № 4. — С. 106-115. — Бібліогр.: 16 назв. — укр.
collection DSpace DC
container_title Проблемы управления и информатики
description З часом стає складно знайти інформацію в мережі Інтернет, яка зацікавила раніше, навіть якщо відомо, на якому ресурсі вона була розміщена. Пошук відбувається за заданими параметрами, якщо інформація, що знаходиться на ресурсі, є структурованою та систематизованою. Якщо ж це не так, пошук значно ускладнюється, часто й уповільнюється, через що користувач перериває сесію пошуку та оновлює параметри вибору. Тому багато інфор­мації, що знаходиться в мережі, не потрапляє до результатів запитів користувачів. Задачею цієї статті є представлення методу обробки обсягу неструктурованої неперервної, дискретизованої, регулярної та випадкової інформації на веб-ресурсах у вигляді чітко структурованого набору розподілених даних. У роботі аналізується можливість формування масиву інформації як кількості точок — джерел інформації. У цьому випадку для реалізації процесу структуризації найбільш універсальним є адаптивний алгоритм, який додаватиме нові точки — джерела інформації для її обробки веб-сервісом або для пошуку в масивах неструктурованої та слабо систематизованої інформації в залежності від розподілу вхідних даних. Зокрема, пропонується Z-перетворення, оскільки методи Z-апроксимації початково базуються на адаптивних алгоритмах, здатних змінювати свої функціональні особливості та при цьому надавати змінну точність обчислень. Особливістю вирішення поставленої задачі є приведення неперервної, дискретизованої, регулярної та випадкової інформації з її обробкою в цьому процесі до необхідного формату, що математично можна описати окремими функціями, які й використовуватимуться в алгоритмах обробки. Зазначене може бути використане для розробки веб-сервісів обробки інфор­мації для довідкових, пошукових, рекомендаційних систем та платформ дистанційного навчання, а також для вдосконалення алгоритмів обробки та відображення інформації для прикладного програмного забезпечення роботи браузерів. Over time, it becomes difficult to find information on the Internet that was previously of interest, even if it is known on which resource it was placed. The search is carried out according to the given parameters if the information on the resource is structured and systematized. However, if this is not the case, the search becomes significantly more difficult, often slower, which leads to the user interrupting the search session and updating the selection parameters. As a result, much of the information available on the web does not appear in the search results. The task of this article is to present a method for processing the volume of unstructured, continuous, discretized, regular, and random information on web resources into a clearly structured set of distributed data. The work analyzes the possibility of forming an information array as a number of points — sources of information. In this case, the most universal approach to implement the structuring process is an adaptive algorithm that adds new points — sources of information for processing by the web service or for searching in arrays of unstructured and poorly systematized information depending on the distribution of input data. In particular, Z-transformation is proposed, as Z-approximation methods are initially based on adaptive algorithms capable of changing their functional features while providing variable calculation accuracy. The uniqueness of solving the given task lies in converting continuous, discretized, regular, and random information, processing it in this process, and transforming it into the required format, which can be mathematically described by separate functions to be used in processing algorithms. This can be used for the development of web services for information processing for reference, search, recommendation systems, and e-learning platforms, as well as for improving the algorithms for processing and displaying information for application software for browser operations.
first_indexed 2026-03-13T10:00:41Z
format Article
fulltext © О.М. ТРОФИМЧУК, О.О. КРЯЖИЧ, 2022 106 ISSN 2786-6491 УДК: 004.043 О.М. Трофимчук, О.О. Кряжич МЕТОД ОБРОБКИ НЕСТРУКТУРОВАНОЇ ІНФОРМАЦІЇ НА ВЕБ-РЕСУРСАХ Трофимчук Олександр Миколайович Інститут телекомунікацій і глобального інформаційного простору НАН України, м. Київ, itgis@nas.gov.ua Кряжич Ольга Олександрівна Інститут телекомунікацій і глобального інформаційного простору НАН Укра- їни, м. Київ; Тернопільський національний технічний університет імені Івана Пулюя, economconsult@gmail.com З часом стає складно знайти інформацію в мережі Інтернет, яка зацікавила раніше, навіть якщо відомо, на якому ресурсі вона була розміщена. Пошук відбувається за заданими параметрами, якщо інформація, що знаходиться на ресурсі, є структурованою та систематизованою. Якщо ж це не так, по- шук значно ускладнюється, часто й уповільнюється, через що користувач перериває сесію пошуку та оновлює параметри вибору. Тому багато інфор- мації, що знаходиться в мережі, не потрапляє до результатів запитів корис- тувачів. Задачею цієї статті є представлення методу обробки обсягу не- структурованої неперервної, дискретизованої, регулярної та випадкової інформації на веб-ресурсах у вигляді чітко структурованого набору розпо- ділених даних. У роботі аналізується можливість формування масиву ін- формації як кількості точок — джерел інформації. У цьому випадку для реалізації процесу структуризації найбільш універсальним є адаптивний алгоритм, який додаватиме нові точки — джерела інформації для її оброб- ки веб-сервісом або для пошуку в масивах неструктурованої та слабо сис- тематизованої інформації в залежності від розподілу вхідних даних. Зок- рема, пропонується Z-перетворення, оскільки методи Z-апроксимації по- чатково базуються на адаптивних алгоритмах, здатних змінювати свої функціональні особливості та при цьому надавати змінну точність обчис- лень. Особливістю вирішення поставленої задачі є приведення непере- рвної, дискретизованої, регулярної та випадкової інформації з її обробкою в цьому процесі до необхідного формату, що математично можна описати окремими функціями, які й використовуватимуться в алгоритмах обробки. Зазначене може бути використане для розробки веб-сервісів обробки інфо- рмації для довідкових, пошукових, рекомендаційних систем та платформ дистанційного навчання, а також для вдосконалення алгоритмів обробки та відображення інформації для прикладного програмного забезпечення ро- боти браузерів. Ключові слова: алгоритм, перетворення, розкладання, формалізація, точ- ність, сервіс, живучість, параметр. Вступ Інформація в мережі Інтернет зберігається нескінченно довго [1], але ціка- вить користувача приблизно протягом шести годин з моменту публікації [2]. Піс- ля цього вона не зникає, але перестає відображуватись у топових новинах пошу- кових машин. І навіть при створенні уточненого запиту на пошук можуть бути видані матеріали, серед яких не завжди буде посилання на шукане. Виникає пи- Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2022, № 4 107 тання «Як швидко знайти інформацію, яка зацікавила раніше?» Споживач інфор- мації часто має класичні умови [3], коли мета, обмеження та наслідки дій, вико- наних на основі отриманої інформації, невідомі. І простим веб-серфінгом [4] це питання вирішити неможливо, бо пошукові та довідкові системи видають перши- ми посилання на рейтингові ресурси або нещодавно оновлену і змінену інформа- цію зі спеціалізованих довідкових і пошукових сервісів. Якщо ж припустити, що ситуація змінилася, користувач задає новий пошук, але до інформаційних масивів пошукових та довідкових систем необхідні зміни і доповнення не вносяться. Такий розвиток взаємодії користувача та машини щодо пошуку релевантної інформації можна представити за Д.О. Поспєловим [5], а са- ме — використати його погляди на ситуаційне управління, коли інформаційний контекст побудовано двома системоутворюючими компонентами — ситуаційною моделлю об’єкта та алгоритму виділення і порівняння ознак розвитку ситуації. А в залежності від того, яка це система — пошуку чи отримання довідки, — від- повідно можна використати «лабіринтну» гіпотезу мислення у вигляді прямого перебору варіантів ситуації, щоб знайти відповідь на запитання з максимально можливим забезпеченням повноти, несуперечності та своєчасності, або «модель- ну» гіпотезу з перебором комбінацій ознак для вибору ознак, які найкраще підхо- дять за запитом користувача і можуть бути визначені як релевантні дані. У цьому випадку живучість сервісу обробки інформації, реалізованого у мережі Інтернет на веб-платформі, можна визначити як виконання певного алгоритму, що повинен вибрати з певних масивів інформації ті данні, які максимально відповідають запи- ту користувача. Обрання такого алгоритму передбачає дослідження множин щодо ознак, властивостей та критеріїв. При цьому формування алгоритмічного базису для вирішення конкретної задачі залежить від різноманітності алгоритмів, які представлено у інформаційній системі, масовості набору алгоритмів для виконан- ня різноманітних задач та можливості їх адаптації до умов використання. Як за- значається у Г.С. Теслера [6], останні три таксони є основою класифікації алгорит- мічного базису як фактора процесу обчислень і можуть виступати критеріями оцінки живучості таких інформаційних систем. Зазначене можна продемонстру- вати на прикладах Вікіпедії, яка є інформаційно-довідковою системою, або бібліо- графічної бази даних Google Scholar, яка є інформаційно-пошуковою системою. Живучість таких систем оцінюється частотою оновлення та актуалізації інформації. Проте вказані особливості реалізуються лише за умов, що інформація у дові- дковій чи пошуковій системі чітко структурована та систематизована. Якщо ж це не так, отримати адекватні результати можна лише за умов обробки інформації та її приведення до структурованого набору даних. Постановка задачі Задача роботи — представити можливий метод обробки неструктурованої, неперервної, дискретизованої, регулярної та випадкової інформації на веб-ре- сурсах у вигляді чітко структурованого набору розподілених даних. Це можна по- яснити як перетворення інформації в масив даних за адаптивною схемою за двома паралельними напрямками. Перший — кількість інформації розглядається саме як число і важливість одержуваних відомостей із їхніми семантичними і прагматич- ними аспектами. Це — розуміння обсягу інформації з точки зору одержувача. Другий напрямок — використовуючи визначення загальної міри кількості інфор- мації К. Шеннона і ентропію [7], що дозволяє дослідити технічні питання коду- вання, передачі та зберігання. Цей аспект дозволяє зрозуміти обсяг одержуваної інформації та пов’язати його з поведінкою отримувача, який вирішує якісь зав- дання, що призводить до розуміння кількості семантичної інформації, яка слугує 108 ISSN 2786-6491 для оцінки прагматичної цінності та отримується і переробляється в масив матері- алу [8]. Масив інформації можна розглянути як кількість полюсних точок та то- чок — джерел інформації, представлених із використанням методу Дж. Зойтен- дейка [9, 10], які надають дані для побудови адекватної моделі. У такому разі для реалізації запропонованого найбільш універсальним виступатиме адаптивний ал- горитм, який додаватиме нові точки — джерела інформації для її обробки веб-сер- вісом або для пошуку в масивах неструктурованої та слабо систематизованої ін- формації в залежності від розподілу вхідних даних. І більш ефективним виглядає Z-перетворення [11], оскільки методи Z-апроксимації початково базуються на адаптивних алгоритмах, здатних змінювати свої функціональні особливості та при цьому надавати змінну точність обчислень. Ще одна цікава особливість Z-апрок- симації полягає в тому, що можна змінювати структурні особливості самого алго- ритму за рахунок початкових та кінцевих наближень та власних параметрів алго- ритму. Для вирішення поставлених задач це цікаво з точки зору того, що, наприк- лад, змінивши деякі параметри : , ,N a b t та інші для алгоритмів cos , sin , xx x a і подібних, можна отримати зміни початкового або заключного алгоритму за допомогою багаточленів або розкладення в ряд Тейлора, нев’язок та дробових розкладень. Вирішення поставленої задачі Особливістю вирішення поставленої задачі є розподілення неперервної, дис- кретизованої, регулярної та випадкової інформації з її обробкою в цьому процесі до отримання необхідного формату, що математично можна описати окремими функціями, які й використовуватимуться в алгоритмах обробки. Будемо вважати, що непуста множина об’єктів не задовольняє вимогам зада- ного пошуку, зокрема: немає визначеної ієрархічної структури скінченної множи- ни понять щодо предмета дослідження, існує деяка вільна інтерпретація понять і відношень, функції інтерпретації не формалізовані, аксіоми не визначені. Тобто масив інформації необроблений, і до початку формалізації слід вирішити задачу забезпечення структури інформації таким чином, щоб вона відповідала вимогам інформаційної системи та могла бути представлена у вигляді певних залежностей. У такому випадку обробку інформації та формалізацію можна провести за допомогою адаптивних алгоритмів [12], які дозволяють подавати та структурува- ти інформацію за певними правилами. Для цього спочатку виконується вибірка інформації, яка явно чи неявно стосується теми запиту, а потім проводяться функці- ональні перетворення та застосовуються методи породжуваних алгоритмів [13, 14] у системі генерування алгоритмів [15] із використанням нечіткої логіки, подаль- шої формалізації з застосуванням одного з базових методів наближення для отри- мання результату за максимумом чи мінімумом відповідності. За такого підходу в кінцевому підсумку веб-сервіс обробки інформації буде утримувати не просто масиви інформації, структуровані за тематикою, а: — сформовані масиви інформації на засадах символьних перетворень; — використання як загальних, так і окремих схем виведення інформації на запит; — переформулювання задач і запитів для виведення максимально повної та різної за структурою інформації за запитом. Базуючись на зазначеному, можна викласти основні вимоги до побудови адап- тивного алгоритму для побудови веб-сервісу обробки неструктурованої та слабко систематизованої інформації, враховуючи, зокрема, вимогу, що такі алгоритми повинні стабільно працювати на різній за характеристиками техніці серверів і адекватно функціонувати у різних браузерах: Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2022, № 4 109 — алгоритм повинен забезпечувати можливість рекурентного запису, тобто вираховувати значення на основі попередніх членів послідовності; — константи, що використовуються в таких алгоритмах, повинні або бути представлені малою кількістю цифр, або легко вираховуватись із довільною точністю; — повинна забезпечуватись можливість заміняти початкові або кінцеві на- ближення, тобто обраний механізм адаптації для різних видів запиту. Для виконання переліченого можна застосовувати однакові алгоритми для окремих груп використовуваних функцій. Наприклад, не можна використовувати деякі методи, що мають менше / 2n констант із довільною розрядністю, для роз- рахунку прямих та зворотних тригонометричних і гіперболічних функцій, експо- ненти і логарифму. А вирахування таких констант із довільною точністю вимагає певного часу та відповідних апаратних засобів, що вже не відповідає вимозі щодо роботи з різними апаратними засобами. А функції типу 3/ , 1/ , ,y x x x x не ви- магають вирахування таких констант, і до них може бути застосований один окремий алгоритм розрахунку. Також слід взяти до уваги, що вимога відносно констант повинна виконува- тись в алгоритмі щодо як початкових, так і кінцевих наближень. Але це матиме вплив на швидкодію засобів обчислювальної техніки фізичного сервера, а у під- сумку опосередковано — і на живучість інформаційної системи, реалізованої на веб-платформі. Знання про об’єкт як основа адаптивного алгоритму Сукупність взаємопов’язаних засобів формального визначення інформації та засобів маніпулювання цими визначеннями являє собою те, що складає термін «база знань». Від того, наскільки повно визначено знання про об’єкт, процес та предметну галузь із позиції отримання максимально повної відповіді на запит, за- лежать функціональні можливості веб-сервісу. Якщо визначити rC як реальні (перевірені, формалізовані, структуровані) дані, об’єкт, процес та предметну галузь із позиції функції мети роботи веб-сер- вісу, а через pC виразити поточну інформацію про об’єкт, процес та предметну галузь, яку отримано в результаті моніторингу на якийсь момент часу t, то можна отримати залежність – ,r p tC С m  (1) що можна пояснити як залежність повноти бази знань від інформації про стан об’єкта, процесу та предметної галузі в конкретний момент часу. Звичайно, сис- тема обробки інформації в Інтернет-середовищі буде живучою у разі 0.tm  Проте, як випливає з (1), первинна інформація поступатиме неформалізова- ною і неструктурованою (або слабко систематизованою). Неформалізована інфор- мація N, яка поступатиме до веб-сервісу обробки, повинна бути перетворена на формалізовані дані F, проте з породженням певної неадекватності: .)– (r tC N F m   (2) І знову виконуватиметься вимога живучості, коли ,( ) rN F C  а показник 0.tm  Поєднання формалізованих знань із неформалізованими знаннями у сервісах, реалізованих у Інтернет-середовищі, дозволяє отримати рішення проблемної за- дачі — забезпечення повної, несуперечної і своєчасної інформації про стан об’єкта чи системи на конкретний момент часу. Таку інформаційну систему можна розглянути в залежності від наявних фактів. Тоді залежність (2) можна навести так: 110 ISSN 2786-6491 1 , n j t j Cr N F m              (3) де n — кількість вибірок із масиву інформації, який характеризує подію j. Але формула (3) може бути представлена і так: 1 , n j t j Cr N m             (4) що означає неможливість формалізації інформації на момент часу t, наприклад, через відсутність такої інформації. Слід врахувати ще один випадок формалізації інформації на основі (3): 1 (   ) . L k k t k C N m     (5) Вона виникає при надходженні запиту, відповідь на який може представляти со- бою ієрархію (наприклад, із представленням гіперпосилань на інші варіанти від- повіді або додаткові інформаційні ресурси). L — кількість рівнів ієрархії відносно деякої події k. Тоді на вищому рівні ієрархії інформацію буде представлено більш релевантною, ніж на нижчому рівні, де інформація буде обмеженою. Наведену за- лежність (5) можна назвати частковою формалізацією, а виправляється вона шля- хом відсіювання нерелевантної інформації за кожним рівнем ієрархії та встанов- лення додаткових залежностей. Відповідно до (1) повна формалізація інформації може бути представле- на так: – 0.rC F  (6) Наведені залежності (1)–(6) дозволяють також зазначити, що для їх досяг- нення можна в кожному окремому випадку використовувати різноманітні функції (прямі та зворотні тригонометричні, гіперболічні, експоненту, логарифм), які в під- сумку дозволять побудувати зв’язки між окремими точками — джерелами інфор- мації, що були задані при виконанні пошуку (ключові слова). Визначення вимог до адаптивних алгоритмів для побудови веб-сервісу Для виконання поставленої в роботі задачі з реалізації методу обробки не- структурованої інформації більш підходять наступні математичні інструменти зав- дяки наявним у них перевагам: — рекурентний запис розкладань в ряди; для основних елементарних і де- яких спеціальних функцій найбільш загальним уявленням є розкладання в ряди нев’язок, при цьому початкове наближення 0y і відповідне йому 0x бажано представити у вигляді констант простого виду або легко обчислюваних виразів; — рекурентний запис розкладань за багаточленами; у деяких випадках є ра- ціональним (наприклад, із застосуванням багаточленів Ерміта), хоча не завжди простим при здійсненні програмування такого алгоритму; — обчислення ланцюгового дробу, включаючи розкладання за нев’язками, що досить зручно для представлення у вигляді таблиці бази даних; — цікавий метод для реалізації на веб-сервісі обробки інформації — вираху- вання значень на основі попередніх членів послідовності для обчислення нескін- ченних творів та їх приведення до необхідної структури з метою адекватного ві- дображення на сторінці; Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2022, № 4 111 — методи Z-апроксимації, що також цікаві для реалізації на веб-сервісі, коли використовується заданий великий набір методів для початкових і завершальних наближень і є можливість вибору співвідношення складності рекурентного від- ношення та початкового або завершального наближення, що можна використову- вати для представлення неявної інформації та мікроданих; — звичайні ітераційні формули, отримані заздалегідь, наприклад при розкла- данні за нев’язками; знову-таки, зручні тим, що існує великий набір методів для отримання ітераційних формул і початкових наближень, що може бути представ- лено в таблиці бази даних. Зазначене може бути реалізовано у алгоритмах послідовно-паралельної архі- тектури. Для виконання поставлених задач також можна використовувати рішення від- повідних диференціальних та інтегральних рівнянь, проте тут не виконується ви- мога за часом та точністю обчислень. Ітераційні методи, як, наприклад, «цифра за цифрою», не вимагають вирахування занадто складних констант, але дещо про- грають у точності або у часі, як і динамічні методи рахунку. Наведені методи мають значну перевагу — можливість скоротити час обчис- лень за рахунок використання змінної точності обчислень. Із цієї точки зору най- цікавішими є методи Z-апроксимації, у яких при кожній наступній ітерації збіль- шується точність розрахунків. Варто дещо зазначити про метод вирахування значень на основі попередніх членів послідовності для обчислення нескінченних творів, який дозволяє здій- снювати обчислення зі змінною точністю без приведення до заданого інтервалу, що скорочує час обробки інформації. Щоб довести ефективність застосування Z-апроксимації та адаптивних алго- ритмів на цій основі для вирішення задачі, можна розглянути модель погрішності Z-апроксимації функції з використанням початкових або заключних наближень. У загальному вигляді таку модель можна записати як ( / ) [ / ],m n mn l nC x N x N    де nC — константи, які в своїй більшості залежать від параметру ;n N — число, яке визначає величину зменшення інтервалу; m — кількість ітерацій із викорис- танням рекурентної формули; n — порядок члена виразу, що відкидається при апроксимації під час початкового або заключного наближення рекурентного спів- відношення logN nl C  . Базуючись на цій моделі, можна визначити значення параметрів m та .n Також слід зауважити, що використання Z-апроксимації еквівалентне багато- кратному зменшенню інтервалу, пропорційному значенню величини 1/ .mN Збіль- шення величини N призводить до ускладнення рекурентних формул, основаних на Z-апроксимації, у зв’язку з чим визначення використовуваної для обраної адап- тивної алгоритмізації апроксимації та сам алгоритм можна вживати з префік- сом .mZ Цей префікс вперше було застосовано у [16], проте без наведення визна- чення та пояснення причин введення. Крім того, зі збільшенням N збільшується можливість розпаралелювання рекурентних відношень на основі mZ -апроксимації. Для дослідження цього почат- кову модель погрішності можна представити у вигляді ( / ( ) ) ,m m n n nC x N N     де , ,N m n   — прирощення відповідних параметрів ,N m та n . 112 ISSN 2786-6491 Логарифм цього виразу має такий вигляд: ln ln ( )(ln ( ) ln( )).nC n n x m m N N       Із останнього випливає, що збільшення величин m та n позначається на зменшенні погрішності  . Але при послідовних і паралельних розрахунках алго- ритми вибору параметрів будуть розрізнятися. Тому слід зауважити, що збіль- шення параметра m призводить до збільшення кількості ітерацій за рекурентною формулою та зростання погрішності. Збільшення параметра n призведе до збіль- шення кількості членів при початковому чи кінцевому наближенні, а також до зменшення .nC Тому для кожного фіксованого N необхідно обрати співвідно- шення між m та .n Zm-функція для максимального наближення отриманого значення Для побудови алгоритму обробки неструктурованої інформації за допо- могою mZ -апроксимації слід ввести математичне представлення mZ -функції. Під mZ -функцією розуміється пряме чи зворотне рекурентне співвідношення виду 1 ( )m mZ f Z  (7) або 1 ( ).m mZ f Z  (8) У (7) задається деяке початкове наближення 0 ,Z а функція mZ виступає шу- каною функцією. У випадку (8) задане деяке початкове наближення 0 ,mZ а функ- ція 0Z виступає шуканою функцією. Формула (8) може бути отримана з виразу виду ( / ) [ ( )]m mZ x n f Z x (9) шляхом заміни у (9) / m mx x n (10) при визначенні mZ як ( ),m mZ Z x (11) де n можна представити як базис системи розрахунку. Формула (11) може бути отримана з виразу ( ) [ ( )]m mZ nx f Z x (12) шляхом заміни (10) при прийнятому визначенні (11). Як початкове наближення для (8) можна взяти декілька членів розкладення функції mZ в ряд Тейлора. Для оцінки абсолютної погрішності методу (12) до формули (7) або (8) слід підставити вираз ,m m mZ Z   (13) де mZ — точне значення ,mZ m — абсолютна похибка .mZ У підсумку з виразу (13) отримуємо оцінку 1 1m mk   (14) Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2022, № 4 113 або 1 2 ,m mk   (15) де 1 2,k k — константи. Із виразу (14) випливає, що оцінка абсолютної погрішності методу у випадку прямої рекурентної послідовності має такий вигляд: 1 0.m m k   (16) Із виразу (15) можна зробити висновок, що оцінка абсолютної погрішності методу у випадку зворотної рекурентної послідовності має вигляд 0 2 .m mk   (17) Враховуючи, що існує деяка помилка початкових даних і якась оцінка цієї помилки, яка може бути представлена як 0 ,p  де p — константа, отримаємо з (16) наступне: 1 ,m m k p  (18) а для зворотної рекурентної послідовності з (17) отримаємо 0 2 .mk p  (19) У загальному випадку, враховуючи (18) та (19), mZ -апроксимацію можна представити у вигляді ( ( )) [ ( ( ))],m mZ x f Z x   де 1( ),mx x  1( )x — функція, взаємно обернена до функції ( ).x Наприклад, для функції lny x після виконання m разів операції видобу- вання кореня n буде отримано lim 1,m m x   тобто ln 0mx  при .m У цьому випадку ln ln .m mx n x Тому можна представити запис як 1ln ln ,n m mx n x  тобто 1 .m mZ nZ  Проте в останньому випадку виникає можливість значного накопичення по- грішності. Але у випадку, коли 2,n  можна використати формулу ln(1 )   x  2ln(1 /1 1 ).x x    Висновок У роботі представлено один із варіантів реалізації методу обробки неструк- турованої інформації за допомогою ряду математичних інструментів у адаптив- ному алгоритмі. Це стосується алгоритмів, які дозволяють перетворювати великі обсяги неструктурованої неперервної, дискретизованої, регулярної та випадкової інформації на веб-ресурсах у структурований набір даних. Доведено ефективність застосування Z-апроксимації для вирішення задачі забезпечення живучості веб- сервісу шляхом розробки моделі погрішності Z-апроксимації функції з викорис- 114 ISSN 2786-6491 танням початкових або заключних наближень при відборі окремих неструктуро- ваних даних у структурований масив інформації. Наведено визначення mZ -ап- роксимації як апроксимації з багатократним зменшенням інтервалу, пропорцій- ного значенню величини 1/ mN , при покроковому переборі неструктурованих даних. Зазначене може використовуватись при розробці веб-сервісів обробки інфор- мації для довідкових, пошукових, рекомендаційних систем та платформ дистан- ційного навчання, а також для вдосконалення алгоритмів обробки та відображен- ня інформації для прикладного програмного забезпечення роботи браузерів. О. Trofymchuk, О. Kryazhych METHOD FOR PROCESSING UNSTRUCTURED INFORMATION ON WEB RESOURCES Оleksandr Trofymchuk Institute of Telecommunications and Global Information Space of the NASU, Kyiv, itgis@nas.gov.ua Olga Kryazhych Institute of Telecommunications and Global Information Space of the NASU, Kyiv, Ternopil Ivan Puluj National Technical University, economconsult@gmail.com Over time, it becomes more difficult to find information on the Internet that users were interested in earlier, even if the user knows on which resource it was posted. The search is performed adequately to the specified parameters, if the infor- mation that is on the resource is structured and systematized. Otherwise, the search becomes much more complicated. Therefore, a lot of information that is currently available on the network is not received when displaying results for user requests. The task of this paper is to present to implement a method for pro- cessing the volume of unstructured continuous, discretized, regular and random information on web resources into a clearly structured set of distributed data. The paper analyzes the possibility of forming an array of information as the number of points-sources of information. In this case, to implement the process of structuring information, the most universal will be an adaptive algorithm that will add new points-sources of information for its processing by the web service or when searching in arrays of unstructured and poorly systematized infor- mation, depending on the distribution of input data. In particular, the Z-tran- sformation is proposed, since Z-approximation methods are initially based on adaptive algorithms that can change their functional features and at the same time provide variable accuracy of calculations. A special feature of solving this task is the distribution of continuous, discretized, regular and random infor- mation with its processing in this process to the required format, which can be mathematically described by separate functions that will be used in processing algorithms. This can be used in the development of web-based information pro- cessing services for reference, search, recommendation systems and distance learning platforms, as well as used to improve information processing algo- rithms and display information for browser application software. Keywords: algorithm, transformation, decomposition, formalization, accuracy, service, survivability, parameter. Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2022, № 4 115 REFERENCES 1. «Characterization of Specifications». Characterization of proposed standards. IETF. January 2014. sec. 3. DOI:10.17487/RFC7127. RFC 7127. Retrieved March 11, 2016. 2. Ашманов И., Иванов А. Оптимизация и продвижение сайтов в поисковых системах. СПб. : Питер, 2011. 464 с. 3. Беллман Р., Заде Л. Принятие решений в расплывчатых условиях. Вопросы анализа и про- цедуры принятия решений: сб. пер. М. : Мир, 1976. С. 172–215. 4. Новые слова и значения. Словарь-справочник по материалам прессы и литературы 90-х го- дов XX века. СПб. : Дмитрий Буланин, 2014. 1360 с. 5. Поспелов Д.А. Ситуационное управление: теория и практика. М. : Наука, 1986. 288 с. 6. Теслер Г.С. Новая кибернетика. Киев : Логос, 2004. 404 с. 7. Шеннон К. Работы по теории информации и кибернетике. М. : Иностранная литература, 1963. 832 с. 8. Энциклопедия кибернетики: в 2 т. / Под. ред. В.М. Глушкова и др. Киев : Главная редакция Украинской Советской энциклопедии, 1974. 1228 с. 9. Трофимчук О.М., Кряжич О.О. Алгоритм опису яружних цільових функцій. Штучний ін- телект. 2015. № 1–2 (67–68). С. 190–199. 10. Трофимчук О.М., Кряжич О.О. Апроксимація функцій для створення алгоритму опису пе- ресіченої місцевості. Системні дослідження та інформаційні технології. 2016. № 1. С. 134–141. 11. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. М. : Мир. 1978. 848 с. 12. Zaknich А. Principles of adaptive filters and self-learning systems. New York : Springer Science & Business Media. 2005. 408 p. 13. Чумаченко И.В., Косенко В.В. Оптимизация алгоритмического обеспечения в задачах пре- образования информации. Системи обробки інформації: зб. наук. пр. Харків : НАНУ, ПАНМ, ХВУ. 2002. Вип. 1 (17). С. 248–252. 14. Косенко В.В., Можаєв О.О., Гайдаров С.Ю. Методика оптимізації алгоритмів. Систе- ми обробки інформації: зб. наук. пр. Харків : НАНУ, ПАНМ, ХВУ. 2004. Вип. 4 (32). С. 114–117. 15. Ахо А., Хопкрофт Дж., Ульман Д. Структуры данных и алгоритмы. М. : Издательский дом «Вильямс», 2000. 384 с. 16. Теслер Г.С. Адаптивные аппроксимации и итеративные процессы. Математичні машини і системи. 2004. № 2. С. 22–41. Отримано 01.11.2022
id nasplib_isofts_kiev_ua-123456789-210903
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0572-2691
language Ukrainian
last_indexed 2026-03-13T10:00:41Z
publishDate 2022
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Трофимчук, О.М.
Кряжич, О.О.
2025-12-20T12:02:42Z
2022
Метод обробки неструктурованої інформації на веб-ресурсах / О.М. Трофимчук, О.О. Кряжич // Проблеми керування та інформатики. — 2022. — № 4. — С. 106-115. — Бібліогр.: 16 назв. — укр.
0572-2691
https://nasplib.isofts.kiev.ua/handle/123456789/210903
004.043
10.34229/2786-6505-2022-4-7
З часом стає складно знайти інформацію в мережі Інтернет, яка зацікавила раніше, навіть якщо відомо, на якому ресурсі вона була розміщена. Пошук відбувається за заданими параметрами, якщо інформація, що знаходиться на ресурсі, є структурованою та систематизованою. Якщо ж це не так, пошук значно ускладнюється, часто й уповільнюється, через що користувач перериває сесію пошуку та оновлює параметри вибору. Тому багато інфор­мації, що знаходиться в мережі, не потрапляє до результатів запитів користувачів. Задачею цієї статті є представлення методу обробки обсягу неструктурованої неперервної, дискретизованої, регулярної та випадкової інформації на веб-ресурсах у вигляді чітко структурованого набору розподілених даних. У роботі аналізується можливість формування масиву інформації як кількості точок — джерел інформації. У цьому випадку для реалізації процесу структуризації найбільш універсальним є адаптивний алгоритм, який додаватиме нові точки — джерела інформації для її обробки веб-сервісом або для пошуку в масивах неструктурованої та слабо систематизованої інформації в залежності від розподілу вхідних даних. Зокрема, пропонується Z-перетворення, оскільки методи Z-апроксимації початково базуються на адаптивних алгоритмах, здатних змінювати свої функціональні особливості та при цьому надавати змінну точність обчислень. Особливістю вирішення поставленої задачі є приведення неперервної, дискретизованої, регулярної та випадкової інформації з її обробкою в цьому процесі до необхідного формату, що математично можна описати окремими функціями, які й використовуватимуться в алгоритмах обробки. Зазначене може бути використане для розробки веб-сервісів обробки інфор­мації для довідкових, пошукових, рекомендаційних систем та платформ дистанційного навчання, а також для вдосконалення алгоритмів обробки та відображення інформації для прикладного програмного забезпечення роботи браузерів.
Over time, it becomes difficult to find information on the Internet that was previously of interest, even if it is known on which resource it was placed. The search is carried out according to the given parameters if the information on the resource is structured and systematized. However, if this is not the case, the search becomes significantly more difficult, often slower, which leads to the user interrupting the search session and updating the selection parameters. As a result, much of the information available on the web does not appear in the search results. The task of this article is to present a method for processing the volume of unstructured, continuous, discretized, regular, and random information on web resources into a clearly structured set of distributed data. The work analyzes the possibility of forming an information array as a number of points — sources of information. In this case, the most universal approach to implement the structuring process is an adaptive algorithm that adds new points — sources of information for processing by the web service or for searching in arrays of unstructured and poorly systematized information depending on the distribution of input data. In particular, Z-transformation is proposed, as Z-approximation methods are initially based on adaptive algorithms capable of changing their functional features while providing variable calculation accuracy. The uniqueness of solving the given task lies in converting continuous, discretized, regular, and random information, processing it in this process, and transforming it into the required format, which can be mathematically described by separate functions to be used in processing algorithms. This can be used for the development of web services for information processing for reference, search, recommendation systems, and e-learning platforms, as well as for improving the algorithms for processing and displaying information for application software for browser operations.
uk
Інститут кібернетики ім. В.М. Глушкова НАН України
Проблемы управления и информатики
Методи обробки та захисту інформації
Метод обробки неструктурованої інформації на веб-ресурсах
Method for processing unstructured information on web resources
Article
published earlier
spellingShingle Метод обробки неструктурованої інформації на веб-ресурсах
Трофимчук, О.М.
Кряжич, О.О.
Методи обробки та захисту інформації
title Метод обробки неструктурованої інформації на веб-ресурсах
title_alt Method for processing unstructured information on web resources
title_full Метод обробки неструктурованої інформації на веб-ресурсах
title_fullStr Метод обробки неструктурованої інформації на веб-ресурсах
title_full_unstemmed Метод обробки неструктурованої інформації на веб-ресурсах
title_short Метод обробки неструктурованої інформації на веб-ресурсах
title_sort метод обробки неструктурованої інформації на веб-ресурсах
topic Методи обробки та захисту інформації
topic_facet Методи обробки та захисту інформації
url https://nasplib.isofts.kiev.ua/handle/123456789/210903
work_keys_str_mv AT trofimčukom metodobrobkinestrukturovanoíínformacíínavebresursah
AT krâžičoo metodobrobkinestrukturovanoíínformacíínavebresursah
AT trofimčukom methodforprocessingunstructuredinformationonwebresources
AT krâžičoo methodforprocessingunstructuredinformationonwebresources