Формування пошукового динамічного векторного простору

У статті обґрунтовується подання текстового документа у векторному вигляді для подальшого застосування алгебраїчного апарату в алгоритмах пошуку інформації. Текстовий документ представляється TF-IDFмоделлю, в яку введено динамічну складову. В статье обосновывается представление текстового документа...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Штучний інтелект
Дата:2015
Автор: Духновська, К.К.
Формат: Стаття
Мова:Українська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2015
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/117202
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Формування пошукового динамічного векторного простору / К.К. Духновська // Штучний інтелект. — 2015. — № 3-4. — С. 28-36. — Бібліогр.: 4 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859911741028171776
author Духновська, К.К.
author_facet Духновська, К.К.
citation_txt Формування пошукового динамічного векторного простору / К.К. Духновська // Штучний інтелект. — 2015. — № 3-4. — С. 28-36. — Бібліогр.: 4 назв. — укр.
collection DSpace DC
container_title Штучний інтелект
description У статті обґрунтовується подання текстового документа у векторному вигляді для подальшого застосування алгебраїчного апарату в алгоритмах пошуку інформації. Текстовий документ представляється TF-IDFмоделлю, в яку введено динамічну складову. В статье обосновывается представление текстового документа в векторном виде для дальнейшего применения алгебраического аппарата в алгоритмах поиска информации. Текстовый документ представляется TF-IDF моделью, в которую введено динамическую составляющую. The article substantiates the idea of text document vector for further use in the apparatus of algebraic algorithms for searching information. Text Document appears as TF-IDF model in which dynamic component is introduced
first_indexed 2025-12-07T16:02:51Z
format Article
fulltext ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 28 УДК 004.04.043; 004.912; 004.62 К.К. Духновська Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України Україна, 03680, м. Київ, пр. Глушкова, 40 ФОРМУВАННЯ ПОШУКОВОГО ДИНАМІЧНОГО ВЕКТОРНОГО ПРОСТОРУ K.K. Duchnovska International Research and Training Center for Information Technologies and Systems of the NAS and MES of Ukraine 40 Glushkova ave., Kyiv, Ukraine, 03680 FORMATION OF THE RESEARCH DYNAMIC VECTOR SPACE К.К. Духновская Международный научно-учебный центр информационных технологий и систем НАН и МОН Украины Украина, 03680, г.Киев, пр. Глушкова, 40 ФОРМИРОВАНИЕ ПОИСКОВОГО ДИНАМИЧЕСКОГО ВЕКТОРНОГО ПРОСТРАНСТВА У статті обґрунтовується подання текстового документа у векторному вигляді для подальшого застосування алгебраїчного апарату в алгоритмах пошуку інформації. Текстовий документ представляється TF-IDFмоделлю, в яку введено динамічну складову. Ключові слова: текстовий пошук, TF-IDFмодель, пошуковий векторний простір. The article substantiates the idea of text document vector for further use in the apparatus of algebraic algorithms for searching information. Text Document appears as TF-IDF model in which dynamic component is introduced Keywords: text search, TF-IDF model, the search vector space. В статье обосновывается представление текстового документа в векторном виде для дальнейшего применения алгебраического аппарата в алгоритмах поиска информации. Текстовый документ представляется TF-IDF моделью, в которую введено динамическую составляющую. Ключевые слова: текстовый поиск, TF-IDF модель, поисковое векторное пространство. Вступ Зростання матеріальних і духовних цінностей людства, темпів розвит- ку науки і техніки знаходить своє відображення у великій кількості не структурованих документів, що заповнюють простір сучасних інформа- ційних сховищ. Основна частина інформації (близько 80%) представлена в текстовому вигляді. Тому проблематика текстового пошуку є особливо актуальною. Для побудови алгоритмів текстового пошуку активно застосовується математичний апарат. Але представлення текстового документа як вектора не сприймається, а іноді заперечується. Тому дуже важливо розглянути дане представлення з позиції векторної аксіоматики. ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 29 Одночасно, у всіх відомих моделях текстового документа використо- вуються статичні елементи, що не відповідає дійсності. Тому як актуаль- ність документів та інформації взагалі змінюється з часом. Впровадження динаміки в елементи моделі текстового документа є необхідним кроком для покращення якості пошуку і оптимізації всього пошукового процесу. Для викладення матеріалу статті наведемо деякі відомі визначення. Визначення 1. Під текстом розуміють кінцеву множину слів, які утворюють інформативне повідомлення і об'єднані лексичним, граматичним, змістовним і частотним співвідношенням. Визначення 2. Інформаційним пошуком називають процес, в результаті якого відбувається виявлення потрібної інформації в деякій множині текстових документів, фактів і т.д.. Інформаційними ресурсами (IP) будемо називати документи подані в електронному вигляді. Накопичення інформації. На рис. 1 схематично представлено процес накопичення інформаційних ресурсів в електронному сховищі. Під електронним сховищем розуміється довільне файлове сховище текстових ІР. Рис.1. Первісна обробка ІР У першу чергу ІР реєструється в базі електронного сховища. Після реєстрації ІР надходить на виділення посилань. Посилання з поточного ІР потрапляють в чергу для завантаження з цієї адреси нового ІР. Далі ІР надходить в модуль, в якому видаляються з ІР керуючі символи, команди і т.п. На виході отримуємо текст ІР без усього зайвого, який передається до парсеру – спеціального модуля, функцією якого є синтаксичний аналіз тексту та виокремлення слів з тексту ІР. Даний модуль розраховує всі метрики, які необхідні для класифікації ІР та його пошуку. Потім ІР, або множина відокремлених термінів з нього подається в індексатор, який класифікує ІР, тобто ІР Реєстрація ІР Модуль роботи з посиланнями Модуль роботи з керуючими символами та словами Парсер Індексатор Індекс ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 30 знаходить належне йому місце в категоріях електронного сховища, і записує у відповідному форматі. Кожен текстовий ІР – це сукупність термінів, яка несе деяку інформацію. Термін – це синтаксично самостійний комплекс морфем, що утворюють жорстко пов'язану структуру. Термін відрізняється від поєднання слів тим, що деякі його елементи не можуть вживатися в синтаксично ізольованій позиції. Крім того, елементи всередині терміну пов'язані один з одним набагато більш жорсткими і міцними зв'язками, ніж елементи речення (тобто поєднання слів). Щоб врахувати всі словоформи окремого терміну застосовуються алгоритми лемматізації і стеммінгу. Лемматізація – це приведення різних форм термінів у відповідність з граматичними формами певної мови. Стеммінгом називають наближений евристичний процес, на вході якого від слів відкидаються закінчення в розрахунку на те, що в більшості випадків це себе виправдає, тобто мається на увазі видалення похідних афіксів. Із застосуванням механізмів стеммінга з’являється можливість робити пошук ІРз урахуванням морфології слова. Це означає, що при введенні користувачем запиту, враховуються всі словоформи даного терміну. На сьогодні існує багато різноманітних алгоритмів, які впроваджують стеммінг. Серед них виділяють стреммер Портера, алгоритми KSTEM іn-грам. Алгоритм Портера не використовує баз основ слів, а лише, застосовуючи послідовно ряд правил, відсікає закінчення і суфікси, ґрунтуючись на особливостях мови, у зв'язку з чим працює швидко, але не завжди безпомилково. Перевагою алгоритму KSTEM є те, що він не залежить від частини мови терміну, а спирається на алгоритм заміни суфікса. Алгоритм n  грам ґрунтується на принципі: «Якщо слово А збігається зі словом B з урахуванням декількох помилок, то з великою часткою ймовірності в них буде хоча б один спільний підрядок довжиною N». Ці підрядки довжиною N і називаються n-грамами. Під час індексації слово розбивається на такі n-грами, а потім це слово потрапляє в списки для кожної з цих N-грам. Під час пошуку запит також розбивається на n- грами, і для кожної з них проводиться послідовний перебір списку термінів, що містять даний підрядок [1]. Моделі ІР Під моделлю ІР розуміють сукупність будь-яких характеристик ресурсу, які враховуються системою при його обробці. Характеристики ІР поділяють на два типи: пов'язані з текстом ІР і непов'язані з текстом – атрибути ІР. До характеристик, пов'язаних з текстом, відносять присутність термінів, їх розташування в тексті відносно один одного, форматування документа, структура ІР. Характеристики, не пов'язані з текстом, в системах Web-пошуку називаються «мета-атрибутами». Такі атрибути беруться з інших джерел. Для цього виду пошуку як атрибути використовують URL-адресу ІР в мережі Internet, інформацію про час створення або зміни ресурсу. У моделях ІР, характеристики яких пов’язані з текстом, у простому випадку розглядається тільки факт наявності або відсутності слів у документі. Таку модель ІР називають бінарною. Більш удосконаленим варіантом такої моделі є підхід, де для кожного терміну вказується не тільки його наявність, але і деяка "вага". ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 31 Найбільш поширеними методами зважування термінів в ІР, пов’язані з отриманням наступних характеристик: 1) кількістю появ термінів у даному ІР. Дана характеристика досить проста й очевидна. Якщо термін частіше міститься в тексті ІР, то, швидше за все, цей ІР більш пов'язаний за змістом з цим терміном. Недоліком цього методу оцінки "ваги" є те, що якщо колекція містить ІР різної довжини, то більшу вагу будуть отримувати більш довгі ресурси, так як в них більше термінів; 2) частотою появи термінів в ІР (ТF). Дана характеристика обчислюється як відношення числа входження терміну до загальної кількості термінів ІР. Недоліком є те, що в даному випадку, навпаки, недооцінюються довгі документи, так як в них більше термінів і їх середня частота в тексті ІР нижча. Для вирішення цієї проблеми застосовується доповнена нормалізована частота, яка обчислюється як 0.5+0.5(TF/ATF), де ATF-середня частота терміна в електронному сховищі; 3) логарифмом частоти входження терміну. У даному випадку вага терміну, що входить в текст ІР визначається як 1+log(TF), де TF - частота терміна. Для компенсації ефекту різної довжини ресурсів використовують аналогічну нормалізацію частоти. У цьому випадку формула виглядає як (1+log(TF)/(1+log (MTF)), де MTF-максимальна частота терміну в електронному сховищі ІР. Експериментально доведено, що урахування ваги документа на підставі статистичних характеристик покращує якість пошуку. Практично всі сучасні пошукові системи використовують одну з описаних характеристик, в основному варіанти використання частоти терміну в тексті ІР (TF). Пошуковий векторний простір Нехай маємо словник – упорядкований набір термінів, потужність якого M. Потужність словника – це кількість термінів, які в ньому містяться. Після первинного опрацювання ІР (рис. 2) можна представити: Di = <w1, w2, …, wMi>, (1) де wk– частота терміна k-ого терміну(i= ̿1,𝑀); W – словник. Рис. 2. Витяг термінів з документа Нехай частота терміна розраховується за формулою TF-IDF: 𝑇𝐹 = 𝑚𝑘𝑖 𝑀𝑖 , (2) Документ Термін1 Термін2…ТермінMi Словник Термін1 Термін2 ……… ТермінM ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 32 де: mki – кількість входжень k-ого терміну в i-ий ІР; Mi – загальна кількість термінів в вi-омуІР; 𝐼𝐷𝐹 = 𝑙𝑛⁡( 𝑁 𝑁𝑘 ) (3) де:N – загальна кількість ІР в електронному сховищі; Nk – кількість ІР, в яких зустрічається k-ий термін. Тоді: 𝑤𝑘 = 𝑇𝐹 ∗ 𝐼𝐷𝐹 (4) Доведемо, що представлення (1) є вектором. Згідно з визначенням, вектором називається сукупність дійсних чисел, розташованих у певному порядку[2]. Представлення (1) відповідає визначенню, тому як кожна координата𝑡𝑘 займає місце відповідне розташуванню у словнику W. Для представлення (1) зберігаються всі векторні аксіоми. 1.Сума двох векторів в даному випадку – це злиття двох ІР: 𝐷1 + 𝐷2 = 𝐷2 + 𝐷1 =< 𝑤1 1 + 𝑤2 1,𝑤1 2 + 𝑤2 2,…, 𝑤 1 𝑀 + 𝑤 2 𝑀 >  комутативність складання. 2.(𝐷1 + 𝐷2) + 𝐷3 = 𝐷1 + (𝐷2 + 𝐷3) =< 𝑤1 1 + 𝑤2 1 + 𝑤3 1,𝑤1 2 + 𝑤2 2 + 𝑤3 2,…, 𝑤 1 𝑀 + 𝑤 2 𝑀 + 𝑤 3 𝑀 >  асоціативність складання. 3. Нехай λ – скаляр. Добуток ІР на скаляр – це тиражування цього ресурсу скаляр разів. λ(𝐷1 + 𝐷2) = λ𝐷1 + λ𝐷2 = =< λ𝑤1 1 + λ𝑤2 1,λ𝑤1 2 + λ𝑤2 2,…, λ𝑤 1 𝑀 + λ𝑤 2 𝑀 >  дистрибутивність добутку відносно суми. 4. Нехай µ - скаляр, тоді: (λ + µ)𝐷 = λ𝐷 + µ𝐷 = < (λ + µ)𝑤1 1,(λ + µ)𝑤1 2,…, (λ + µ)𝑤 1 𝑀 > 5.λ(µ𝐷) = (λµ)𝐷 = < λµ𝑤1 1,λµ𝑤1 2,…, λµ𝑤 1 𝑀 > - асоціативність добутку. 6.0⃗ – нульовий вектор: <0, 0, …, 0>  порожній ІР. Тоді: 0*D= < 0 ∗ 𝑤1 1,0 ∗ 𝑤1 2,…, 0 ∗ 𝑤 1 𝑀 > =<0,0,…,0>=0⃗ – добуток будь-якого вектора на 0 є нульовий вектор – порожній ІР. 7. 1*D= < 1 ∗ 𝑤1 1,1 ∗ 𝑤1 2,…, 1 ∗ 𝑤 1 𝑀 >=< 𝑤1 1,𝑤1 2,…, 𝑤 1 𝑀 > =D– добуток будь- якого вектора на 1 дорівнює тому ж самому вектору. Віднімання двох векторів визначається через добуток на -1 і формулою для суми: 𝐷 1 ‒ 𝐷2 = 𝐷1 + ( ‒ 1)𝐷2 Тобто: 𝐷1 ‒ 𝐷2 = < 𝑤1 1 ‒ 𝑤2 1,𝑤1 2 ‒ 𝑤2 2,…, 𝑤 1 𝑀 ‒ 𝑤 2 𝑀 > і тоді виходить, що віднімання є дія обернена додаванню:(𝐷1 ‒ 𝐷2) + 𝐷2 =𝐷1 . Нульовий вектор має властивість: 𝐷 + 0⃗= D. З усього вище сказаного, можна зробити висновок, що представлення ІР у вигляді (1) є вектором, а множина ІР складає M-вимірний векторний простір. ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 33 Впровадження динаміки в M-вимірний пошуковий векторний простір ІР мають атрибутивними, прагматичними і динамічними властивостями. Атрибутивні  це ті властивості, без яких інформація не існує. Прагматичні властивості характеризують ступінь корисності інформації для користувача, споживача і практики. Динамічні властивості характеризують зміну характеристик ІР в часі. Найважливішими серед атрибутивних властивостей ІР є дискретність і неперервність. Дискретність виявляється в тому, що в ІР вміщені відомості, знання  дискретні, тобто характеризують окремі фактичні дані, закономірності та властивості досліджуваних об'єктів, які поширюються у вигляді різних повідомлень. ІР, як повідомлення, в яких відображена інформація, мають властивість зливатися з уже зафіксованими і накопиченими раніше, тим самим сприяючи поступальному розвитку і накопиченню. У цьому знаходить своє підтвердження неперервність ІР. Прагматичні властивості ІР виявляються в процесі використання інформації, відображеної в них. У першу чергу, до даної категорії властивостей відносять наявність змісту і новизни інформації, що характеризує переміщення інформації в соціальних комунікаціях і виділяє ту її частину, яка нова для споживача. Корисною називається інформація, що зменшує невизначеність відомостей про об'єкт. Властивість кумулятивності характеризує накопичення і зберігання ІР. Динамічні властивості ІР характеризують розвиток ІР в часі. З’являються нові ІР, інші втрачають актуальність – це кількісно відображається на самій моделі ІР. Втрата з часом інформаційними ресурсами своєї цінності і корисності називається старінням. Врахування старіння інформації має велике значення при аналітичних дослідженнях, створенні інформаційних продуктів типу інформаційних портретів, основних сюжетів подій, ранжируванні результатів роботи інформаційно- пошукових систем. Навіть наближена оцінка швидкості старіння ІР має величезну практичну цінність, оскільки спонукає надавати більшої значущості актуальним ІР [3]. Старіння ІР проявляється в тому, що постійно виникають нові ІР, нові джерела, які містять більш повну, точну, достовірну інформацію. При цьому складність використання закономірностей старіння ІР складається з різниці зменшення їх використання в різних предметних областях і для різних тимчасових періодів. Ступінь старіння інформації неоднакова для ІР різних видів і тематик. На швидкість старіння різною мірою впливає дуже багато факторів. Особливості старіння ІР пов'язані з тенденціями розвитку кожного тематичного напрямку. Для того, щоб кількісно оцінити швидкість старіння ІР, Р. Бартон і Р.Кеблер по аналогії з періодом напіврозпаду радіоактивних речовин також ввели поняття «напівперіода життя» наукових статей. Напівперіод життя в їх розумінні – це час, впродовж якого була опублікована половина всіх використовуваних в даний час документів щодо обраної події або явища. Бартон і Кеблер визначили періоди напіврозпаду публікацій з фізики  4,6 року, з математики  10,5, геології - 11,8. ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 34 Часто використовується модель Мальтуса. Перевагою даної моделі є те, що рівняння Мальтуса має точне рішення у вигляді простої і зручної функції  експоненти, але з точки зору інтерпретації результатів вона виглядає досить сумнівною. Головною проблемою слід вважати, що експонента є монотонно зростаючою функцією, отже, принципово не може описувати процеси, які за своєю природою повинні мати локальні екстремуми, але для великої кількості ІР модель Мальтуса є коректною[3]. Розглянемо модель ІР (1), де для k-оготерміну i-ого ІР вага wik визначається формулою (4). Дана формула є добутком стаціонарної складової TF і динамічної IDF. Тоді, спираючись на модель Мальтуса, отримаємо [4]: 𝑤𝑖𝑘 = 𝑇𝐹𝑖𝑘 ∗ 𝐼𝐷𝐹𝑘 ∗ 𝑒 ‒ α𝑐(𝑇𝑖 ‒ 𝑇𝑖0) (5) Де i – номер ІР в інформаційному потоці або сховищі; k – номер терміну в словнику; tik – вага k-ого терміна в i-ому ІР; TFik – локальна частота k-ого терміну в i-ому ІР визначається формулою (2); IDFk  інверсія частоти, з якою деякий термін зустрічається в інформаційному потоці, визначається формулою (3); ΑC – коефіцієнт напіврозпаду актуальності ІР, віднесеного до класу C, визначається експертним шляхом, для кожного класу окремо; C – клас ІР; Ti – тривалість часу існування i-ого ІР; Ti0 – час виникнення i-ого ІР. Припустимо, що на відрізку часу [t0,tk], згідно з деякими закономірностями, в сховищі з’являється до ІР. На осі часу моменти публікації окремих ІР позначимо як t1, t2, ..., tk (t0≤ t1 ≤ t2 ≤ ≤ ... ≤ tk). Інформаційним потоком будемо називати процес N(t), реалізація якого характеризується кількістю ІР, опублікованих в інтервалі (t0, t). Згідно з експоненціальною моделлю інформаційних потоків: 𝑁(𝑡) = 𝑁0𝑒 λ(𝑡 ‒ 𝑡0) , (6) Де N(t) – кількість ІР в інформаційному потоці в прогнозованому часі; N0 – кількість ІР в інформаційному потоці початковий час; t –час; t0 – початковий час; λ – середня відносна зміна інтенсивності інформаційного потоку: λ(𝑡𝑖) = 𝑁(𝑡𝑖) ‒ 𝑁(𝑡𝑖 ‒ 1) 𝑁(𝑡𝑖 ‒ 1) . Відповідно до формули (6) динаміка ІР в інформаційному потоці опишеться: 𝑤𝑖𝑘 = 𝑚𝑖𝑘 𝑀𝑖 𝑙𝑛⁡( 𝑁𝑜𝑒 λ(𝑡 ‒ 𝑡0) 𝑁𝑜𝑘𝑒 λ𝑘(𝑡 ‒ 𝑡0)) = 𝑚𝑖𝑘 𝑀𝑖 [𝑁0ln (𝑒 λ(𝑡 ‒ 𝑡0)) ‒ 𝑁0𝑘ln (𝑒 λ𝑘(𝑡 ‒ 𝑡0))] = = 𝑚𝑖𝑘 𝑀𝑖 [𝑁0λ(𝑡 ‒ 𝑡0) ‒ 𝑁0𝑘λ𝑘(𝑡 ‒ 𝑡0)] . Взагалі, вага 𝑤𝑖𝑘k-ого терміну i-ого ІР буде сумою формул (5) і (6). ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 35 Висновок Вперше алгебраїчний підхід до текстових інформаційних ресурсів застосував Дж. Солтон. При цьому багато фахівців даної галузі науки обережно відносяться до такого підходу, посилаючись на те, що немає вагомого обґрунтування подання тексту як вектора. Але представлення (1) задовольняє всім векторним аксіомам, що доводить: текстовий ІР може подаватися у векторному вигляді. Це дає формальне право на застосування алгебраїчного і геометричного апарату для побудови методів та алгоритмів класифікації, розпізнавання й пошуку текстової інформації. Текстовий ІР є динамічним об’єктом, тому що актуальність інформації, поданої в цих ресурсах змінюється в часі, як і змінюється весь портрет електронного сховища. Відповідно координати вектора, який представляє ІР, є функціями часу. Таке представлення доцільне, оскільки воно позбавляє необхідності кожного разу перераховувати координати ІР, що впливає на ефективність роботи з електронними сховищами, які, на сьогодні, в своїй базі можуть нараховувати величезну кількість ІР. Література 1. Губин М.В., Морозов А.Б. Влияние морфологического анализа на качество информационного поиска. (http://rcdl.ru/doc/2006/paper_67_v2.pdf). 2. Вулих Б.З. Введение в функциональный анализ. – М.: «Наука», 1967. – 416с. 3. Ландэ Д.В., Фурашев В.Н., Брайчевский С.М., Григорьев А.Н.Основы моделирования и оценки электронных информационных потоков. - К.: ООО "Инжиниринг ", 2006. – 90 с. 4. Ландэ Д.В. Основы интеграции информационных потоков. Монография. – К.: ООО "Инжини- ринг ", 2006. – 240 с. Literaturа 1. Gubin M.V., Morozov A.B. Vliyaniemorfologicheskogoanalizanakachestvoinformatsionnogopoiska. (http://rcdl.ru/doc/2006/paper_67_v2.pdf). 2. Vulih B.Z. Vvedenie v funktsionalnyiyanaliz. – M.: «Nauka», 1967. – 416s. 3. Lande D.V., Furashev V.N., Braychevskiy S.M., Grigorev A.N. Osnovyimodelirovaniya i otsenkielektronnyihinformatsionnyihpotokov. - K.: OOO "Inzhiniring ", 2006. – 90 s. 4. Lande D.V. Osnovy iintegratsii informatsionnyih potokov. Monografiya. – K.: OOO "Inzhiniring", 2006. – 240 s. RESUME Duchnovska K. Formation of the research dynamic vector space Recently there has been the accumulation of arrays of specialized and unstructured text in formation resources in the Internet. Access to them provided information retrieval systems (IRS). IRS algorithms based on algorithmsof vector algebra. These algorithms included a support vector machine, nearest neighbor, naive Bayesian classifier, latent semantic indexing, etc. At same time, many occurred doubts that the text can be represented by a vector. Justification for this representation gave the right to the use of these and other algebraic algorithms. Proof ofthe vector representationof the text is based on seven axiomsof a vector space. It is commutative, associative vector addition and distributive with respect to the amount, associativity of the product, the product to 0 and 1. Proof that all vector axioms are satisfied, it follows from the physical properties ofthe text. ISSN 1561 – 5359. Штучний інтелект, 2015, № 3-4 © К.К. Духновська 36 Today textis considered as a static constant in the algorithms of retrieval system. But the information that is supplied the text is dynamic. Changing the number of information resources on various topics leading to a change in the frequency characteristics of the text. Permanent conversion of these characteristics will not bean effective solution to this problem. This task is solved by representation text as vector, whose coordinates depend on time. Such dependenceis derived from Malthus population model. Because of this implementation, the IRS will work with more relevant characteristics of text information resources. Духновська К.К. Формування пошукового динамічного векторного простору Останнім часом, спостерігається накопичення масивів спеціалізованих і неформалізованих текстових інформаційних ресурсів у глобальній мережі Internet. Доступ до них забезпечують інформаційно-пошукові системи (ІПС). Алгоритми роботи ІПС базуються на алгоритмах векторної алгебри. До таких алгоритмів належать: метод опорних векторів, метод найближчого сусіда, наївний байєсовський класифікатор, латентно-семантичне індексування і т.д. При цьому у багатьох виникають великі сумніви, що текст може представлятися вектором. Обґрунтування цього подання дає право на застосування даних та інших алгебраїчних алгоритмів. Доведення векторного представлення тексту базується на семи аксіомах векторного простору. Це є комутативність і асоціативність додавання векторів і дистрибутивність відносно суми, асоціативність добутку, добуток на 0 і на 1. Доведення того, що всі векторні аксіоми виконуються, випливає з фізичних властивостей тексту. На сьогодні, в алгоритмах роботи ІПС, текст розглядається як статична стала. Але інформація, яка подається цим текстом, є динамічною. Зміна кількості інформаційних ресурсів з різної тематики призводить до зміни частотних характеристик тексту. Постійний перерахунок цих характеристик не буде ефективним вирішенням цієї задачі. Така задача вирішується шляхом подання тексту у векторному вигляді, координати якого залежні від часу. Ця залежність виводиться на основі моделі народонаселення Мальтуса. Унаслідок такого впровадження, ІПС буде працювати з більш актуальними характеристиками текстових інформаційних ресурсів. Надійшла до редакції 03.07.2015
id nasplib_isofts_kiev_ua-123456789-117202
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Ukrainian
last_indexed 2025-12-07T16:02:51Z
publishDate 2015
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Духновська, К.К.
2017-05-20T18:52:02Z
2017-05-20T18:52:02Z
2015
Формування пошукового динамічного векторного простору / К.К. Духновська // Штучний інтелект. — 2015. — № 3-4. — С. 28-36. — Бібліогр.: 4 назв. — укр.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/117202
004.04.043; 004.912; 004.62
У статті обґрунтовується подання текстового документа у векторному вигляді для подальшого застосування алгебраїчного апарату в алгоритмах пошуку інформації. Текстовий документ представляється TF-IDFмоделлю, в яку введено динамічну складову.
В статье обосновывается представление текстового документа в векторном виде для дальнейшего применения алгебраического аппарата в алгоритмах поиска информации. Текстовый документ представляется TF-IDF моделью, в которую введено динамическую составляющую.
The article substantiates the idea of text document vector for further use in the apparatus of algebraic algorithms for searching information. Text Document appears as TF-IDF model in which dynamic component is introduced
uk
Інститут проблем штучного інтелекту МОН України та НАН України
Штучний інтелект
Системи розпізнавання і сприйняття образів
Формування пошукового динамічного векторного простору
Формирование поискового динамического векторного пространства
Formation of the research dynamic vector space
Article
published earlier
spellingShingle Формування пошукового динамічного векторного простору
Духновська, К.К.
Системи розпізнавання і сприйняття образів
title Формування пошукового динамічного векторного простору
title_alt Формирование поискового динамического векторного пространства
Formation of the research dynamic vector space
title_full Формування пошукового динамічного векторного простору
title_fullStr Формування пошукового динамічного векторного простору
title_full_unstemmed Формування пошукового динамічного векторного простору
title_short Формування пошукового динамічного векторного простору
title_sort формування пошукового динамічного векторного простору
topic Системи розпізнавання і сприйняття образів
topic_facet Системи розпізнавання і сприйняття образів
url https://nasplib.isofts.kiev.ua/handle/123456789/117202
work_keys_str_mv AT duhnovsʹkakk formuvannâpošukovogodinamíčnogovektornogoprostoru
AT duhnovsʹkakk formirovaniepoiskovogodinamičeskogovektornogoprostranstva
AT duhnovsʹkakk formationoftheresearchdynamicvectorspace