Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних

A new approximated method of information search in database files is proposed. It is based on the use of the least-squares method. Approximation functions for records search are built. These functions are linear combinations of Chebyshew systems functions on proper intervals. By choosing different s...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2007
Hauptverfasser: Мельничин, А., Цегелик, Г.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Центр математичного моделювання Інституту прикладних проблем механіки і математики ім. Я.С. Підстригача НАН України 2007
Schriftenreihe:Фізико-математичне моделювання та інформаційні технології
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/21101
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних / А. Мельничин, Г. Цегелик // Фіз.-мат. моделювання та інформ. технології. — 2007. — Вип. 6. — С. 116-122. — Бібліогр.: 7 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-21101
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-211012025-02-09T13:53:10Z Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних Using of least-squares method for creation of approximation methods to information search in database files Использование метода наименьших квадратов для построения приближенных методов поиска информации в файлах баз данных Мельничин, А. Цегелик, Г. A new approximated method of information search in database files is proposed. It is based on the use of the least-squares method. Approximation functions for records search are built. These functions are linear combinations of Chebyshew systems functions on proper intervals. By choosing different systems of Chebyshew functions, we obtain the different approximations. For such approach the approximated methods counts for distribution value of the key only and does not consider probability distribution of requests to the records. The efficiency of proposed approach is investigated by comparison with the linear search method, block search method with the optimum size of blocks and binary search method. The mathematical expectation of number of comparisons was used as an efficiency criterion. С использованием метода наименьших квадратов предложен новый подход к построению приближенных методов поиска информации в файлах баз данных. Для поиска записей в файлах строятся аппроксимирующие функции, которые являются линейной комбинацией систем функций Чебышева на соответствующих промежутках. Выбором разных систем функций Чебышева получаем разные аппроксимации. При таком подходе приближенные методы учитывают только распределение значений ключа и не учитывают распределение вероятностей обращения к записям. Эффективность данного подхода исследуется на реальных файлах и сравнивается с методами последовательного пересмотра, блочного с оптимальным размером блоков и двоичного поисков. Критерием эффективности является среднее количество сравнений, необходимое для поиска записи в файле. Запропоновано новий підхід до побудови наближених методів пошуку інформації у файлах баз даних, який ґрунтується на використанні методу найменших квадратів. Для пошуку записів у файлах будуються апроксимуючі функції, які є лінійними комбінаціями систем функцій Чебишева на відповідних проміжках. Вибираючи різним чином системи функцій Чебишева, отримуємо різні апроксимації. За такого підходу наближені методи враховують тільки розподіл значень ключа та не враховують розподіл ймовірностей звертання до записів. Ефективність даного підходу досліджується на реальних файлах і порівнюється з методами послідовного перегляду, блочного з оптимальним розміром блоків і двійкового пошуків. За критерій ефективності прийнято середню кількість порівнянь, необхідних для пошуку запису у файлі. 2007 Article Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних / А. Мельничин, Г. Цегелик // Фіз.-мат. моделювання та інформ. технології. — 2007. — Вип. 6. — С. 116-122. — Бібліогр.: 7 назв. — укр. 1816-1545 https://nasplib.isofts.kiev.ua/handle/123456789/21101 519.68 uk Фізико-математичне моделювання та інформаційні технології application/pdf Центр математичного моделювання Інституту прикладних проблем механіки і математики ім. Я.С. Підстригача НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
description A new approximated method of information search in database files is proposed. It is based on the use of the least-squares method. Approximation functions for records search are built. These functions are linear combinations of Chebyshew systems functions on proper intervals. By choosing different systems of Chebyshew functions, we obtain the different approximations. For such approach the approximated methods counts for distribution value of the key only and does not consider probability distribution of requests to the records. The efficiency of proposed approach is investigated by comparison with the linear search method, block search method with the optimum size of blocks and binary search method. The mathematical expectation of number of comparisons was used as an efficiency criterion.
format Article
author Мельничин, А.
Цегелик, Г.
spellingShingle Мельничин, А.
Цегелик, Г.
Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних
Фізико-математичне моделювання та інформаційні технології
author_facet Мельничин, А.
Цегелик, Г.
author_sort Мельничин, А.
title Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних
title_short Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних
title_full Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних
title_fullStr Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних
title_full_unstemmed Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних
title_sort використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних
publisher Центр математичного моделювання Інституту прикладних проблем механіки і математики ім. Я.С. Підстригача НАН України
publishDate 2007
url https://nasplib.isofts.kiev.ua/handle/123456789/21101
citation_txt Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних / А. Мельничин, Г. Цегелик // Фіз.-мат. моделювання та інформ. технології. — 2007. — Вип. 6. — С. 116-122. — Бібліогр.: 7 назв. — укр.
series Фізико-математичне моделювання та інформаційні технології
work_keys_str_mv AT melʹničina vikoristannâmetodunajmenšihkvadratívdlâpobudovinabliženihmetodívpošukuínformacííufajlahbazdanih
AT cegelikg vikoristannâmetodunajmenšihkvadratívdlâpobudovinabliženihmetodívpošukuínformacííufajlahbazdanih
AT melʹničina usingofleastsquaresmethodforcreationofapproximationmethodstoinformationsearchindatabasefiles
AT cegelikg usingofleastsquaresmethodforcreationofapproximationmethodstoinformationsearchindatabasefiles
AT melʹničina ispolʹzovaniemetodanaimenʹšihkvadratovdlâpostroeniâpribližennyhmetodovpoiskainformaciivfajlahbazdannyh
AT cegelikg ispolʹzovaniemetodanaimenʹšihkvadratovdlâpostroeniâpribližennyhmetodovpoiskainformaciivfajlahbazdannyh
first_indexed 2025-11-26T13:47:17Z
last_indexed 2025-11-26T13:47:17Z
_version_ 1849860912967581696
fulltext Використання методу найменших квадратів для побудови наближених методів пошуку інформації у файлах баз даних Андрій Мельничин1, Григорій Цегелик2 1 Львівський національний університет імені Івана Франка, вул. Університетська, 1, Львів, 79000, e-mail: andrue_m@mail333.com 2 д. ф.-м. н., професор, Львівський національний університет імені Івана Франка, вул. Університетська, 1, Львів, 79000, e-mail: kafmmsep@franko.lviv.ua Запропоновано новий підхід до побудови наближених методів пошуку інформації у файлах баз даних, який ґрунтується на використанні методу найменших квадратів. Для пошуку за- писів у файлах будуються апроксимуючі функції, які є лінійними комбінаціями систем функцій Чебишева на відповідних проміжках. Вибираючи різним чином системи функцій Чебишева, отримуємо різні апроксимації. За такого підходу наближені методи враховують тільки розподіл значень ключа та не враховують розподіл ймовірностей звертання до записів. Ефек- тивність даного підходу досліджується на реальних файлах і порівнюється з методами по- слідовного перегляду, блочного з оптимальним розміром блоків і двійкового пошуків. За критерій ефективності прийнято середню кількість порівнянь, необхідних для пошуку запису у файлі. Ключові слова: методи пошуку, файли баз даних, метод найменших квад- ратів, система функцій Чебишева. Вступ. Основний акцент під час розв’язування різноманітних задач із використан- ням концепції баз даних переноситься з процедур обробки даних на процедури організації збереження та пошуку інформації у файлах баз даних. Тому продуктив- ність обчислювальних систем, орієнтованих на роботу з величезними базами да- них, значною мірою визначається ефективністю методів пошуку інформації у файлах баз даних. Для пошуку записів у файлах баз даних, зазвичай, використовують точні методи. Найуживанішим серед них є метод послідовного перегляду, однорівне- вий і багаторівневий блочний та двійковий пошуки [1-6]. Ефективність цих мето- дів залежить від закону розподілу ймовірностей звертання до записів і не зале- жить від розподілу значень ключа, яким характеризуються записи файла. Тому виникає потреба мати такий метод пошуку, який би суттєво враховував розподіл значень ключа й ефективність якого не залежала б від розподілу ймовірностей звертання до записів. Саме такий метод і пропонується в даній роботі. 1. Постановка задачі Розглянемо послідовний упорядкований файл, який містить N записів. Нехай Ki ),1( Ni = — значення ключа, яким характеризується i-й запис файла. Позначимо УДК 519.68 116 ISSN 1816-1545 Фізико-математичне моделювання та інформаційні технології 2007, вип. 6, 116-122 117 xi = i, yi = Ki, а через y = K(x) — функцію дискретного аргументу, визначену на множині натуральних чисел від 1 до N: K(xi) = yi. Для функції y = K(x) на про- міжку [1, N ] побудуємо апроксимуючу функцію y = φ(x) таку, щоб величина [ ]2 1 ( ) N i i i y x = − ϕ∑ досягала мінімуму. Для забезпечення єдиності розв’язку функцію φ(x) означимо як лінійну комбінацію функцій Чебишева φ0(x), φ1(x), ..., φm(x) на проміжку [1, N ], m < N [7] ( )xϕ = 0 ( ) m k k k a x = ϕ∑ , Отже, нам потрібно знайти коефіцієнти a0, a1, ..., am, для яких величина ( ) ( ) 2 0 1 1 0 , ,..., N m n i k k i i k F a a a y a x = =   = − ϕ    ∑ ∑ досягає мінімуму. Для знаходження цих коефіцієнтів одержуємо таку систему лі- нійних алгебраїчних рівнянь ,0= ∂ ∂ ja F mj ,0= , або ( ) ( ) 1 0 0, N m i k k i j i i k y a x x = =   − ϕ ϕ =    ∑ ∑ mj ,0= . Перепишемо систему в такому вигляді ( ) ( ) ( ) 0 1 1 , m N N k k i j i i j i k i i a x x y x = = = ϕ ϕ = ϕ∑ ∑ ∑ mj ,0= . Якщо ввести позначення ( ) ( ) 1 , N jk k i j i i x x = α = ϕ ϕ∑ ( ) 1 N j i j i i y x = β = ϕ∑ , то система рівнянь для знаходження коефіцієнтів ak ( )0,k m= прийме вигляд 0 m jk k j k a = α = β∑ , mj ,0= . Вибираючи різним чином систему функцій Чебишева φ0(x), φ1(x), ..., φm(x), одержимо різні апроксимуючі функції. Якщо за систему функцій Чебишева взяти φk(x) = xk, mk ,0= , то апроксимуюча функція матиме вигляд k m k k xay ∑ = = 0 . Тоді для знаходження значень параметрів a0, a1, ..., am одержуємо таку систему рівнянь Андрій Мельничин, Григорій Цегелик Використання методу найменших квадратів для побудови наближених методів пошуку... 118 2 0 1 2 1 1 1 1 2 3 1 0 1 2 1 1 1 1 1 2 3 4 2 2 0 1 2 1 1 1 1 1 ... ; ... ; ... ; ................................ N N N N m i i m i i i i i i N N N N N m i i i m i i i i i i i i N N N N N m i i i m i i i i i i i i a N a x a x a x y a x a x a x a x y x a x a x a x a x y x = = = = + = = = = = + = = = = = + + + + = + + + + = + + + + = ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 1 2 2 0 1 2 1 1 1 1 1 ........................................................ ... . N N N N N m m m m m i i i m i i i i i i i i a x a x a x a x y x+ + = = = = =              + + + + = ∑ ∑ ∑ ∑ ∑ Зокрема, при m = 1 отримаємо лінійну апроксимацію y = a0 + a1x, а при m = 2 — квадратичну y = a0 + a1x + a2x2. Якщо за систему функцій Чебишева прийняти φk(x) = ekx, mk ,0= , то апрок- симуюча функція матиме вигляд ∑ = = m k kx keay 0 . Тоді одержуємо таку систему рівнянь для визначення параметрів a0, a1, ..., am 2 0 1 2 1 1 1 1 2 3 ( 1) 0 1 2 1 1 1 1 1 2 3 4 ( 2) 2 0 1 2 1 1 1 1 1 ... ; ... ; ... ; ............... i i i i i i i i i i i i i N N N N x x mx m i i i i i N N N N N x x x m x x m i i i i i i N N N N N x x x m x x m i i i i i i a N a e a e a e y a e a e a e a e y e a e a e a e a e y e = = = = + = = = = = + = = = = = + + + + = + + + + = + + + + = ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ( 1) ( 2) 2 0 1 2 1 1 1 1 1 ............................................................................... ... .i i i i i N N N N N mx m x m x mx mx m i i i i i i a e a e a e a e y e+ + = = = = =              + + + + = ∑ ∑ ∑ ∑ ∑ Зокрема, якщо m = 1, то отримаємо експоненційну апроксимацію y = a0 + a1ex. Побудовані апроксимуючі функції можуть використовуватися для пошуку записів за значеннями ключа. 2. Комп’ютерний експеримент Нами проведено комп’ютерний експеримент із дослідження ефективності запро- понованого підходу на реальних файлах. У таблиці приведені значення ключа фай- ла, на основі якого проводився експеримент. Ці значення були згенеровані ви- падковим чином. Нами побудовано лінійну, експоненційну та квадратичну апроксимуючі функції. ISSN 1816-1545 Фізико-математичне моделювання та інформаційні технології 2007, вип. 6, 116-122 119 Таблиця Значення ключа файла X Y X Y X Y X Y X Y 1 1 21 39 41 77 61 114 81 160 2 3 22 40 42 78 62 115 82 161 3 5 23 44 43 79 63 118 83 165 4 7 24 45 44 80 64 123 84 166 5 10 25 47 45 82 65 124 85 168 6 11 26 48 46 83 66 125 86 169 7 12 27 50 47 84 67 129 87 170 8 18 28 51 48 86 68 130 88 172 9 19 29 53 49 87 69 131 89 173 10 20 30 55 50 90 70 132 90 174 11 21 31 58 51 91 71 135 91 176 12 22 32 60 52 93 72 138 92 177 13 23 33 61 53 94 73 141 93 178 14 25 34 65 54 96 74 144 94 180 15 26 35 67 55 99 75 146 95 182 16 28 36 70 56 100 76 150 96 184 17 29 37 71 57 102 77 151 97 185 18 32 38 72 58 103 78 153 98 186 19 33 39 74 59 106 79 156 99 187 20 35 40 75 60 113 80 157 100 189 1,9483 2,7691y x= − , R2 = 0,997; 0,029815,701 xy e= , R2 = 0,7852; 20,0018 1,7667 0,3187y x x= + + , R2 = 0,9972. Тут R — коефіцієнт кореляції. Було проведено порівняння ефективності запропонованого підходу з методами послідовного перегляду, блочного з оптимальним розміром блоків і двійкового пошуків. За критерій ефективності приймалася середня кількість порівнянь, не- обхідних для пошуку запису у файлі. У випадку методу послідовного перегляду, блочного з оптимальним розміром блоків і двійкового пошуків середня кількість порівнянь, необхідних для пошуку запису у файлі, відповідно становить 50,50; 11,00 і 5,78. Якщо пошук здійснювати з використанням лінійної, експонен- ціальної або квадратичної апроксимацій, тобто відповідно за формулами ( )2,7691 1,9483x y= + ; [ ]ln ln(15,701) 0,0298x y= − ; 23,5704 433,185 490,754x y= + − , то середня кількість порівнянь, необхідних для пошуку запису у файлі, відповід- но становить 1,21; 9,51 та 1,08. Андрій Мельничин, Григорій Цегелик Використання методу найменших квадратів для побудови наближених методів пошуку... 120 Рис. 3. Розподіл значень ключів та апроксимуюча квадратична функція 40·105 35·105 30·105 25·105 20·105 15·105 10·105 5·105 0 2·105 0 4·105 6·105 8·105 10·105 12·105 14·105 16·105 18·105 Рис. 2. Розподіл значень ключів й апроксимуюча експоненціальна функція 40·105 35·105 30·105 25·105 20·105 15·105 10·105 5·105 0 0 2·103 4·103 6·103 8·103 10·103 12·103 14·103 16·103 18·103 40·105 35·105 30·105 25·105 20·105 15·105 10·105 5·105 0 2·103 0 4·103 6·103 8·103 10·103 12·103 14·103 16·103 18·103 Рис. 1. Розподіл значень ключів та апроксимуюча лінійна функція ISSN 1816-1545 Фізико-математичне моделювання та інформаційні технології 2007, вип. 6, 116-122 121 Нами також проведено обчислювальний експеримент із файлом реальної бази даних студентів, які навчаються стаціонарно у Львівському національному уні- верситеті імені Івана Франка. Цей файл містить 16768 записів. На основі файла значень ключа (номерів залікових книжок) побудовано три апроксимуючі функції: лінійну, квадратичну й експоненційну, а також проведено порівняння ефектив- ності пошуку з використанням цих функцій, з ефективністю методів послідовно- го перегляду, блочного з оптимальним розміром блоків і двійкового пошуків. За критерій ефективності прийнято середню кількість порівнянь, необхідних для пошуку запису у файлі. Лінійна апроксимуюча функція (див. рис. 1) є такою 803196 144,313y x= + (R2 = 0,922). Для пошуку записів маємо формулу ( )803196 114,313x y= − . Експоненційна апроксимуюча функція (див. рис. 2) є такою y = exp(13,8572 + + 7,1889 · 10 –5x) (R2 = 0,969). Пошук записів здійснюється з використанням фор- мули x = (ln y – 13,8572) / 7,1889×10–5. Квадратична апроксимуюча функція (див. рис. 3) є такою y = 0,0085x2 + + 1,1578x + 1,2 · 106 (R2 = 0,982), а для пошуку маємо x = 10,86213 1099974y − – – 758,94. 3. Порівняльна ефективність методу Проведено порівняння ефективності запропонованого підходу з методами послі- довного перегляду, блочного з оптимальним розміром блоків і двійкового пошуків. За критерій ефективності прийнято середню кількість порівнянь, необхідних для пошуку запису у файлі. У випадку методу послідовного перегляду, блочного та двійкового пошуків середня кількість порівнянь, необхідних для пошуку запису у файлі, відповідно становить 8384,50; 130,49 і 13,05. Якщо пошук здійснювати з використанням лінійної, експоненціальної та квадратичної апроксимацій, то се- редня кількість порівнянь, необхідних для пошуку запису у файлі, відповідно є 1251,28; 702,82 та 701,09. Висновки. Запропоновано метод пошуку у файлах баз даних, що враховує розпо- діл значень ключа, якими характеризуються записи файла. Проведено порівняння ефективності запропонованого підходу з методами послідовного перегляду, блоч- ного з оптимальним розміром блоків і двійкового пошуків для реальних файлів. Результати порівнянь показали, що запропонований підхід є ефективніший, ніж метод послідовного перегляду, але поступається блочному пошуку з оптималь- ним розміром блоків і двійковому пошуку. Література [1] Кнут Д. Искусство программирования для ЭВМ. Т. 3: Сортировка и поиск. — М.: Издательский дом «Вильямс», 2000. — 832 с. [2] Мартин Дж. Организация баз данных в вычислительных системах. — М.: Мир, 1980. — 644 с. Андрій Мельничин, Григорій Цегелик Використання методу найменших квадратів для побудови наближених методів пошуку... 122 [3] Мельничин А., Цегелик Г. Ефективність методу двійкового пошуку інформації у фай- лах баз даних для різних законів розподілу ймовірностей звертання до записів // Вісн. Львів. ун-ту. Сер. прикл. матем. та інформ. — 2006. — Вип. 11. — C. 225-229. [4] Мельничин А. В., Цегелик Г. Г. Аналіз методів пошуку інформації в файлах баз да- них для різних законів розподілу ймовірностей звертання до записів // Зб. наук. праць Української академії друкарства «Комп’ютерні технології друкарства». — 2006. — № 15. — С. 95-112. [5] Цегелик Г. Г., Мельничин А. В. Порівняльний аналіз ефективності методів пошуку інформації у файлах баз даних // Відбір і обробка інформації. — 2005. — № 23(99). — С. 135-142. [6] Цегелик Г. Г. Организация и поиск информации в базах данных. — Львов: Вища шк., 1987. — 176 с. [7] Цегелик Г. Г. Чисельні методи: підручник. — Львів: Вид. центр Львівського нац. ун-ту ім. І. Франка. — 2004. — 408 с. Использование метода наименьших квадратов для построения приближенных методов поиска информации в файлах баз данных Андрей Мельничин, Григорий Цегелик С использованием метода наименьших квадратов предложен новый подход к построению приближенных методов поиска информации в файлах баз данных. Для поиска записей в файлах строятся аппроксимирующие функции, которые являются линейной комбинацией систем функций Чебышева на соответствующих промежутках. Выбором разных систем функций Чебышева получаем разные аппроксимации. При таком подходе приближенные ме- тоды учитывают только распределение значений ключа и не учитывают распределение вероятностей обращения к записям. Эффективность данного подхода исследуется на ре- альных файлах и сравнивается с методами последовательного пересмотра, блочного с оп- тимальным размером блоков и двоичного поисков. Критерием эффективности является среднее количество сравнений, необходимое для поиска записи в файле. Using of least-squares method for creation of approximation methods to information search in database files Andriy Melnytchyn, Hryhoriy Tsehelyk A new approximated method of information search in database files is proposed. It is based on the use of the least-squares method. Approximation functions for records search are built. These functions are linear combinations of Chebyshew systems functions on proper intervals. By choosing different systems of Chebyshew functions, we obtain the different approximations. For such approach the approximated methods counts for distribution value of the key only and does not consider probability distribution of requests to the records. The efficiency of proposed approach is investigated by comparison with the linear search method, block search method with the optimum size of blocks and binary search method. The mathematical expectation of number of comparisons was used as an efficiency criterion. Отримано 01.06.07