Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України”
Розкриваються основні технологічні аспекти реалізації онлайнової лексикографічної системи "Словники України". Описується архітектура системи, програмні засоби реалізації проекту, розглядаються внутрішньосистемні інформаційні потоки, розкривається внутрішня модель. Звертається увага на проб...
Saved in:
| Date: | 2005 |
|---|---|
| Main Author: | |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
Інститут програмних систем НАН України
2005
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/1319 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” / Н.М. Сидорчук // Проблеми програмування. — 2005. — N 4.— С. 95-105. — Бібліогр.: 15 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-1319 |
|---|---|
| record_format |
dspace |
| spelling |
Сидорчук, Н.М. 2008-07-25T15:37:25Z 2008-07-25T15:37:25Z 2005 Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” / Н.М. Сидорчук // Проблеми програмування. — 2005. — N 4.— С. 95-105. — Бібліогр.: 15 назв. — укр. 1727-4907 https://nasplib.isofts.kiev.ua/handle/123456789/1319 658.012.011.56 Розкриваються основні технологічні аспекти реалізації онлайнової лексикографічної системи "Словники України". Описується архітектура системи, програмні засоби реалізації проекту, розглядаються внутрішньосистемні інформаційні потоки, розкривається внутрішня модель. Звертається увага на проблемні аспекти реалізації системи та ключові принципи організації інтерфейсу користувача. uk Інститут програмних систем НАН України Прикладне програмне забезпечення Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” Technological Aspects of the Implementation of On-line Lexicographical System «Dictionary of Ukraine» Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” |
| spellingShingle |
Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” Сидорчук, Н.М. Прикладне програмне забезпечення |
| title_short |
Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” |
| title_full |
Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” |
| title_fullStr |
Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” |
| title_full_unstemmed |
Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” |
| title_sort |
технологічні аспекти реалізації онлайнової лексикографічної системи „словники україни” |
| author |
Сидорчук, Н.М. |
| author_facet |
Сидорчук, Н.М. |
| topic |
Прикладне програмне забезпечення |
| topic_facet |
Прикладне програмне забезпечення |
| publishDate |
2005 |
| language |
Ukrainian |
| publisher |
Інститут програмних систем НАН України |
| format |
Article |
| title_alt |
Technological Aspects of the Implementation of On-line Lexicographical System «Dictionary of Ukraine» |
| description |
Розкриваються основні технологічні аспекти реалізації онлайнової лексикографічної системи "Словники України". Описується архітектура системи, програмні засоби реалізації проекту, розглядаються внутрішньосистемні інформаційні потоки, розкривається внутрішня модель. Звертається увага на проблемні аспекти реалізації системи та ключові принципи організації інтерфейсу користувача.
|
| issn |
1727-4907 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/1319 |
| citation_txt |
Технологічні аспекти реалізації онлайнової лексикографічної системи „Словники України” / Н.М. Сидорчук // Проблеми програмування. — 2005. — N 4.— С. 95-105. — Бібліогр.: 15 назв. — укр. |
| work_keys_str_mv |
AT sidorčuknm tehnologíčníaspektirealízacííonlainovoíleksikografíčnoísistemislovnikiukraíni AT sidorčuknm technologicalaspectsoftheimplementationofonlinelexicographicalsystemdictionaryofukraine |
| first_indexed |
2025-11-25T12:34:49Z |
| last_indexed |
2025-11-25T12:34:49Z |
| _version_ |
1850512345265078272 |
| fulltext |
Прикладне програмне забезпечення
© Н.М. Сидорчук, 2005
ISSN 1727-4907. Проблеми програмування. 2005. № 4 95
УДК 658.012.011.56
Н.М.Сидорчук
ТЕХНОЛОГІЧНІ АСПЕКТИ РЕАЛІЗАЦІЇ ОНЛАЙНОВОЇ ЛЕКСИ-
КОГРАФІЧНОЇ СИСТЕМИ „СЛОВНИКИ УКРАЇНИ”
Розкриваються основні технологічні аспекти реалізації онлайнової лексикографічної системи „Слов-
ники України”. Описується архітектура системи, програмні засоби реалізації проекту, розглядаються
внутрішньосистемні інформаційні потоки, розкривається внутрішня модель. Звертається увага на про-
блемні аспекти реалізації системи та ключові принципи організації інтерфейсу користувача.
Вступ
Характерною рисою сучасності є ак-
тивізація інформаційних процесів, потуж-
ним інструментом якої стали Інтернет-тех-
нології, що відкрили нові напрямки у розви-
тку і функціонуванні інформаційних систем.
Серед останніх чільне місце займають сис-
теми спеціального типу – лексикографічні.
Під поняттям лексикографічної системи (Л-
системи) розуміємо абстрактний мовно-ін-
формаційний об’єкт, орієнтований на реалі-
зацію комплексного інформаційного опису
лексики довільної мови або сукупності мов
[1, 2]. Зважаючи на викладене реалізація
подібних систем у глобальному мережевому
середовищі стає все актуальнішим завдан-
ням. Роботи над створенням Л-систем у се-
редовищі Інтернету проводяться в Україн-
ському мовно-інформаційному фонді
(УМІФ) НАН України. Однією з розробок
зазначеного напрямку є Л-система „Слов-
ники України он-лайн”, технологічним ас-
пектам побудови якої присвячена ця стаття.
Загальний опис системи
Однією з проблем прагматики існу-
ючих словників (не беручи до уваги обсяг
інформації) є розсіяння різних відомостей і
функцій по багатьох різних джерелах. Ви-
рішенням цієї проблеми стає поєднання
словників, але не внаслідок механічної ком-
бінації, а завдяки інтеграції їх до єдиної ле-
ксикографічної системи, яка створює своє-
рідне середовище, що представляє різнома-
нітні функції для роботи користувача та
розвинені пошукові можливості [3].
Описаний у статті онлайновий про-
грамний словниковий комплекс призначе-
ний відтворити в мережевому середовищі
функціонування інтегрованої лексикографі-
чної системи „Словники України”, версія
1.03 [4], випущеної Українським мовно-ін-
формаційним фондом НАН України у ви-
гляді лазерного диску в 2003 році.
До складу Л-системи „Словники
України” як агрегованого об’єкта ввійшли
чотири словникові підсистеми: „Слово-
змінна парадигма”, „Фразеологія”, „Сино-
німія” та „Антонімія”.
Основу генерального реєстру (понад
186 тис. слів) системи "Словники України
он-лайн" складає реєстр Орфографічного
словника української мови [5], який практи-
чно повністю відтворено й значно розши-
рено.
Підсистему "Словозмінна паради-
гма" створено на основі розробленої в
УМІФ НАН України словозмінної класифі-
кації української лексики, в якій виділено за
певними формальними ознаками понад 2000
парадигматичних класів для всіх відміню-
ваних повнозначних частин мови [6,7]. За-
вдяки вказаній класифікації та реалізованій
програмно процедурі парадигматизації –
побудові повної словозмінної парадигми
виходячи з канонічної (словникової) форми
лексеми – побудовано повний перелік усіх
граматичних форм для всіх лексичних оди-
ниць, наведених у реєстрі. Це забезпечило
можливість візуалізації словоформ в усіх
граматичних значеннях. Загальна кількість
словоформ для понад 186 тис. одиниць ре-
єстру сягає близько 3,4 млн. Підсистема за-
безпечує відображення таблиці всіх слово-
форм для вибраної реєстрової одиниці з по-
данням їх граматичних параметрів.
Підсистема синонімії з достатньою
повнотою відображає синонімічне багатство
Прикладне програмне забезпечення
96
української мови (на матеріалах літератур-
ної мови ХІХ-ХХ ст. та народнорозмовної
лексики). Джерелом лінгвістичної інформа-
ції послугував "Словник синонімів україн-
ської мови" у 2-х томах [8]. Програмний
комплекс забезпечує відтворення синонімі-
чних рядів (близько 9200), що складаються
зі слів або їхніх окремих значень, а також
сталих словосполучень (номінативних та
граматичних). Ядром кожного синоніміч-
ного ряду є його домінанта – лексична оди-
ниця, що має найзагальніші для цього ряду
семантичні особливості. Члени синоніміч-
них рядів супроводжуються семантичними,
граматичними та стилістичними характери-
стиками. Уживання синонімів ілюструється
типовими для них контекстами – цитатним
матеріалом із художньої, публіцистичної,
наукової, іншої літератури та словосполу-
ченнями.
Базою підсистеми антонімії став
Словник антонiмiв української мови [9], у
якому подано 253 словникові статті, котрі
представляють близько 2200 компонентiв
антонiмiчних пар.
Лінгвістичним джерелом наповнення
лексикографічної бази підсистеми „Фразео-
логія” стали близько 56 тис. фразеологіч-
них одиниць, представлених у Словнику
фразеологізмів української мови, що ви-
йшов у серії "Словники України" [10], де
найповніше відображено загальновживану
фразеологію української мови і дано всебі-
чну лексикографічну характеристику фразе-
ологізмів.
Яскравою характеристикою масш-
табу Л-системи „Словники України” є обсяг
роздруку його змісту на папері – він сягає
близько 40 тис. сторінок, зрозуміло, без
урахування внутрішніх зв’язків Л-системи,
які забезпечують його пошукові можливо-
сті, принципово відрізняючи цей лінгвіс-
тично-програмний продукт від його тради-
ційних аналогів. За нашими оцінками, Л-си-
стема „Словники України он-лайн” на да-
ний момент представляє найбільший онлай-
новий український словниковий ресурс в
Інтернеті.
Архітектура системи
„Словники України он-лайн”
Тим часом реалізація онлайнової ве-
рсії Л-системи „Словники України” за сво-
їми системними підходами суттєво відріз-
няється від локального варіанту у вигляді
лазерного диску. Вивчення моделі предмет-
ної галузі та аналіз варіантів реалізації по-
ставлених завдань зумовили вибір багаторі-
вневої схеми “клієнт-сервер” в якості базо-
вої архітектури для проектування і побу-
дови системи. Подібна архітектура дозволяє
досягти високого рівня масштабованості за-
стосувань, значно спрощує його супровід та
дає можливість багаторазового викорис-
тання його компонентів [11]. Архітектура
такого типу забезпечує зручний метод по-
будови застосувань типу “клієнт-сервер” з
використанням стандартних інтерфейсів і
методів. При цьому для кожного архітекту-
рного рівня використовуються незалежні
сервіси і процеси, завдяки чому забезпечу-
ється системотехнічна декомпозиція базо-
вих компонентів системи на відносно неза-
лежні основні частини, що спрощує і знач-
ною мірою уніфікує розробку її програмних
модулів. Поєднання клієнтських і серверних
технологій забезпечує максимальну продук-
тивність роботи системи.
Першим рівнем вищезгаданої архіте-
ктури є “клієнт – термінал", який формує
запит й отримує та відображає результати
його виконання. Наступний архітектурний
рівень − „сервер застосувань” – приймає за-
пити від клієнтів і виконує їх обробку. Для
типових мережевих застосувань, побудова-
них за технологією Інтернет/Інтранет він є
комбінацією спеціалізованого програмного
забезпечення системи обробки запитів кліє-
нта у комплексі з типовим HTTP-сервером.
Останній рівень архітектури “клієнт-сервер”
представлено системою керування базами
даних.
Програмні засоби розробки та функціо-
нування системи
У якості Web-сервера було обрано
Apache – один з найпоширеніших серверів
Інтернету, популярність якого зумовлена
його швидкодією, технологічним лідерст-
вом, розширеною підтримкою функцій сер-
верної сторони, модульною архітектурою та
вільним ліцензуванням.
В УМІФ НАН України Web-сервер
(версія 2.0.48) функціонує під керуванням
операційного середовища Red Hat Linux
r.9.0, використання якого зумовлено двома
Прикладне програмне забезпечення
97
причинами. По-перше, система Red Hat
Linux відноситься до програмного забезпе-
чення з відкритим кодом і росповсюджу-
ється згідно з GNU Public License. По-
друге, використання Unix/Linux платфо-
рми надає можливість забезпечення висо-
кого ступеня надійності та захищеності сер-
верної частини програмних систем в мережі
Інтернету.
Сервер застосувань розроблено на
мові інтерпретації сценаріїв PHP4 в поєд-
нанні з HTML та JavaScript сценаріями.
В результаті аналізу альтернативних
варіантів вибору системи керування базами
даних обрана SQL92-сумісна система Post-
greSQL. Вагомими аргументами стали: моду-
льна архітектура цього програмного забез-
печення; підтримка великої кількості типів
даних (у тому числі можливість розробки
власних); доступність інтерфейсів програ-
мування PostgreSQL для таких мов, як C,
Perl, Python, Tcl, Java і PHP [12].
Інформаційні потоки всередині системи
Окреслимо головні напрямки потоків
даних між апаратно-програмними засобами
системи. На рис.1 цифрами позначено:
1. Транспортування даних з внутріш-
нього сервера до сервера баз даних онлай-
нового проекту. Л-система „Словники
України он-лайн” не обмежена рамками ре-
алізації в глобальній мережі, а являє собою
лише один з варіантів представлення зовні-
шньої моделі лексикографічної системи.
Технологічне ядро зосереджене у спеціаль-
ному програмному комплексі, що функціо-
нує в локальній мережі Українського мовно-
інформаційного фонду. Одним із технологі-
чних завдань процедур зазначеного програ-
много засобу є формування даних для напо-
внення бази онлайнової лексикографічної
системи. Оскільки програмні платформи
функціонування вищезгаданої системи та
онлайнового проекту є різними (Windows
NT 4.0 та Red Hat Linux r.9.0.) , так само як
і різні системи керування базами даних (Mi-
crosoft SQL Server 7.0 та PostgreSQL 7.3),
важливою ланкою роботи є конверсія отри-
маних даних. Їх транспортування супрово-
джується зміною системи кодування та
встановленням відповідностей між елемен-
тами вихідного потоку та полями бази да-
Рис.1. Внутрішньосистемні інформаційні потоки
Віддалений клієнт
Віддалений клієнт
Віддалений клієнт
Сервер локальної мережі
Сервер баз даних
маршрутизатор
Брандмауер
10
2
4
9
5
8
6
10
10
1
Комп’ютери локальної
мережі
Web-сервер
Інтернет
2
2
7
3
Прикладне програмне забезпечення
98
них, структура якої розглядається нижче.
2. Вихідний запит користувача до
сервера (передача URI, GET/POST-даних,
Cookies та ін.).
3. Передача запиту через глобальне
мережеве середовище.
4. Запит через маршрутизатор та бра-
ндмауер потрапляє до Web-сервера та
ініціює створення примірника серверного
процессу.
5. Apache виконує код PHP сценарію.
6. Сервер дає запит до СКБД на
отримання даних.
7. PostgreSQL виконує частину про-
грамного коду, віднесеного на БД, та синте-
зує необхідні інформаційні елементи.
8. Дані передаються до Web-сервера,
який генерує Web-сторінку.
9. Повертається динамічно створена
сторінка.
10. Відбувається обробка результатів
запиту браузером.
Структура бази даних
База даних складається з ряду таб-
лиць, поєднаних мережею логічних зв’язків
(рис.2).
“Реєстрова таблиця парадигматич-
ного словника” містить такі поля:
1. Унікальний ідентифікатор лексеми
(в межах інтегрованої системи), завдяки
якому кожне слово однозначно ідентифіку-
ється в межах реєстрового ряду будь-якого
словника.
Таблиця словникових статей синонімів
PK Ідентифікатор словникової статті
Словникова стаття
Службова інформац ія
Ідентифікатор
Загальна кількість реєстрових одиниць
Дата останнього поновлення бази
Кількість відвідувань онлайнової лексикографічної системи
Кількість звернень до серера баз даних
Кількість відвідувань (з локальної мережі)
Таблиця словникових статей фразеологізмів
PK Унікальний ідентифікатор в межах таблиці
I1 Ідентифікатор словникової статті
Ідентифікатор групи
Словникова стаття
Таблиця в ідпов ідностей л іва права частина словника антон - ім ів
PK Унікальний ідентифікатор в межах таблиці
FK3,I1 Ідентифікатор словникової статті
FK2 Ідентифікатор в реєстровій таблиці
Реєстрова таблиця парадигматичного словника
PK Унікальний ідентифікатор лексеми (в межах інтегрованої системи )
Реєстрове слово
Цифровий аналог реєстрового слова
FK1 Ідентифікатор реєстрового слова (в межах поточного словника )
Ідентифікатор частини мови
Омонімія
Реєстрове слово (зведене до нижнього регістру)
Ідентифікатор лексеми (в межах словника антонімів)
Ідентифікатор лексеми (в межах словника синонімів)
Ідентифікатор лексеми (в межах словника фразеологізмі)
Кількість звернень до поточного слова
Кількість звернень до слова (в межах словника синонімів)
Кількість звернень до слова (в межах словника антонімів)
Кількість звернень до слова (в межах словника фразеологізмів)
Таблиця відповідності ліва-права частина словника синонімів
PK Унікальний ідентифікатор в межах таблиці
FK1,I2 Унікальний ідентифікатор лексеми (в межах інтегрованої системи )
FK3,I1 Ідентифікатор словникової статті
FK2 Ідентифікатор в реєстровій таблиці
Таблиця в ідпов ідност і фразеолог ізм стаття -
PK Унікальний ідентифікатор (в межах таблиці)
Унікальний ідентифікатор лексеми (в межах інтегрованої системи )
FK2 Ознака належності до групи
FK1 Ідентифікатор словникової статті
Поле для сортування
Фразеологізм
Таблиця звязк ів абетки та ре єстр ів
PK Ідентифікатор літери
Літера верхнього регістру
Літера нижнього регістру
Ід 1-го за алфавітом реєстрового слова (у словнику парадигми )
FK1 Ід 1-го за алфавітом реєстрового слова (у словнику синонімів)
FK2 Ід 1-го за алфавітом реєстрового слова (у фразеолог словнику )
Реєстрова таблиця словника антонімів
PK Ідентифікатор реєстрового слова
Поле для сортування
FK1 Унікальний ідентифікатор лексеми в межах інтегрованої системи
Реєстрова таблиця словника синонімів
PK Ідентифікатор реєстрового слова
Поле для сортування
FK1 Унікальний ідентифікатор лексеми в межах інтегрованої системи
Таблиця словникових статей антонімів
PK Ідентифікатор словникової статті
Словникова стаття
Реєстрова таблиця фразеологічного словника
PK Ідентифікатор реєстрового слова
Поле для сортування
FK1,I1 Унікальний ідентифікатор лексеми (в межах інтегрованої системи )
Рис.2. Схема зв’язків між таблицями
Прикладне програмне забезпечення
99
2. Реєстрове слово призначене без-
посередньо для візуалізації.
3. Цифровий код реєстрового слова
для сортування та пошуку генерується за
принципом: літери українського алфавіту
замінюються двоцифровим кодом (А – ‘01’;
Б – ‘02’; В – ‘03’ і т. д.), а інші символи іг-
норуються.
4. Ідентифікатор реєстрового слова
(в межах поточного словника). Масив іден-
тифікаторів є неперервною послідовністю
чисел, яка відповідає відсортованому за
алфавітом реєстру. Це дає змогу швидко ви-
значати найближче оточення до заданого
слова без послідовного перебору всього
реєстрового ряду, що значно оптимізує за-
пит до бази даних.
5. Код частини мови реєстрового
слова.
6. Омонімія – номер слова в омоні-
мічній групі.
7. Реєстрове слово зведене до літер
нижнього регістру без апострофу та наголо-
сів.
8.–10. Ідентифікатори лексем в ме-
жах словника антонімів,синонімів, фразео-
логізмів відповідно, які застосовуються для
інтеграції словників до єдиної лексикогра-
фічної системи.
11.–14. Кількість звернень до поточ-
ного слова в словнику антонімів, синонімів,
фразеологізмів відповідно.
Приклад даних представлено в
табл. 1-2.
„Реєстрова таблиця словника антоні-
мів”, „ Реєстрова таблиця словника синоні-
мів”, „ Реєстрова таблиця фразеологічного
словника” мають подібну структуру. До їх
складу входять:
1. Ідентифікатор реєстрового слова.
2. Поле для сортування (неперер-
вний індекс).
3. Унікальний ідентифікатор лек-
семи в межах інтегрованої системи.
У табл.3 унаочнено представлення
даних.
Таблиці відповідностей „ліва-права
частини словника синонімів” та „ліва-права
частини словника антонімів” (приклад да-
них представлено в табл. 4) в своїй струк-
турі містять:
1. Унікальний ідентифікатор в ме-
жах таблиці.
2. Ідентифікатор словникової статті.
Таблиця 1
1 2 3 4 5 6 7
1189915 краків'я7нин 18111833031215012115 66014 7 NULL краків'янин
25827 втіша7тися 032312290123112233 25732 36 NULL втішатися
176922 францу7зький 2521011827241031151114 174220 11 NULL французький
120723 полягти7 20191633042311 118896 35 1 полягти
Таблиця 2
8 9 10 11 12 13 14
NULL NULL NULL 684297 293850 3456 4375
70713 NULL 6526 707138 38974 43577 437
NULL NULL NULL 914756 2345213 45763 765874
5852 NULL 29529 808526 346326 4536 12343
Таблиця 3
1 2 3
161827 1725 159551
161830 1726 159554
161836 1727 159560
161924 1728 159650
Прикладне програмне забезпечення
100
3. Ідентифікатор в реєстровій таб-
лиці.
Зазначеним таблицям підпорядковані
„Таблиця словникових статей синонімів”
(табл. 5) та „Таблиця словникових статей
антонімів” (табл. 6); за своєю структурою
вони становлять сукупність полів:
1. Ідентифікатор словникової статті.
2. Словникова стаття. Форма даних
внесених в це поле має свою внутрішню
розгалужену структуру, на деталях якої ми
не зупиняємося.
„Таблиця відповідностей фразеоло-
гізм-стаття” (табл. 7):
1. Унікальний ідентифікатор (в ме-
жах таблиці).
2. Унікальний ідентифікатор лек-
семи (в межах інтегрованої системи).
3. Ознака належності до групи.
4. Ідентифікатор словникової статті.
5. Поле для сортування.
6. Фразеологізм.
Дочірньою до вищенаведеної є таб-
лиця словникових статей фразеологізмів
Таблиця 4
1 2 3
40812 88023 5044
40425 88028 4988
39805 88029 4907
39852 88041 4912
Таблиця 5
1 2
246 <table border="1" width="100%" height="255"> <tr> <td width="50%" height="37"
align="middle"> <b><font color="#000080" size="2" face="…
247 <table border="1" width="100%" height="255"> <tr> <td width="50%" height="37"
align="middle"><b><font color="#000080" size="2" face="…
248 <table border="1" width="100%" height="255"> <tr> <td width="50%" height="37"
align="middle"><b><font color="#000080" size="2" face="…
249 <table border="1" width="100%" height="255"> <tr> <td width="50%" height="37"
align="middle"><b><font color="#000080" size="2" face="…
Таблиця 6
1 2
184071
<P><B><a class="handT"
onclick="href='../index.php?key_reestr=184071&dict=sinonim&<?php echo SID; ?>'"
target="_parent">ШЕЛЕСТІТИ</A></B> (<a class="handT" onclick="
href='../index.php?key_reestr=14917 &dict=sinonim&<?php echo SID; ?>'"
target="_parent">видавати</A>, <a class="handT…
183964
<P><B><a class="handT"
onclick="href='../index.php?key_reestr=183964&dict=sinonim&<?php echo SID; ?>'"
target="_parent">ШВОРА</A></B> (<a class="handT"
onclick="href='../index.php?key_reestr=139540 &dict=sinonim&<?php echo SID; ?>'"
target="_parent">ремінь</A>, <a class="handT" onc…
157918
<P><B><a class="handT"
onclick="href='../index.php?key_reestr=157918&dict=sinonim&<?php echo SID; ?>'"
target="_parent">СПОСТЕРЕЖЛИВИЙ </A></B> (<a class="handT"
onclick="href='../index.php?key_reestr=53603 &dict=sinonim&<?php echo SID; ?>'"
onclick="href='../index.php?key_rees…
12344
<P><B><a class="handT"
onclick="href='../index.php?key_reestr=123448&dict=sinonim&<?php echo SID; ?>'"
target="_parent">ТАРАДАЙКА </A></B> (<a class="handT"
onclick="href='../index.php?key_reestr=53603 &dict=sinonim&<?php echo SID; ?>'"
onclick="href='../index.php?key_rees…
Прикладне програмне забезпечення
101
(табл. 8), яка у структурному відношенні
являє собою множину таких полів:
1. Унікальний ідентифікатор (у ме-
жах таблиці).
2. Ідентифікатор словникової статті.
3. Ідентифікатор групи.
4. Словникова стаття.
„Таблиця зв’язків абетки та реєстрів”
(табл.9):
1– 2. Літера відповідно верхнього та
нижнього регістрів.
3–6. Ідентифікатори першого за ал-
фавітом реєстрового слова відповідно у па-
радигматичному словнику, словнику сино-
німів, словнику антонімів та фразеологічно-
му словнику.
„Службова інформація”:
1. Ідентифікатор.
2. Загальна кількість реєстрових оди-
ниць.
3. Дата останнього очищення тимча-
сового сховища.
4. Кількість відвідувань онлайнової
лексикографічної системи.
5. Кількість звернень до сервера баз
даних.
6. Кількість відвідувань (з локальної
мережі).
Проблемні аспекти реалізації системи
Роботу сценарію "Словників України
on-line" реалізовано поєднанням двох меха-
нізмів – це, по-перше, робота з БД та, по-
друге, – використання файлової системи як
засобу збереження великого обсягу інфор-
мації в певній ієрархічній структурі.
Спеціально згенеровані файли пра-
вих частин словникових статей (парадигма-
тичного словника) зберігаються поза базою
даних, описаною у попередньому підроз-
Таблиця 7
1 2 3 4 5 6
56545 188627 23 260 48917 тягти7 ярмо7
56546 188627 33 31 56589 ярмо7 на ши7ю
56547 188739 21 113 56593 ясна7 річ
Таблиця 8
1 2 3 4
7916 28 123
<P><B><a class="handT"onclick="href='../index.php?key_reestr= 379354
&dict=fraseolog &<?php echo SID; ?> '" target="_parent">ще</A> <A>й</A>
<A>як</A>. </B><a class="handT" onclick="href='../index.php? key_reestr=
52660&dict=fraseolog&<?php echo SID;?>'" target="_parent"> Звичайно…
7917 29 42
<P><B><a class="handT" onclick="href='../index.php?key_reestr=187784
&dict= fraseolog&<?php echo SID; ?>'" target= "_parent">язик</A> <A>як
</A><a class="handT" onclick="href='../index.php?key_reestr=71863
&dict=fraseolog&<?php echo SID; ?>'" target="_parent">лопатень</A>…
7918 30 643
<P><B><a class="handT" onclick="href='../index.php?key_reestr=187784
&dict=fraseolog& <?php echo SID; ?>'" target="_parent">язик</A> <a
class="handT" onclick= "href='../index.php?key_reestr=149820 &dict=
fraseolog&<?php echo SID; ?>'" target="_parent">свербить</A>…
7919 31 21
<P><B><a class="handT" onclick="href='../index.php?key_reestr=186727
&dict=fraseolog& <?php echo SID; ?>'" target="_parent">що</A> <a
class="handT" onclick= "href='../index.php?key_reestr=68065&dict=
fraseolog&<?php echo SID; ?>'" target= "_parent">куди</A> <A>й</A> …
Таблиця 9
1 2 3 4 5 6
Б б 4675 369 55 38
В в 11457 1949 197 235
Г г 26538 6777 416 977
Ґ ґ 32329 8096 492 1196
Прикладне програмне забезпечення
102
ділі. Усі файли розділено за початковими
літерами реєстрових слів, що їм відповіда-
ють. Назви ж файлів, для зручності роботи з
ними, збігаються з унікальним кодом реєст-
рового слова. Зазначимо, що зберігаються
вони у стані максимального стиснення з
правами доступу “тільки зчитування” для
сервера обробки сценарію Apache.
Те, що користувачів системи можуть
бути одночасно десятки і сотні тисяч, зумо-
влює необхідність механізму, який би до-
зволив зберігати певні дані для кожного
клієнта між запусками сценарію. Для Web-
застосувань реалізація цього процесу є не-
тривіальною. Справді, доводиться зберігати
всі дані окремо взятого клієнта в певному
тимчасовому сховищі, причому після закін-
чення роботи користувача ці дані повинні
знищуватися. Для цього, звичайно, можна
було б використати функції серіалізації і
файли, але ж потрібно прив'язати конкрет-
ного користувача до конкретних тимчасо-
вих даних з метою запобігання конфліктів
між ними. Вирішенням цієї проблеми стало
використання механізму сесій. У момент
потрапляння клієнта до системи відбува-
ється старт сесії. Користувачеві присвою-
ється унікальний ідентифікатор сесії, який
дає змогу при кожному перезапуску сцена-
рію однозначно визначити його ініціатора.
Знаючи ідентифікатор сесії користувача,
сервер застосувань встановлює, де зберіга-
ються дані окремого користувача. В сесії
зберігаються такі параметри, як номер об-
раної сторінки, код вибраного реєстрового
слова, пошукове слово тощо. Механізм сесії
також застосовується для формування пра-
вої частини словника. За переданим на сер-
вер кодом реєстрового слова чи пошуковим
словом РНР генерує шлях до файлу, де зна-
ходиться відповідна інтерпретаційна час-
тина. Тимчасово створені файли один раз на
день знищуються залежно від терміну їх іс-
нування.
Одним із критеріїв ефективності ро-
боти системи є час відповіді та реакції на дії
користувача. Звичайно, не можна контро-
лювати такі проблемні аспекти, як пору-
шення в роботі мережі, затримка від значної
фізичної віддаленості, ефективність прото-
колів передачі даних, швидкість роботи си-
стеми та локального браузера на клієнтській
стороні. Проте ми намагалися мінімізувати
час взаємодії клієнт-сервера за рахунок
зменшення обсягів даних, що передаються
через мережеве середовище, завдяки опти-
мізації роботи серверних сценаріїв та часу
виконання запитів до бази даних.
Одним із прикладів переваг інтегра-
ції словників до єдиної лексикографічної
системи є специфіка переходу між словни-
ками. При виборі одного із слів з будь-якого
реєстрового ряду ми вільно змінюємо тип
словника, змінюючи при цьому словнико-
вий масив і водночас залишаючись локалі-
зованими на тій же реєстровій одиниці, або
ж переходимо на найближчу за написанням
лексему. Зазначимо, що для користувача
завжди присутня ознака наявності цього
слова в тому чи іншому словнику, що по-
збавляє необхідності додаткового відкриття
транзакції зв’язку між клієнтською та сер-
верною частинами. Отже завдяки глобаль-
ній систематизації даних отримуємо доступ
до всіх наявних ресурсів з єдиного лексико-
графічного середовища.
Позитивним моментом є також і те,
що множина входів до системи не обмежу-
ється реєстровим рядом, а охоплює і праві
частини словникових статей. Кожне слово
правої частини є активним – воно проіндек-
соване і стає додатковою точкою входу до
відповідної словникової одиниці. Це свід-
чить про густу сітку зв’язків у системі, що
відкриває великі функціональні можливості
при досить простому й прозорому інтерфей-
сному відображенні та забезпечує високу
ступінь інтерактивності.
Принципи організації інтерфейсу
користувача
При реалізації інтерфейсної частини
оптимізація системи здійснювалась з до-
триманням загальноприйнятих стандартів
до створення Web-додатків та основних
принципів Web-дизайну [13]. Зрозуміло, що
основою будь-якої Web-сторінки є розмітка.
В даному випадку – це традиційний HTML,
визначений шаблоном DTD стандартної
узагальненої мови розмітки SGML. При
формуванні Web-сторінок використовува-
лись теги HTML, які не виходять за межі
стандартів, затверджених консорціумом
W3C (World Wide Web Consortium). Техно-
Прикладне програмне забезпечення
103
логія HTML використовується перш за все
для структурування документа, а не для
його представлення. Вигляд сторінок керу-
ється елементами дизайну, що досягається
використанням каскадних таблиць стилів
(Cascading Style Sheets, CSS). Правила таб-
лиць стилів застосовуються для визначення
великої множини візуальних аспектів відо-
браження об’єктів сторінки (колір, розмір,
положення тощо). Така технологія відкри-
ває широкі можливості зміни візуалізації
елементів інтерфейсу та спрощує упорядку-
вання й супровід документів. У системі ви-
користовуються глобальні стильові специ-
фікації та передбачено альтернативні ва-
ріанти для CSS-несумісних браузерів.
Сторона клієнта в основному визна-
чається браузером, який є інтерпретатором
Web-сторінок, отриманих з Інтернет-сере-
довища за допомогою мережевих протоко-
лів. Тому важливим завданням є контроль
сумісності з браузерами різних виробників
та різних версій. Програмна система прой-
шла тестування з використанням таких най-
більш розповсюджених браузерів, як Micro-
soft Internet Explorer (починаючи з версії
4.0), Netscape Navigator (6.х, 7.х), Mozilla
(1.х) та Opera (версії 5.х та вище).
Ще однією вимогою до реалізації си-
стеми є збереження балансу форми
представлення і функціонального наванта-
ження. Важливо, щоб система надавала
деякий спеціальний інтерфейс з браузером,
це дозволило б отримувати всі необхідні
дані і представляти їх користувачеві в зро-
зумілій і зручній формі. Система „Словники
України он-лайн” забезпечує поєднання роз-
виненої множини функцій з досить зручним
і несуперечливим інтерфейсом.
Зупинімося детальніше на елементах
інтерфейсу (рис.3).
1. У лівому верхньому куті розміщено еле-
мент вводу, який призначено для по-
шуку слів у реєстрі словника. Користу-
вач має змогу швидко переміститися на
слово, яке його цікавить, або ж, у разі
його відсутності у множині реєстрового
ряду, на групу найближчих за написан-
ням лексем.
2. Додаткова навігація по реєстру здійс-
нюється швидким переходом за абетко-
вою літерою. Реалізовано ефект закла-
док, за допомогою яких відбувається по-
зиціонування на перше слово, що розпо-
чинається з обраної літери.
3. Ще один елемент навігації. Весь реєст-
ровий ряд розбитий на так звані віртуа-
льні групи (кількість одиниць в групі за-
дається програмно). Це дозволяє легко
продивитися найближче оточення, що
чимось нагадує звичне перелистування
паперового словника.
4. Активна частина реєстрового ряду. Об-
ране слово помічено з використанням
специфічного стильового відображення.
5. Ознака наявності слова в тому чи ін-
шому словнику: а,с,ф – відповідно в
словнику антонімів, синонімів та фразе-
ологізмів.
6. Зміна типу словника. Активний словник
помічено більш інтенсивним кольоро-
вим забарвленням.
7. Область виводу словникової статті. Вона
реалізована з використанням плаваю-
чого фрейму. Такий підхід дав змогу по-
збутися проблеми позиціонування при
різних величинах правої частини слов-
никових статей. Ще більш виправданий
вибір фреймової репрезентації у фразео-
логічному словнику, де ця область роз-
бивається на дві частини (в першій відо-
бражається множина фразеологізмів, що
відповідають обраному реєстровому
слову, а в другій – інтерпретаційна час-
тина відповідної фразеологічної групи).
Саме таке візуальне представлення до-
зволяє відчути ієрархію зв’язків даного
словника.
Зазначимо, що описана вище система
на сьогодні реалізована та функціонує в ме-
режевому середовищі за адресою:
http://ulif.org.ua/ulp/dict_all/ у складі Україн-
ського лінгвістичного порталу
(http://ulif.org.ua/). Розвиток даного програм-
ного комплексу передбачається за такими
напрямками:
- розширення та удосконалення лінг-
вістичного наповнення лексикографічної
бази;
- інтеграція з іншими Л-системами,
зокрема з тлумачним, етимологічним,
термінологічними та іншими словниками
української мови;
- інтеграція з іншомовними словни-
Прикладне програмне забезпечення
104
ками та створенням багатомовних онлай-
нових лексикографічних середовищ;
- реалізація додаткових функціо-
нальних можливостей (пошук в реєстрі з
використанням процедури лематизації, по-
шук контекстів в словникових статтях, зв'я-
зок ілюстративного матеріалу з їх вихід-
ними бібліографічними описами та повними
електронними текстами цих джерел);
- застосування у структурі онлайно-
вого варіанту Українського лінгвістичного
корпусу;
- інтеграція до онлайнових систем
пошуку та опрацювання текстів;
- удосконалення інтерактивного
спілкування з користувачами;
- можливість використання варіатив-
них інтерфейсних схем та ін.
Особливо відзначимо можливість
проектування з використанням наших на-
працювань віртуальної лексикографічної
лабораторії, яка повинна стати основою для
створення системи Всеукраїнського лінгвіс-
тичного діалогу [14].
Автор висловлює подяку співробіт-
никам Українського мовно-інформаційного
фонду НАН України за допомогу та підтри-
мку при створенні системи „Словники
України он-лайн” та плідні обговорення при
написанні цієї статті.
1. Широков В.А Інформаційна теорія лек-
сикографічних систем. – К.: Довіра, 1998. –
331 с.
2. Широков В.А. Феноменологія лексикографічних
систем. – К.: Наук. думка, 2004. – 331 с.
3. Рабулець О.Г. Інтегровані лексикографічні сис-
теми: Автореф. дис… канд. техн. наук / НАН
України; Український мовно-інформаційний
фонд. – К., 2002. – 18 с.
4. Інтегрована лексикографічна система
"Словники України". Електронне видання на
лазерному диску. ISBN 966-507-149-1 / В.А.
Широков, О.Г. Рабулець , І.В. Шевченко , О.М.
Костишин, К.М. Якименко. – К., 2003.
5. Бурячок А.А. Орфографічний словник українсь-
кої мови: 4-те вид., доопрац. / – К.: Наук. думка,
2002. – 464 с.
6. Шевченко I.В. Алгоритмiчна словозмiнна кла-
сифiкацiя української лексики // Мовознавство. –
1996. – №4-5. – С. 40-44.
Рис.3. Загальний інтерфейс користувача
Прикладне програмне забезпечення
105
7. Шевченко І.В. Моделі та алгоритмічно-програ-
мне забезпечення лексикографічних систем:
Дис… канд. техн. наук / НАН України; Україн-
ський мовно-інформаційний фонд. – К.: 2000. –
167 с.
8. Словник синонімів української мови: У 2 т. / Под
ред. А.А. Бурячка; НАН України; Інститут мово-
знавства ім. О.О. Потебні. – К.: Наук. думка,
1999. – Т. 1 : А - Н. – 1040 с.; Т. 2 : О - Я. –
960 с.
9. Полюга Л.М. Словник антонімів української
мови: 2-ге вид., доп. і випр. / Под ред.
Л.С. Паламарчук; НАН України; Інститут украї-
нознавства ім. І. Крип'якевича; Український мо-
вно-інформаційний фонд. – К.: Довіра, 2001. –
276 с.
10. Словник фразеологізмів української мови: – К.:
Наук. думка, 2003. – 1104 с.
11. Буч Г. Объектно-ориентированный анализ и
проектирование с примерами приложений на
С++. – 2-е изд. / Пер. с англ. – М.: "Изд-во Би-
ном"; СПб.: "Невский диалект", 2001. – 560 с.
12. Гешвинде Э., Шениг Г.-Ю. Разработка Web-при-
ложений на PHP и PostgreSQL: Руководство раз-
работчика и администратора / Пер. с англ. –
СПб: ООО «ДиаСофтЮП», 2003. – 608 с.
13. Пауэлл Т. Web-дизайн. – 2-е изд., перераб. и доп.
/ Пер. с англ. – СПб.: БХВ–Петербург, 2004. –
1072 с.
14. Широков В.А Всеукраїнський лінгвістичний
діалог у контексті теорії лексикографічних сис-
тем // Мовознавство. – 2003. – №6. – С. 3-7.
15. Коннолли Т., Бегг К., Страчан А. Базы данных:
проектирование, реализация и сопровождение.
Теория и практика. – 2-е изд. / Пер. с англ. – М.:
Изд. дом "Вильямс", 2000. – 1120 с.
Отримано 19.04.05
Про автора
Сидорчук Надія Миколаївна
аспірантка
Місце роботи автора:
Український мовно-інформаційний фонд
НАН України
01601, Київ, вул. Володимирська, 54
Тел.: (044) 259 4895
Е-mail: nadine@ulif.org.ua
|