Ідентифікація знань в електронних бібліотеках
The method of comparator identification is considered as one the logical methods of Data Mining. It is used to solve problems of processing natural language texts in automatized information library systems.
Gespeichert in:
| Datum: | 2009 |
|---|---|
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Russisch |
| Veröffentlicht: |
The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
2009
|
| Online Zugang: | https://journal.iasa.kpi.ua/article/view/107839 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | System research and information technologies |
| Завантажити файл: | |
Institution
System research and information technologies| _version_ | 1866302003090554880 |
|---|---|
| author | Kanishcheva, O. V. |
| author_facet | Kanishcheva, O. V. |
| author_sort | Kanishcheva, O. V. |
| baseUrl_str | http://journal.iasa.kpi.ua/oai |
| collection | OJS |
| datestamp_date | 2018-04-06T12:33:14Z |
| description | The method of comparator identification is considered as one the logical methods of Data Mining. It is used to solve problems of processing natural language texts in automatized information library systems. |
| first_indexed | 2025-07-17T10:22:29Z |
| format | Article |
| fulltext |
© О.В. Канищева, 2009
66 ISSN 1681–6048 System Research & Information Technologies, 2009, № 3
УДК 519.7:007.52
ИДЕНТИФИКАЦИЯ ЗНАНИЙ В ЭЛЕКТРОННЫХ
БИБЛИОТЕКАХ
О.В. КАНИЩЕВА
Рассмотрен метод компараторной идентификации как один из логических ме-
тодов Data Mining для решения задач обработки текстов естественного языка в
автоматизированных информационных библиотечных системах.
ВСТУПЛЕНИЕ. АКТУАЛЬНОСТЬ РАБОТЫ
Разработка и исследование электронных библиотек (ЭБ) — одно из актуаль-
ных направлений развития информационных систем в последние годы, при-
влекающее внимание специалистов различного профиля.
Специалисты в области библиотечного дела видят в ЭБ новые возмож-
ности для совершенствования автоматизированных библиотечных систем,
превращения их в публичные ЭБ нового поколения с развитыми средствами
представления разнообразных цифровых информационных ресурсов и до-
ступа к ним, создаваемые с учетом необходимости интеграции издательских
и библиотечных технологий.
Специалисты в области информационных систем рассматривают ЭБ
как новый класс информационных систем, базирующихся на самых передо-
вых достижениях информационных и телекоммуникационных технологий
[1]. Разработки таких систем порождают разнообразные сложные теорети-
ческие и технологические проблемы, требующие отдельного исследования.
К числу наиболее острых технологических проблем развития ЭБ можно
отнести следующие:
• Развитие методов представления информационных ресурсов ЭБ.
• Определение состава метаданных, независимых от применений и
специфических для различных сфер приложения, разработка средств их
представления.
• Развитие новых походов к каталогизации информационных ресурсов
ЭБ.
• Разработка техники индексирования информационных ресурсов раз-
личной природы (текст, аудио, видео и т.п.), методов поиска и обнаружения
релевантных ресурсов, а также принципов и средств их анализа.
• Интеграция неоднородных коллекций информационных ресурсов на
логическом и семантическом уровнях.
• Разработка подходов к интеграции метаданных и методов их реали-
зации.
• Создание функционально развитых пользовательских интерфейсов
(многоязыковый доступ, визуализация данных, персонализация функций,
поддержка семантического уровня общения пользователей с системой).
• Эффективное использование новых Веб-технологий, основанных на
стандартах платформы XML.
• Исследование архитектурных аспектов ЭБ.
• Обеспечение безопасности информационных ресурсов ЭБ.
Идентификация знаний в электронных библиотеках
Системні дослідження та інформаційні технології, 2009, № 3 67
Однако для обычного пользователя наиболее актуальной остается про-
блема эффективного поиска, который даст на выходе релевантную, полез-
ную информацию.
В настоящее время для анализа больших массивов информации на ес-
тественном языке практически во всех сферах деятельности человека, где
накоплены большие объемы данных, используют технологии Data Mining и
Text Mining.
Text Mining содержит новые методы для выполнения семантического
анализа текстов, информационного поиска и управления. Синонимом поня-
тия Text Mining является KDT (Knowledge Discovering in Text — поиск или
обнаружение знаний в тексте).
В отличие от технологии Data Mining, которая предусматривает анализ
упорядоченной в некие структуры информации, технология Text Mining
анализирует большие и сверхбольшие массивы неструктурированной инфо-
рмации.
Программы, реализующие эту задачу, должны некоторым образом опе-
рировать текстами на естественном языке и при этом «понимать» смысл
анализируемого текста. Одним из методов Text Mining является метод срав-
нения, или метод компараторной идентификации.
Для формализации и хранения знаний в памяти интеллектуальной сис-
темы (ИС), а эта система также имеется и в ЭБ, рассматриваются задачи
представления знаний. Для этого разрабатываются специальные модели,
языки для описания и выделяются различные типы знаний, изучаются исто-
чники, из которых ИС может черпать знания, создаются процедуры и при-
емы, с помощью которых возможно приобретение знаний для ИС. Проблема
представления знаний для ИС чрезвычайно актуальна, так как ИС — это
система, функционирование которой опирается на информацию о проблем-
ной области, хранящуюся в ее памяти.
В настоящее время из существующих моделей представления знаний
наиболее популярны логические, сетевые, продукционные, фреймовые и
формальные модели представления знаний [2]. В рассматриваемой задаче
идентификации знаний в интеллектуальных системах предметной областью
обычно называется множество предметов и процессов, которые составляют
основу необходимой для решения задачи обработки информации.
Общеизвестно, что языки, предназначенные для описания предметных
областей, называются языками представления знаний (ЯПЗ). Считается, что
универсальным ЯПЗ является естественный язык. Однако использовать его
в системах машинного представления знаний сложно, так как он тяжело
поддается формализации из-за нерегулярности, полисемии, омонимии и т.д.,
а главное — из-за отсутствия формализации семантики естественного языка,
которая имела бы достаточно эффективную операционную поддержку.
ИСПОЛЬЗОВАНИЕ МЕТОДА КОМПАРАТОРНОЙ ИДЕНТИФИКАЦИИ В
ЗАДАЧАХ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ
Классическая задача идентификации состоит в том, чтобы по входному x и
выходному y сигналам объекта определить закон )(xFy = преобразования.
Такую идентификацию называют прямой, поскольку она осуществляется
при непосредственном доступе к выходному сигналу. Однако в ряде случаев
возникает необходимость в косвенной идентификации объекта, когда у ис-
следователя нет прямого доступа к выходному сигналу. Многие задачи это-
го типа можно решать методом компараторной идентификации, который
О.В. Канищева
ISSN 1681–6048 System Research & Information Technologies, 2009, № 3 68
позволяет излагать основные положения теории интеллекта дедуктивным
способом, исходя исключительно из физически наблюдаемых фактов. Этот
метод хорошо зарекомендовал себя при обработке лингвистических объек-
тов различных уровней языка.
Компараторная идентификация используется для формального описа-
ния низших (периферических) механизмов интеллекта (восприятие, узнава-
ние и понимание). Эти механизмы формируют физические реакции челове-
ка на внешние воздействия.
Обрабатываемые библиотечными системами объекты являются дискре-
тными, конечными и детерминированными, что позволяет использовать при
обработке объектов АИБС (автоматизированной информационной библио-
течной системы) метод компараторной идентификации.
Для реализации метода компараторной идентификации необходим
единый универсальный, хорошо разработанный математический аппарат,
желательно, ориентированный и на моделирование всех уровней лингвисти-
ческой обработки текстов документов. Опыт исследования закономерностей
передачи информации на естественном языке, а именно с такой информаци-
ей мы имеем дело в библиотечных системах, показывает, что целесообразно
пользоваться одним формальным аппаратом описания закономерностей пе-
редачи и интеллектуального преобразования информации [3]. Таким наиболее
универсальным математическим языком, служащим для решения задач обра-
ботки текстовой информации, является алгебра конечных предикатов [4, 5].
Используя алгебру предикатов и предикатных операций, можно создать
интегрированную модель представления знаний, основанную на традицион-
ных моделях, а также на моделях представления знаний на естественном
языке. Алгебра предикатов компенсирует необходимость в других ЯПЗ. При
этом объекты и отношения во всех моделях представления знаний записы-
ваются в виде уравнений алгебры предикатов. Системы предикатных урав-
нений могут решаться с помощью универсального решателя, который пред-
ставляет собой программу, написанную на некотором алгоритмическом
языке высокого уровня. Кроме того, любое уравнение алгебры предикатов
может быть представлено в виде переключательной цепи, что предоставляет
возможность сконструировать процессор представления знаний из комби-
наций таких цепей [6].
Исчисления высказываний (ИВ) и предикатов (ИП) гарантируют не-
противоречивость вывода, алгоритмической разрешимости (для ИВ) и полу-
разрешимости (для ИП первого порядка).
Алгебра конечных предикатов (АКП) полностью характеризуется ал-
фавитом A , состоящим из k символов kaaa ,,, 21 … и алфавитом перемен-
ных B из n символов nxxx ,,, 21 … . Средствами АКП может быть описан
любой n -местный k -ичный предикат ),,,( 21 nxxxf … , заданный алфави-
том A . Формулы АКП состоят из следующих символов: kaaa ,,, 21 … , пере-
менных nxxx ,,, 21 … , знаков дизъюнкции ∨ , конъюнкции ∧ , логических
констант 0 и 1, называемых соответственно ложью и истиной.
Предикатом P , заданным на nU , называется любая функция =ε
),,,( 21 nxxxP …= , отображающая множество nU в множество ∑ , где
∑= }1,0{ .
Под универсумом элементов nU будем понимать все возможные текс-
ты документов полнотекстовой базы данных, вторичные документы (рефе-
Идентификация знаний в электронных библиотеках
Системні дослідження та інформаційні технології, 2009, № 3 69
рат, аннотация, библиография), ключевые понятия, дескрипторы, рубрики,
подрубрики и т.д. Переменные nxxx ,,, 21 … называются предметными, а их
значения предметами. При 1=n предикат P является унарным, при
2=n — бинарным, при 3=n — тернарным. Если множество U конечно,
как при моделировании библиотечных процессов, то и предикат P конеч-
ный. Предикаты, обозначаемые 1 и 0 , называются тождественно истинны-
ми и тождественно ложными соответственно.
Множество всех n -арных предикатов, заданных на nU , на котором
определены операции дизъюнкции, конъюнкции и отрицания, называется
алгеброй n -арных предикатов на nU . При этом операции дизъюнкции,
конъюнкции и отрицания являются базисными для алгебры предикатов, ко-
торая при любом значении n является разновидностью булевой алгебры, и в
ней выполняются все ее основные тождества. Базисными предикатами для
алгебры предикатов будут предикаты вида
⎩
⎨
⎧
≤≤≠
≤≤=
=
,)1(если,0
,)1(если,1
niax
niax
x
i
ia
i (1)
где { }ni ,,2,1 …= ; a — любой элемент универсума. Предикат вида (1) назы-
вается предикатом узнавания предмета a по переменной ix . Если универ-
сум конечен и состоит из m элементов, всего имеется nm× различных ба-
зисных элементов. Алгебра предикатов полна в том смысле, что любой ее
предикат можно представить в виде суперпозиции базисных операций, при-
мененных к базисным элементам. На языке АКП могут быть описаны лю-
бые конечные отношения, поэтому другой математический аппарат, предна-
значенный для описания произвольных конечных отношений, в логическом
смысле обязательно будет эквивалентен алгебре конечных предикатов.
ВЫВОДЫ
Рассмотренный метод описания знаний (метод компараторной идентифика-
ции) с использованием алгебры предикатов может дать в перспективе воз-
можность единообразного представления знаний в электронных библиоте-
ках в виде соответствующих уравнений. Любое такое уравнение можно
реализовать аппаратно переключательной схемой. Используя переключатель-
ные цепи, можно конструировать технические средства обработки и хранения
знаний как некоторый интеллектуальный процессор обработки знаний.
ЛИТЕРАТУРА
1. Когаловский М.Р., Новиков Б.А. Электронные библиотеки — новый класс
информационных систем // Программирование. — 2000. — № 3. — С. 3–8.
2. Искусственный интеллект: В 3-х кн. — Модели и методы / Под ред.
Д.А. Поспелова. — М.: Радио и связь,1990. — Кн. 2. — 304 с.
3. Хайрова Н.Ф., Шаронова Н.В. Автоматизированные информационные системы:
задачи обработки информации. — Харьков: Нар. укр. акад., 2002. — 120 с.
4. Шабанов-Кушнаренко Ю.П. Теория интеллекта. Технические средства. —
Харьков: Вища шк., 1986. — 136 с.
5. Шабанов-Кушнаренко Ю.П., Шаронова Н.В. Компараторная идентификация
лингвистических объектов. — Киев: ІСДО, 1993. — 116 с.
6. Шабанов-Кушнаренко Ю.П. Теория интеллекта. Математические средства. —
Харьков: Вища шк., 1984. — 144 с.
Поступила 30.05.2007
|
| id | journaliasakpiua-article-107839 |
| institution | System research and information technologies |
| keywords_txt_mv | keywords |
| language | Russian |
| last_indexed | 2025-07-17T10:22:29Z |
| publishDate | 2009 |
| publisher | The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" |
| record_format | ojs |
| resource_txt_mv | journaliasakpiua/81/56bced44e298a6599f82d2f25b558781.pdf |
| spelling | journaliasakpiua-article-1078392018-04-06T12:33:14Z Knowledge identification in e-libraries Идентификация знаний в электронных библиотеках Ідентифікація знань в електронних бібліотеках Kanishcheva, O. V. The method of comparator identification is considered as one the logical methods of Data Mining. It is used to solve problems of processing natural language texts in automatized information library systems. Рассмотрен метод компараторной идентификации как один из логических методов Data Mining для решения задач обработки текстов естественного языка в автоматизированных информационных библиотечных системах. Розглянуто метод компараторної ідентифікації як один із логічних методів Data Mining для розв’язання задач обробки текстів природної мови у автоматизованих інформаційних бібліотечних системах. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2009-09-25 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/107839 System research and information technologies; No. 3 (2009); 66-69 Системные исследования и информационные технологии; № 3 (2009); 66-69 Системні дослідження та інформаційні технології; № 3 (2009); 66-69 2308-8893 1681-6048 ru https://journal.iasa.kpi.ua/article/view/107839/102786 Copyright (c) 2021 System research and information technologies |
| spellingShingle | Kanishcheva, O. V. Ідентифікація знань в електронних бібліотеках |
| title | Ідентифікація знань в електронних бібліотеках |
| title_alt | Knowledge identification in e-libraries Идентификация знаний в электронных библиотеках |
| title_full | Ідентифікація знань в електронних бібліотеках |
| title_fullStr | Ідентифікація знань в електронних бібліотеках |
| title_full_unstemmed | Ідентифікація знань в електронних бібліотеках |
| title_short | Ідентифікація знань в електронних бібліотеках |
| title_sort | ідентифікація знань в електронних бібліотеках |
| url | https://journal.iasa.kpi.ua/article/view/107839 |
| work_keys_str_mv | AT kanishchevaov knowledgeidentificationinelibraries AT kanishchevaov identifikaciâznanijvélektronnyhbibliotekah AT kanishchevaov ídentifíkacíâznanʹvelektronnihbíblíotekah |