Универсальная система программ обработки тематических текстов

Предложена технология построения языковых процессоров для обработки тематических текстов на естественных языках, состоящих каждый из двух частей: универсальной программной, ориентированной на класс языков, и информационной в виде машинного представления грамматики и схемы перевода конкретных языков....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Управляющие системы и машины
Datum:2012
Hauptverfasser: Мищенко, Н.М., Фелижанко, О.Д., Щёголева, Н.Н.
Format: Artikel
Sprache:Russisch
Veröffentlicht: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2012
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/83105
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Универсальная система программ обработки тематических текстов / Н.M. Мищенко, О.Д. Фелижанко, Н.Н. Щёголева // Управляющие системы и машины. — 2012. — № 6. — С. 35-42. — Бібліогр.: 11 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860091466953523200
author Мищенко, Н.М.
Фелижанко, О.Д.
Щёголева, Н.Н.
author_facet Мищенко, Н.М.
Фелижанко, О.Д.
Щёголева, Н.Н.
citation_txt Универсальная система программ обработки тематических текстов / Н.M. Мищенко, О.Д. Фелижанко, Н.Н. Щёголева // Управляющие системы и машины. — 2012. — № 6. — С. 35-42. — Бібліогр.: 11 назв. — рос.
collection DSpace DC
container_title Управляющие системы и машины
description Предложена технология построения языковых процессоров для обработки тематических текстов на естественных языках, состоящих каждый из двух частей: универсальной программной, ориентированной на класс языков, и информационной в виде машинного представления грамматики и схемы перевода конкретных языков. Рассмотрен язык описания информационной части, по которому генерируется машинное представление. A technology is presented for constructing universal language processors for the texts in natural languages. Each processor is composed of two parts: a universal part oriented to a class of languages and an information part containing the machine representation of grammar and translation methods for a specific language. A specification language for the information part allowing for generating its machine representation is suggested. Запропоновано технологію побудови мовних процесорів для обробляння тематичних текстів натуральними мовами, кожний з яких складається з двох частин: універсальної програмної, орієнтованої на клас мов, та інформаційної, що містить машинне представлення граматики і схем перекладу конкретних мов. Розглянуто мову опису інформаційної складової, за яким генерується її машинне представлення.
first_indexed 2025-12-07T17:23:08Z
format Article
fulltext УСиМ, 2012, № 6 35 УДК 651.926:681.3 Н.M. Мищенко, О.Д. Фелижанко, Н.Н. Щёголева Универсальная система программ обработки тематических текстов Предложена технология построения языковых процессоров для обработки тематических текстов на естественных языках, состоящих каждый из двух частей: универсальной программной, ориентированной на класс языков, и информационной в виде машинного представления грамматики и схемы перевода конкретных языков. Рассмотрен язык описания информационной части, по которому генерируется машинное представление. A technology is presented for constructing universal language processors for the texts in natural languages. Each processor is composed of two parts: a universal part oriented to a class of languages and an information part containing the machine representation of grammar and translation methods for a specific language. A specification language for the information part allowing for generating its machine representation is sug- gested. Запропоновано технологію побудови мовних процесорів для обробляння тематичних текстів натуральними мовами, кожний з яких складається з двох частин: універсальної програмної, орієнтованої на клас мов, та інформаційної, що містить машинне представлен- ня граматики і схем перекладу конкретних мов. Розглянуто мову опису інформаційної складової, за яким генерується її машинне представлення. Введение. Глобальная компьютерная сеть сде- лала возможным распространение идей и средств, способствующих научно-техническому прогрес- су. Большое значение приобретают средства об- щения на естественных языках разноязычных субъектов, в том числе и с компьютером, став- шим активным участником диалога. Проблема общения с компьютерами на ес- тественном языке имеет свою историю. Первой попыткой наладить такое общение была реали- зация на ЭВМ «Киев» идеи В.М. Глушкова обу- чать машину распознавать смысл представлен- ных ей фраз на естественном языке. Эта идея была темой успешного выступления В.М. Глуш- кова в 1962 году на конгрессе IFIP–62 (Interna- tional Federation for Information Processing) в Мюнхене [1]. Через несколько лет появились ди- алоговые системы общения на формальных язы- ках, предпосылки появления которых изложе- ны в статье [2]. С лингвистической точки зре- ния проблема общения с компьютером рассмат- ривается в монографии [3], где приводятся при- меры различных моделей типа «текст–смысл» и проблемы их практической релизации. В по- следнее десятилетие получили распространение онтологии (классификация знаний). На их осно- ве создана Semantic Web (Семантическая пау- тина). Однако прогресс в этой сфере, похоже, мало повлиял на процесс общения человека с бо- гатством Интернета. Конкретная же задача – как передавать смысл сообщения на естественных языках, если в каждом языке существует сино- нимия не только лексическая, но и выраженная неявно другими языковыми средствами, а также как машине сформулировать ответ – решается в каждом отдельном случае индивидуально. Для общения с компьютером можно использовать подмножества естественных языков или строить язык–посредник (формальный или полуфор- мальный) между человеком и компьютером. Во всех возможных вариантах общения непремен- но возникает задача построения программ пе- ревода с естественного на язык общения. В статье предлагается технология построе- ния универсальных программ для пословной обработки тематических текстов на примере языковых процессоров DUET – для перевода и FEST – для лексико-статистического анализа текстов. В данной реализации слово – это так- же составные слова и устойчивые словосоче- тания. Пословная обработка научно-техничес- ких текстов возможна благодаря практически отсутствующей омонимии слов, достаточно про- стому синтаксису и ограниченному словарю употребляемой лексики в таких текстах. Характеристика подхода Особенность предложенных языковых про- цессоров (ЯП) DUET и FEST состоит в том, что язык входных текстов обоих ЯП является их параметром, а сами они ориентированы на специалистов–нелингвистов. Приводим основные свойства выбранной сферы применения ЯП DUET и FEST. 36 УСиМ, 2012, № 6  Пословная обработка текстов – сравнитель- но проста в реализации и такова, что допускает формальное описание перевода. Здесь уместно напомнить о так называемом правиле 20/80 [4]: если с помощью средств автоматизации, на ко- торые затрачено 20% ресурсов, решается 80% задачи, то расходы на средства экономически целесообразны. Перевод научных текстов с помощью ЯП DUET вполне приемлем, по- скольку более 85% фраз в переводах не нуж- даются в исправлении.  Поскольку в профессиональной деятель- ности пользователя–нелингвиста лингвистиче- ская система имеет второстепенное значение, для него более важно – удобство в пользова- нии, а не полнота системы, которая непремен- но ведет к ее усложнению. Кроме того, многие лингвистические процессоры, напоминают «чер- ные ящики» и не содержат средств их приспо- собления к потребностям пользователей из конкретной области знаний [5]. В связи с этим и возникла потребность построения мобильной программы перевода DUET, поддерживаемой средствами автоматизации построения слова- рей, которые формировал бы пользователь для своей специальности. Ориентация ЯП на профессиональный язык позволяет повысить эффективность работы ЯП за счет словарей сравнительно небольшого объ- ема, какими пользуется та или иная область те- матических знаний. Ибо каким бы полным не был словарь (и, пропорционально, высокой це- на соответствующей лингвистический системы), всегда может случиться, что российский биоло- гический термин «древесные побеги» перево- дится на украинский язык, как «дерев’яні втечі».  Построение словарей – процесс сложный и требует определенных лингвистических знаний. При настройке ЯП на язык конкретной специаль- ности предлагаем придерживаться так называе- мой текстовой идеологии, суть которой заклю- чается в том, что слова для занесения в словарь выбираются из профессиональных текстов поль- зователя на основе частотных списков лекси- ки, которые генерирует ЯП FEST. Такие слова- ри лучше всего отражают активную лексику текстов определенной профессии и не содер- жат лишних слов. Лексико-статистические ис- следования текстов показали, что профессио- нальная лексика имеет самую высокую частоту употребления среди полнозначной лексики.  Основная программа в ЯП DUET и FEST – морфологический анализ (МА), распознающий слова. Пословный перевод в значительной сте- пени компенсируется подобием синтаксических структур переводимых языков из класса допу- стимых за исключением нескольких конструк- ций, трансформирующихся в процессе перево- да. Редактирование перевода таких конструк- ций ложится на пользователя. Описание технологии построения ЯП DUET и FEST Намереваясь построить ЯП, программы ко- торого способны обслуживать различные про- фессиональные языки, необходимо предусмот- реть удобный переход от одной пары языков к другой. Такое требование к построению ЯП при- вело к понятию: входной и выходной языки – это параметры ЯП DUET, и таковым же есть входной язык для ЯП FEST. Параметризация ЯП DUET и FEST означает деление каждого из них на две части: универсальную (программы) и пе- ременную информационную часть (параметр). Универсальная часть – это общие для разно- язычных входных текстов программы, выполня- ющие: морфологический анализ, проверку со- гласования соседних словоформ во входном тек- сте, формирование перевода, списков распознан- ных или нераспознанных словоформ. Созданные для генерации первого ЯП, они в дальнейшем дополняются соответствующими информаци- онными составляющими, образуя конкретные ЯП по заказу пользователей. Многократное ис- пользование универсальных программных ком- понентов повышает их надежность. Они недо- ступны для изменения пользователями. В отличие от невидимых для пользователя программ ЯП видимыми для них являются: ме- таязыки Lmorf и Lduet для создания специфи- каций, соответственно, Smorf и Sduet информа- ционных составляющих ЯП, а также програм- мы, объединенные названием «генератор DUAL», генерирующие параметр – информационную составляющую на основе спецификаций Smorf УСиМ, 2012, № 6 37 и Sduet. Итак, переход от одного языка к дру- гому (при переводе – от одной пары языков к другой) выполняется заменой в структурах дан- ных ЯП информационной составляющей на сге- нерированную генератором DUAL по специ- фикациям другого языка. Архитектуру генератора DUAL для генера- ции МП DUET составляют компоненты: {Lmorf, GENtbl, Lduet, CONdic, GENw}, где Lmorf – метаязык описания морфологичес- кой информации входного и выходного языков; GENtbl – программа–генератор морфологи- ческих таблиц Mtbl входного языка и Mtbl–1 выходного по их описаниям, соответственно, Smorf и Smorf1 на метаязыке Lmorf; Lduet – формальный декларативный мета- язык для спецификации Sduet лексики входно- го и выходного языков и схем перевода; GENw – генератор словоформ входного и выходного языков по спецификации Sduet; СONdic – генератор информации D для ЯП DUET по описанию Sduet. Спецификация лексики – ответственная ра- бота, результат которой целесообразно прове- рить перед генерированием на ее основе ин- формационной составляющей будущего ЯП. Та- кая проверка проводится по результатам рабо- ты программы GENw. После проверки и исправления ошибок в спе- цификации Sduet программа CONdic генериру- ет информационную часть D, составляющую словари входного и выходного языков, содер- жащие служебные и неизменяемые слова, а так- же основы изменяемых слов. Все они снабже- ны морфологической информацией. Каждая ста- тья входного словаря содержит ссылку на со- ответствующую статью в выходном словаре. Таким образом фиксируется схема перевода. Подаем структуру МП DUET в терминах составляющих. {T, Mtbl, Mtbl–1, D}, где T – универсальная программная состав- ляющая ЯП DUET. Генераторы GENw и CONdic реализованы с помощью РСП «Терем» [6], поскольку вход- ные тексты для них принадлежат к классу кон- текстно-свободных языков. Спецификации информационной состав- ляющей ЯП DUET Спецификации для ЯП DUET – это описание морфологической информации: Smorf входно- го и Smorf1 выходного языков на метаязыке Lmorf, а также описание Sduet лексики входно- го языка и схемы ее перевода на метаязыке Lduet. Следует отметить, что язык Lmorf служит описанием морфологической информации и для ЯП FEST. Спецификация морфологической информа- ции. Спецификация морфологической информа- ции входного языка Smorf для обоих ЯП DUET и FEST и выходного Smorf1 для ЯП DUET со- держит элементы трех типов: объекты собствен- но языка (алфавит, окончания), объекты мета- языка (названия падежей, лиц, классов лексем и т.д.) и системные коды объектов метаязыка. Предполагается, что словоформа изменяе- мой лексики входного или выходного (при пе- реводе) языка состоит максимум из трех час- тей: основы – обязательной начальной части словоформы, которая не изменяется при скло- нении или спряжении, возможно, суффикса и окончания. Окончания совпадают с канониче- скими. Суффикс – это часть словоформы, ко- торая находится между основой и окончанием. Если суффикс общий для всех словоформ од- ной и той же лексемы, его следует отнести к основе. Суффикс может состоять из несколь- ких канонических суффиксов или не совпадать ни с одним из них. Списки суффиксов и основ, в отличие от окончаний, не подаются отдель- но, а формируются генератором CONdic в про- цессе обработки спецификаций лексики Sduet. Префикс всегда относим к основанию. Переходим к определению понятий метаязы- ка Lmorf. Последовательность окончаний язы- ка, которые принимаются некоторым классом словоформ, назовем кортежем окончаний, оп- ределяющим этот класс. Для именных частей языка каждое окончание кортежа соответству- ет определенному падежу, начиная с именитель- ного единственного числа и оканчивая предло- жным множественного числа. Для глаголов – это окончания в лицах единственного и мно- жественного числа. Каждый класс словоформ 38 УСиМ, 2012, № 6 получает уникальное мнемоническое имя – шифр класса, который является названием и со- ответствующего кортежа окончаний. Таким об- разом, спецификация морфологической инфор- мации входного языка Smorf и выходного Smorf1 состоит из трех разделов: 1) алфавит языка анализируемых текстов; 2) список падежей, лиц и шифров, где каж- дый элемент сопровождается присвоенным ему числовым системным кодом и коротким опи- санием его грамматических значений; 3) шифры с кортежами соответствующих окончаний. На основе спецификаций Smorf и Smorf1 про- грамма GENtbl строит морфологические табли- цы, соответственно, Mtbl и Mtbl–1, каждая из ко- торых содержит списки указанных ранее объек- тов, древовидное представление окончаний, спи- сок омонимов окончаний, представление корте- жей окончаний в виде двумерного массива чи- сел – адресов окончаний в списке окончаний. Подробнее генерация морфологических таблиц изложена в [7]. Отметим, что спецификация морфологиче- ской информации украинского языка составля- ет 29 Кб, а соответствующие морфологические таблицы 33 Кб, аналогичные показатели и для русского языка, в то время как для английского (аналитического) – 3 Кб и 2 Кб соответственно,. Программа морфологического анализа (МА) включена в оба ЯП – DUET и FEST. Анализ слова программой МА выполняется с двух кон- цов по очереди. После некоторого числа шагов получаем результат в виде слова или основы слова, возможно, суффикса и окончания или со- общения, что слово в словаре не найдено. Что делать дальше с этими данными, зависит от па- раметров программы МА и информации, со- провождающей найденное слово в словаре, в частности, ссылки на слово–перевод и на его грамматические признаки. Изложение алгорит- ма МА приведено в [8]. Разработка и реализация алгоритма МА для ЯП DUET и FEST проводились с учетом опыта реализации алгоритма МА Мельчука И.А. [9]. Именно в этой работе изложена идея деления алгоритмов МА на универсальные программы, т.е. общие для определенного класса языков, и таблицы, содержащие морфологическую инфор- мацию конкретного языка из класса допусти- мых. Эта идея применяется авторами статьи для ЯП DUET, где, кроме морфологической ин- формации, в качестве параметра подается и описание схемы перевода. Спецификация пословного перевода. Со- ставление спецификации перевода – творчес- кая работа, поскольку требует исследования спо- собов перевода каждого слова, а не бездумного занесения в компьютер слов из бумажного сло- варя. Проще всего составлять словарь служеб- ных и неизменяемых слов. Это можно сделать в первую очередь, поскольку такие слова упот- ребляются в текстах одинаково часто и незави- симо от специальности. Их количество не пре- вышает тысячи–двух, а в текстах на флектив- ных языках их употребление достигает 30% по отношению ко всей лексике текста. В текстах на английском языке их часть составляет до 48%. Спецификация пословного перевода есте- ственного языка на метаязыке Ldic – это после- довательность правил, разделенных символом ';'. Каждое правило содержит неизменяемое сло- во или общую основу нескольких словоформ, или целое словосочетание и, если необходимо, грамматическую информацию для анализа вход- ного и синтеза выходного текста. Рассмотрим несколько правил перевода лексики с русского языка на украинский. 1. Если переводится неизменяемое или со- ставное слово, то описание перевода исчерпы- вается указанием выходного слова: часто => *; всегда => завжди; чаще всего => найчастіше. Звездочка в первом примере на месте пере- вода означает совпадение перевода со словом. 2. Для перевода чаще всего требуется до- полнительная информация в виде схемы пере- вода, отделенной от выходной цепочки двое- точием. Эту информацию составляют шифры кортежей окончаний, отметки падежей или лиц и суффиксы. Обычно схема перевода состоит из двух частей, разделенных знаком «=». Ин- формация слева от знака равенства касается входной цепочки, справа – выходной. УСиМ, 2012, № 6 39 множеств => множин: iсо = iжа_1. Схема перевода означает: все словоформы существительного русского языка среднего ро- да с основой множеств- принимают оконча- ния из кортежа, имеющего шифр iсо и перево- дятся на украинский язык существительными женского рода с основой множин- и с оконча- ниями из кортежа iжа_1. 3. Суффикс, который употребляется не во всех словоформах с одной и той же основой присое- диняется к основе, как это сделано в правиле: готовност => готовн: iжь = iж3ь_1 «iст» (он, озн, оо) «ост». Чередование гласных в суффиксах украин- ских словоформ обусловило перечень падежей, в которых употребляется суффикс -iст- (имени- тельный, винительный, творительный единст- венного числа) -ост- в остальных падежах. 4. Следующее правило предлагает перевод словоформ, образованных от двух основных: имеющийся (перевод: наявний) и имеющий (пе- ревод: що має). Указанные входные слова име- ют общую основу. Во входном словаре основы не должны совпадать, поэтому в данном слу- чае предлагаются в одном правиле два альтер- нативных перевода, разделенных знаком '!', каж- дый с отдельной схемой. Схема первого пере- вода содержит три шифра, поскольку род при- лагательных есть изменяемым признаком, а при- частие склоняется как прилагательное: имеющ => наявн : пмдщий_1/пждщая_ 1/псдщее_1 = пчий_1/пжа_1/псе_1 ! «що ма» : пмдщий/пждщая/псдщее = «є» (одн) «ють». Второй перевод (после знака '!') сопровож- дается схемой без шифра в правой части пра- вила, потому что имеющейся информации дос- таточно для синтеза выходной цепочки, так как все формы причастия имеющий в единственном числе переводятся «що має», а во множествен- ном – «що мають». Окончания здесь исполь- зуются как псевдосуффиксы, цепочка (одн) оз- начает, что 'є' присоединяется во всех падежах единственного числа. В остальных падежах при- соединяется 'ють'. Анализ результатов перевода с русского язы- ка на украинский научных текстов из области проектирования ЭВМ показал, что более 85% слов переведены правильно (не считая слов, от- сутствующих в словаре), что свидетельствует о целесообразности применения формального опи- сания пословного перевода. Остальная часть входного текста (менее 15%) не всегда может быть переведена правильно. Одна из причин свя- зана с локальностью области согласования сло- воформ. Некоторые из согласованных словосо- четаний входного текста после перевода стано- вятся несогласованными, в частности, когда сло- ва согласованных словосочетаний находятся в разных предложениях или, будучи в одном пред- ложении, разделены словоформами, не принад- лежащими словосочетанию. Не учтены также в ЯП все случаи изменения структуры выходно- го текста в сравнении со структурой входного. В этом случае придерживаемся принципа: луч- ше недоделать, чем сделать неправильно. По- этому редактирование результата перевода че- ловеком необходимо. Пример русско-украинского перевода. При- ведем предложение текста Rus.txt (27 Кб) на рус- ском языке, в котором формулы заменены сим- волом '#'. Его перевод на украинский язык с помощью МП DUET показывает типичные не- достатки перевода. В тактируемых триггерах, кроме информа- ционных и управляющих входов, есть входы, по которым поступают тактирующие сигналы #, а также установочные входы # и # для при- нудительной установки триггера в нулевое и, соответственно, единичное состояние. Перевод. У, що тактуються тригерах, крiм iнформацiйних i керуючих входiв, є входи, (за,по) як(-ими, -их) поступають тактуючi сигнали #, а також установочні входи # i # для примусо- вого встановлення тригера в нульове і, вiдповiд- но, одиничний стан. В первой строке перевода слово тригерах следует поменять местами с цепочкой що так- туються, в другой – оставить предлог по и вы- брать окончание -их, в третьей строке следует согласовать имя прилагательное нульове с име- нем существительным стан. Согласование не было выполнено во время перевода, поскольку эти слова во входном тексте разделены други- ми словами. 40 УСиМ, 2012, № 6 Лексико-статистические исследования текстов (МП FEST) Просмотр больших массивов текстов (ста- тей, отчетов) человеком с целью исследования их лексики крайне неэффективен. Простейший способ повышения эффективности исследова- ния – сужение информации для просмотра в ви- де частотных списков слов и словосочетаний текстов, которые строит ЯП FEST ([10]). Для достижения поставленных целей в ЯП FEST предусмотрено представление лексики текстов в двух спецификациях: Sfest1 – служебной и неизменяемой лексики, Sfest2 – полнозначной лексики. Соответственно, генерируются два словаря: d1 и d2, составляющие словарь D1. Архитектуру генератора DUAL для генера- ции МП FEST составляют компоненты: {Lmorf, GENtbl; Lfest, CONdic, GENw; FREQlis, GENspc }, где Lmorf – метаязык описания морфологиче- ской информации входного языка Smorf, по которому GENtbl формирует морфологические таблицы Mtbl; Lfest – формальный метаязык для описания лексики Sfest, состоящей из двух частей, как было сказано выше. В описании лексики при- сутствуют только левые части правил перевода ЯП DUET; GENw – генератор словоформ по специфи- кации Sfest; CONdic – генератор информации D1, состо- ящей из двух частей d1 и d2, по описанию лек- сики Sfest; FREQlis – программа построения частотных списков лексики текстов; GENspc – генератор спецификации лексики по результатам МА входного текста. Таким образом, МП FEST – это пятерка: {T1, Mtbl, D1, FREQlis, GENspc}, где T1 – программная составляющая – морфо- логический анализ текста. Рассмотрим две проблемы, которые можно решать с помощью ЯП FEST путем лексико-ста- тистической обработки профессиональных тек- стов: генерация спецификаций лексики, отсут- ствующей в словаре ЯП и определение тема- тики текста. Для этого ЯП FEST выполняет функции:  морфологический анализ (МА) словоформ текста, в процессе которого накапливаются спи- ски нераспознанных или распознанных слово- форм по мере их встречи в тексте. Результат зависит от заданного пользователем параметра S: если S = 1, результат анализа – список най- денных слов, если S = 2, результат – список ненайденных слов;  формирование частотных списков распо- знанных или нераспознанных слов;  для каждого распознанного существитель- ного поиск (в пределах предложения) согласо- ванных с ним словоформ для составления час- тотного списка словосочетаний;  генерация спецификаций неизвестных слов по частотным спискам таких слов. Приведем примеры правил спецификации слов русского языка для ЯП FEST: часто => *; в то же время как => *; множеств => *: ісо; готовност => *: iжь. Расширение словаря полнозначной лекси- кой со словарем d1. Параметр S = 2. Лексико- статистический анализ текстов в ЯП FEST с целью расширения словаря полнозначной лек- сики новой, в том числе и профессиональной, базируется на результатах МА текста со слова- рем d1 служебной и неизменяемой лексики, что позволяет выделить полнозначную лексику в список неизвестных слов для любого текста, в котором используется лексика словаря d1. Неизвестные слова в списке представлены основами и окончаниями. Последние могут быть ошибочными, но при высокой частоте употреб- ления их в разных грамматических формах та- кие ошибки существенно не влияют на резуль- тат. Суффиксы не рассматриваются. Полученный список основ неизвестных слов подается на вход программе FREQlis для фор- мирования частотного списка, содержащего ос- новы и в скобках разные окончания всех слово- форм с данной основой. В частотном списке ос- новы упорядочены по убыванию частоты вхо- ждения соответствующих словоформ в текст. Предлагаем фрагмент частотного списка основ словоформ русскоязычного текста по лингвис- тике. УСиМ, 2012, № 6 41 1) 96 3.37% 5 спис (-ов, -и, -е, -0, -а, -у, -ах, -ом, -ам, - ами); 2) 68 2.49% 1 текст (-ов, -ах, -ам, -а, -0, -е, -ом, -ы); 3) 67 2.45% 9 словар (-я, -ей, -и, -е, -ем, -ь, -ями, -ю, -ях); 4) 61 2.16% 5 частотн (-ых, -ые, -ый, -ом, -ого, -ому, -ым, -ыми); 5) 49 1.74% 9 термин (-ов, -ах, -ы, -ами). В каждой строке частотного списка первое число – порядковый номер строки, второе – ко- личество вхождений словоформ с основой в текст, третье – процент вхождений по отноше- нию к общему числу словоформ, четвертое – строка текста, где впервые встретилась слово- форма с данной основой. Такой список являет- ся входным для программы GENspc, работаю- щей в диалоге с пользователем. Алгоритм ее работы заключается в поиске для каждой осно- вы кортежа окончаний, содержащей все окон- чания, связанные с основой. Если окончаний достаточно для получения однозначного отве- та в виде шифра кортежа, то формируется спе- цификация основы с найденным шифром. Если окончаний недостаточно, то предлагается не- сколько кортежей для выбора пользователем единственно правильного. Результат – по час- тотному списку неизвестных слов, содержащем вышеприведенный фрагмент, построена специ- фикация слов и расширен словарь d2. Затем проанализирован тот же текст со словарем d2 и параметром S = 1. По списку найденных слов построен частотный список, начальный фраг- мент которого имеет вид: 1) 96 3.42% 5 список 2) 68 2.44% 1 текст 3) 67 2.44% 9 словарь 4) 61 2.16% 5 частотный 5) 49 1.76% 9 термин Формирование спецификаций по списку не- известных слов в диалоге с компьютером – сред- ство автоматизации составления словарей для ЯП FEST ([11]). Для ЯП DUAL полученные спе- цификации пользователю ЯП следует расширить информацией для перевода в выходной язык. Определение тематики текстов со сло- варем d1. Параметр S = 2. В этом случае, как и в предыдущем, в процессе МА со словарем слу- жебной лексики d1 строится список ненайден- ной в словаре полнозначной лексики, по кото- рому программа FREQlis строит частотный спи- сок ненайденной лексики по уменьшению час- тоты её употребления. Экспериментально про- верено: термины возглавляют частотный спи- сок [10]. Однако более достоверную информа- цию дают словосочетания с участием высоко- частотной лексики, которые можно получить, выполнив шаги, описанные в предыдущем под- разделе. Получив расширенный словарь d2 за счет слов высокой частоты употребления, мож- но выполнить МА со словарями d1 и d2 и с па- раметром S = 1. В результате будет сформиро- ван список найденных слов, а на его основе построен частотный список словосочетаний, объединенных согласованием в числе и падеже с существительным (считаем существительное главным словом любого словосочетания–терми- на). Те из них, которые содержат слова из верх- ней части исходного частотного списка незна- комых слов, и будут терминами. Пример 1. В тексте Rus.txt (27 Кб) общая слу- жебная и неизменяемая лексика составляет 43% от всех словоформ. Частотный список извест- ных слов по тексту Rus.txt (Фрагмент 1_Rus) позволяет сделать вывод о том, что текст отно- сится к вычислительной технике. Фрагм. 1_Rus. Известные слова N част. % строка словоформа 1) 106 3.343 13 регистры 2) 75 2.365 27 триггеров 3) 57 1.798 83 операциями 4) 47 1.482 40 сигналов 5) 42 1.325 83 входов 6) 38 1.198 77 разряд 7) 23 0.725 82 термов 8) 23 0.725 270 регистрограмма 9) 20 0.631 99 табл 10) 18 0.631 4 проектирования Специализация текста уточняется частотным списком словосочетаний Фрагм. 2_Rus. со сло- варем, расширенным терминами из фрагмента Фрагм. 1_Rus. Фрагм. 2_Rus. N част. стр. словосочетания 1) 1 9 задача логического проек- тирования компонентов 2) 1 46 формальной методики про- ектирования регистров 3) 1 396 проектировании схем триггеров регистра 4) 1 634 автоматизации проектирова ния дискретных устройств 42 УСиМ, 2012, № 6 5) 1 70 методики формального синтеза регистра 6) 1 72 структура проектируемого регистра 7) 9 140 разряд регистра 8) 8 113 информационным входам Частотный список словосочетаний упорядо- чивается сначала по длине словосочетаний (по количеству слов), а затем по частоте употреб- ления: чем короче словосочетание, тем выше частота употребления. Пример 2. Рассмотрим начальный фрагмент частотно- го списка, полученного в результате анализа текста на английском языке (конституция Японии) со словарем служебных слов и с параметром S = 1. В тексте Eng.txt (33 Кб) служебная лексика составля- ет 46% словоупотреблений (всего 80 различных служеб- ных слов). В начальном фрагменте частотного списка (Фрагм.1_Eng) полнозначных слов в первой колонке – по- рядковый номер в списке, во второй – количество употреб- лений слова, в третьей – процент употребленных слов к общему их количеству в тексте, в четвертой – строка текста, где впервые встретилось слово, в пятой – слово. Фрагм. 1_Eng. Известные слова N част. % строка слово 1) 164 3.198 11 shall 2) 107 2.086 45 Article 3) 76 1.482 52 House 4) 66 1.287 20 laws 5) 42 0.819 30 right 6) 41 0.799 8 Diet 8) 35 0.682 7 peaple 9) 33 0.643 8 Representatives 10) 32 0.624 46 state 11).30 0.585 54 Cabinet 12) 27 0.526 1 Constitution Текст содержит 5129 словоупотреблений, 1200 раз- личных слов. Наибольшую частоту использования име- ет слово shall (должен, должны), поскольку в основном законе перечисляются обязанности всех ветвей власти и граждан страны. Заключение. Использование сгенерирован- ных ЯП свидетельствует о целесообразности применения формальных средств спецификации процессов пословной обработки профессиональ- ных текстов. Используя генератор DUAL, разра- ботчик словарей освобожден от рутинного труда по его формированию в виде структур данных ЭВМ, вместо этого основное его внимание со- средоточено на создании текстовой формальной спецификации лексики и грамматики, что есть творческая работа, которую невозможно пере- дать автомату. Текстовые спецификации удоб- но читать, настраивать, хранить в персональ- ных библиотеках в виде файлов, создавать из них нужные композиции машинных словарей. 1. Glushkov V.M. Certain Questions of the Theory of Ma- chine Self-learning // Proc. IFIP Congr. – Munich, 1962. – Р. 480–481. 2. Глушков В.М. Диалог с вычислительной машиной: со- временные возможности и перспективы // УСиМ. – 1974. – № 1. – С. 3–7. 3. Попов Э.В. Общение с ЭВМ на естественном язы- ке. – М.: Наука, 1982. – 360 с. 4. Krueger C.W. Software reuse // ACM Computing Ser- veys: ACM Press. – 1992. – 24. – N 2. – P. 131–183. 5. Щоголева Н.М., Міщенко Н.М., Феліжанко О.Д. Особ- ливості перекладу українською наукових текстів з інженерії програмування // Проблеми програмування (Матеріали 6-ї міжн. конф. УкрПРОГ’2008, 27–29 трав. 2008 р., Київ), 2008. – С. 261–269. 6. Мищенко Н.М. Средства расширения входных язы- ков РСП ТЕРЕМ и их применение // УСиМ. – 1990. – № 5. – С. 55–62. 7. Міщенко Н.М. Про засоби генерації програм морфо- логічного аналізу // Зб. наук. пр. конф. «Людина. Ком- п'ютер. Комунікація» (Львів, 5–7 трав. 2010 р.). Вид- во НУ «Львів. політехніка», 2010. – С. 77–80. 8. Міщенко Н.М. Система програм морфологічного ана- лізу науково-технічних текстів // Зб. «Наукові запис- ки». Матеріали П'ятої міжнар. н-п конф. «Мови і світ: дослідження та викладання». Серія: Філологічні нау- ки. – Кіровоград, Ред.-вид. від. КДПУ. – 2011. – 95(2). – С. 538–542. 9. Мельчук И.А. Морфологический анализ при машин- ном переводе (преимущественно на материале рус- ского языка) // Проблемы кибернетики. – 1961. – 6. – С. 207–276. 10. Мищенко Н.М., Щёголева Н.Н. О лексико-статисти- ческом анализе научно-технических текстов // KDS 2003. Proc. X-th Int. Conf. (June 16–26, 2003, Varna (Bulgaria). FOI-Commerce, Sofia, 2003. – P. 315–321. 11. Міщенко Н.М., Феліжанко О.Д., Щоголева Н.М. Засо- би розширення граматичного словника за частот- ним списком невідомих слів // Зб. «Наукові записки». Матеріали П'ятої міжнар. н-п конф. «Мови і світ: до- слідження та викладання». Серія: Філологічні науки. – Кіровоград, Ред.-вид. від. КДПУ. – 2011. – 95(2). – С. 543–547. Тел. для справок: +38 044 526-0253, +38 044 243-0240, +38 044 450-4617 (Киeв) E-mail: nadmykh@ukr.net, fel_olga@voliacable.com, nat@incyb.kiev.ua © Н.M. Мищенко, О.Д. Фелижанко, Н.Н. Щёголева, 2012 
id nasplib_isofts_kiev_ua-123456789-83105
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0130-5395
language Russian
last_indexed 2025-12-07T17:23:08Z
publishDate 2012
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
record_format dspace
spelling Мищенко, Н.М.
Фелижанко, О.Д.
Щёголева, Н.Н.
2015-06-14T19:14:28Z
2015-06-14T19:14:28Z
2012
Универсальная система программ обработки тематических текстов / Н.M. Мищенко, О.Д. Фелижанко, Н.Н. Щёголева // Управляющие системы и машины. — 2012. — № 6. — С. 35-42. — Бібліогр.: 11 назв. — рос.
0130-5395
https://nasplib.isofts.kiev.ua/handle/123456789/83105
651.926:681.3
Предложена технология построения языковых процессоров для обработки тематических текстов на естественных языках, состоящих каждый из двух частей: универсальной программной, ориентированной на класс языков, и информационной в виде машинного представления грамматики и схемы перевода конкретных языков. Рассмотрен язык описания информационной части, по которому генерируется машинное представление.
A technology is presented for constructing universal language processors for the texts in natural languages. Each processor is composed of two parts: a universal part oriented to a class of languages and an information part containing the machine representation of grammar and translation methods for a specific language. A specification language for the information part allowing for generating its machine representation is suggested.
Запропоновано технологію побудови мовних процесорів для обробляння тематичних текстів натуральними мовами, кожний з яких складається з двох частин: універсальної програмної, орієнтованої на клас мов, та інформаційної, що містить машинне представлення граматики і схем перекладу конкретних мов. Розглянуто мову опису інформаційної складової, за яким генерується її машинне представлення.
ru
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Управляющие системы и машины
Семантика формальных и естественных языков
Универсальная система программ обработки тематических текстов
Universal Language Processors for Performing Texts in Natural Languages
Універсальна система програм обробляння тематичних текстів
Article
published earlier
spellingShingle Универсальная система программ обработки тематических текстов
Мищенко, Н.М.
Фелижанко, О.Д.
Щёголева, Н.Н.
Семантика формальных и естественных языков
title Универсальная система программ обработки тематических текстов
title_alt Universal Language Processors for Performing Texts in Natural Languages
Універсальна система програм обробляння тематичних текстів
title_full Универсальная система программ обработки тематических текстов
title_fullStr Универсальная система программ обработки тематических текстов
title_full_unstemmed Универсальная система программ обработки тематических текстов
title_short Универсальная система программ обработки тематических текстов
title_sort универсальная система программ обработки тематических текстов
topic Семантика формальных и естественных языков
topic_facet Семантика формальных и естественных языков
url https://nasplib.isofts.kiev.ua/handle/123456789/83105
work_keys_str_mv AT miŝenkonm universalʹnaâsistemaprogrammobrabotkitematičeskihtekstov
AT feližankood universalʹnaâsistemaprogrammobrabotkitematičeskihtekstov
AT ŝegolevann universalʹnaâsistemaprogrammobrabotkitematičeskihtekstov
AT miŝenkonm universallanguageprocessorsforperformingtextsinnaturallanguages
AT feližankood universallanguageprocessorsforperformingtextsinnaturallanguages
AT ŝegolevann universallanguageprocessorsforperformingtextsinnaturallanguages
AT miŝenkonm uníversalʹnasistemaprogramobroblânnâtematičnihtekstív
AT feližankood uníversalʹnasistemaprogramobroblânnâtematičnihtekstív
AT ŝegolevann uníversalʹnasistemaprogramobroblânnâtematičnihtekstív