Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ

Разработаны методологические основы построения быстродействующих аппаратных лингвистических процессоров. Рассмотрена практическая реализация аппаратных морфологических процессоров, позволяющих на два и более порядка повысить производительность лингвистического анализа корпусов текстов большого объем...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Управляющие системы и машины
Дата:2014
Автори: Палагин, А.В., Петренко, Н.Г.
Формат: Стаття
Мова:Російська
Опубліковано: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2014
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/83418
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ / А.В. Палагин, Н.Г. Петренко // Управляющие системы и машины. — 2014. — № 3. — С. 18-27. — Бібліогр.: 4 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859841917930438656
author Палагин, А.В.
Петренко, Н.Г.
author_facet Палагин, А.В.
Петренко, Н.Г.
citation_txt Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ / А.В. Палагин, Н.Г. Петренко // Управляющие системы и машины. — 2014. — № 3. — С. 18-27. — Бібліогр.: 4 назв. — рос.
collection DSpace DC
container_title Управляющие системы и машины
description Разработаны методологические основы построения быстродействующих аппаратных лингвистических процессоров. Рассмотрена практическая реализация аппаратных морфологических процессоров, позволяющих на два и более порядка повысить производительность лингвистического анализа корпусов текстов большого объема в сравнении с программной реализацией. The methodological basis for the construction of the high-speed hardware linguistic processors is elaborated. The practical implementation of the morphological hardware processors which enable to improve the performance of the linguistic analysis of large volume text corpus two times more comparing with the software implementation is considered. Розроблено методологічні основи побудови швидкодіючих апаратних лінгвістичних процесорів. Розглянуто практичну реалізацію апаратних морфологічних процесорів, які дозволяють на два і більше порядки підвищити продуктивність лінгвістичного аналізу корпусів текстів великого обсягу порівняно з програмною реалізацією.
first_indexed 2025-12-07T15:37:22Z
format Article
fulltext 18 УСиМ, 2014, № 3 Технические средства информатики УДК 004.318 А.В. Палагин, Н.Г. Петренко Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. II Разработаны методологические основы построения быстродействующих аппаратных лингвистических процессоров. Рассмот- рена практическая реализация аппаратных морфологических процессоров, позволяющих на два и более порядка повысить производительность лингвистического анализа корпусов текстов большого объема в сравнении с программной реализацией. The methodological basis for the construction of the high-speed hardware linguistic processors is elaborated. The practical implementa- tion of the morphological hardware processors which enable to improve the performance of the linguistic analysis of large volume text corpus two times more comparing with the software implementation is considered. Розроблено методологічні основи побудови швидкодіючих апаратних лінгвістичних процесорів. Розглянуто практичну реалі- зацію апаратних морфологічних процесорів, які дозволяють на два і більше порядки підвищити продуктивність лінгвістичного аналізу корпусів текстів великого обсягу порівняно з програмною реалізацією. Продолжение. Начало см. в № 2, 2014 нашего журнала. Введение. Описаны методологические основы построения аппаратных лингвистических про- цессоров (АЛП) для обработки корпусов тек- стов (в научно-технической сфере) большого объема, в частности аппаратных морфологиче- ских процессоров (АМП). Постановка задачи Одной из важных задач разработки общей теории компьютерной обработки предметных знаний, представленных в естественно-языко- вой (ЕЯ) форме, считается построение эффек- тивных лингвистических процессоров (ЛП). Эта задача особенно актуальна для приложе- ний обработки лингвистических корпусов тек- стов (ЛКТ) сверхбольших объемов (и в реаль- ном времени). Поэтому задача существенного (на два по- рядка и более) повышения быстродействия лин- гвистического анализа актуальна. Следует отме- тить, что такое повышение быстродействия мо- жет быть достигнуто за счет дополнительных аппаратурных затрат как стандартной, так и спе- циализированной разработки. Аппаратные сред- ства (АС) первого типа – это продукты извест- ных фирм, доступные на рынке и прилагаемая к ним система автоматизированного проектирова- ния (САПР). Несомненным лидером таких АС на рынке есть платы с установленными на них программируемыми логическими интегральны- ми схемами (ПЛИС), в которых есть сверхбы- стродействующая память и быстродействующая память большого объема [1]. АС второго типа – специализированная разработка, для которых необходимо спроектировать архитектурно- структурную организацию процессора, электри- ческую схему или граф-схемы алгоритмов, спе- циальное программное обеспечение управления ими и драйверы совмещения с операционной системой компьютера. При реализации лингвис- тического процессора оба эти варианта АС име- ют свои преимущества и недостатки. Для АС первого типа к преимуществам относится их доступность на рынке, их вычислительная мощ- ность постоянно увеличивается разработчиками, к ним уже прилагается программное обеспече- ние, а проект АЛП может быть разработан за время от двух месяцев. Недостаток этих АС – низкий процент использования установленного на плате оборудования. К преимуществам АС второго типа следует отнести повышение быст- родействия на один–два порядка в сравнении с АС первого типа, что служит главным критери- ем при разработке АЛП. А к недостаткам – не- обходимость коллектива разработчиков (систе- мотехников и программистов) и время разработ- ки проекта – от одного года. УСиМ, 2014, № 3 19 Повышение быстродействия реализации ал- горитма лингвистического анализа для обоих типов АС достигается путем перевода опера- торов алгоритмического и программного уров- ней (реализация лингвистического анализа про- граммным способом) на нижние уровни интер- претации [2]: для АС первого типа – на микро- программный уровень, для АС второго типа – на микропрограммный и частично на физиче- ский уровни. В [2] приведены дополнительные доводы целесообразности реализации ЛП в целом, и морфологического процессора в частности ап- паратными средствами. Например, аппаратная реализация дает возможность параллельной обработки всех слов одного предложения од- новременно. При этом упрощаются алгоритмы синтаксического и семантического анализа. Методологические основы разработки АЛП в статье представлены следующими компонен- тами1:  онтологический подход к построению ап- паратных средств лингвистического анализа естественно-языковых объектов (ЕЯО);  разработка функциональной схемы АЛП;  разработка подсистем АЛП;  задача оптимального синтеза АЛП;  структурная организация и проектирова- ние АМП;  структурная организация АМП для обра- ботки ЛКТ разного объема;  оценки сложности структурной реализа- ции АМП. Структурная организация и проектиро- вание аппаратных морфологических про- цессоров Описана аппаратная реализация подсисте- мы морфологического анализа (или аппарат- ного морфологического процессора), причем только последовательного анализа словоформ входного предложения. Как указано в [3], для реализации параллельной обработки всех сло- воформ предложения потребуется К блоков морфологического анализа, где К – макси- 1 Первые четыре компоненты рассмотрены в [3]. В дан- ной статье будут рассмотрены компоненты 5–7. мальное количество вхождений словоформ в предложение. Общая схема реализации морфологического анализа (МА), независимо от способа реализа- ции, сводится к приему последовательности слов, составляющих входной текст, распозна- ванию или дешифрации анализируемого слова и нахождения соответствующей ему «точки в гиперпространстве» (или реализация таблич- ного метода анализа), в которой анализируе- мому слову приписаны все необходимые мор- фологические характеристики. Это «гиперпро- странство» представляет собой по осям Xi час- ти речи заданного ЕЯ, где 1,i n , n – количе- ство частей речи, а по осям Yi – последова- тельность словоформ i-й части речи. Описанная ранее последовательность шагов МА «идеальна» и практически нереализуема для современных микроэлектронных технологий, а приближение к ней возможно только для аппа- ратной реализации алгоритма МА. Для «иде- альной» реализации понадобился бы дешифра- тор (или память) с адресацией 2256 разрядов. Этот параметр определен из того, что для ко- дирования одной буквы (символа) слова тре- буется 8 бит (при однобайтовом кодировании символов), а максимальное количество симво- лов самых длинных словоформ в ЛБД обще- употребительной лексики украинского языка «Словники України» равно 32. Отсюда и полу- чена степень двойки (832 = 256). Классический программный МА выполня- ется последовательно по буквам, начиная с окончания, нахождения основы словоформы и формирования последовательности омонимов анализируемого слова. При этом для каждого омонима формируется свое множество морфо- логических характеристик. Отметим, что в общем случае только «иде- альная» аппаратная реализация позволяет из- бежать раздельного анализа окончания и осно- вы словоформы. Таким образом, если условно расположить на плоскости по оси Х реализацию МА классиче- ским программным способом, то описанная «идеальная» аппаратная реализация будет рас- 20 УСиМ, 2014, № 3 положена по оси Y, а все другие реализации бу- дут расположены между ними и будут множест- вом Парето решений реализации АМП (рис. 1). Рис. 1. Множество Парето решений реализации морфологиче- ского процессора Обобщенная схема АС реализации алгорит- ма МА для некоторого решения Tr, Qr пред- ставлена на рис. 2, где приняты следующие обозначения: m – количество слов в анализируемом тек- сте. Эта последовательность формируется на этапе графематического анализа, записывается в память слов текста и есть исходными данны- ми для МА; Рис. 2. Обобщенная схема аппаратных средств МА 1 1 1 1 2C , C ,..., Cn – максимальное количество букв (символов) в словах анализируемых текстов; 3 3 3 1 2 1C , C , .. ., C ,q 1 3 3..., C ,..., C tqs qs – первая буква слова и qs групп сочетаний символов (начиная со второго), которые формируются на основе статистических характеристик и заданных ог- раничений на оборудование; стА р – старшие разряды адреса памяти слов; млАr – младшие разряды адреса памяти слов. Суть построения схемы заключается в «усе- чении» адресного пространства, необходимого для «идеальной» реализации, до адресного пространства памяти, представленной на стан- дартном оборудовании. Для этого служит уро- вень 4 (рис. 2). Структурная организация аппаратных морфологических процессоров для обработ- ки лингвистических корпусов текстов раз- ного объема Структурная организация АС морфологиче- ского анализа естественно-языковых текстов (ЕЯТ), составляющих некоторый ЛКТ, и затраты оборудования сильно зависят от статистических характеристик заданного корпуса текстов, в ча- стности от количества употребляемых слово- форм К, их средней длины Lср, количества соче- таний символов (начиная со второго), перекры- вающих среднюю длину К, и ряда других. Диаграмма зависимости количества основ от их длины (количества символов в основе) для общеупотребительной лексики украинского язы- ка приведена на рис. 3. Кривая на диаграмме наиболее близко аппроксимируется экспонен- циальной функцией вида   2 9 16( ) 33600 x f x e    с величиной достоверности аппроксимации R2 = 0,982. Вычисление величины R2 в Microsoft Excel показано ниже: 2 1 SSE R SST   , где  2ˆ j jSSE Y Y  и    2 2 . j j Y SST Y n    Суть задачи построения АМП сводится к со- кращению аппаратного оборудования Qp (рас- УСиМ, 2014, № 3 21 смотрим только стандартное оборудование на платах с ПЛИС, так как разработка специаль- ного оборудования представляет собой само- стоятельную научно-техническую проблему). Исследования показали, что достаточно обес- печить независимую адресацию сочетаний символов, перекрывающих среднюю длину Lcp словоформ (или основ) заданного ЛКТ. 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 16000 17000 18000 19000 20000 21000 22000 23000 24000 25000 26000 27000 28000 29000 30000 31000 32000 33000 34000 35000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 К ол ич ес тв о ос но в Количество символов в основе Рис. 3. Диаграмма зависимости количества основ от их длины Например, для ЛКТ общеупотребительной лексики украинского языка (все основы пред- ставлены в ЛБД «Словники України»), в кото- ром средняя длина слова составляет 9,27 сим- вола, необходимо обеспечить перекрытие до де- сятого символа и более. Также следует учесть необходимость адресации (до четырех разря- дов) различных форм глагола, имеющих оди- наковые последовательности символов и пере- крывающие Lcp. Адресацию остальных сочета- ний символов можно «собрать» по схеме ИЛИ. Статистические характеристики для произволь- ного ЛКТ вычисляются в приложении Microsoft Excel стандартными функциями после преоб- разования текста в таблицу в Microsoft Word. Далее будет рассмотрена разработка АМП для трех вариантов ЛКТ:  вариант А – ЛКТ, содержащий общеупотре- бительную лексику украинского языка (табл. 1);  вариант В – ЛКТ по онтологическому ин- жинирингу (табл. 2);  вариант С – ЛКТ по онтолого-управля- емым информационным системам общего на- значения (табл. 3). Различные типы плат с ПЛИС, их описа- ние и технические характеристики представ- лены на веб-сайтах www.hitechglobal.com/bo- ards/allboards.htm и www.hilinx.com/products/ boards_kits.htm. На рис. 4 показана блок-ди- аграмма платы HTG-V4PCIE. На этой плате проводилось моделирование АМП для вари- анта С. Рис. 4. Блок-диаграмма платы HTG-V4PCIE Моделирование АМП для варианта С вы- полнено в системе САПР ПЛИС Xilinx ISE 8.2i с использованием платы, на которой ус- тановлены следующие аппаратные средства, доступные для пользователя и необходимые, в частности для практической реализации АМП:  кристалл ПЛИС Virtex-4, содержащий 376 блоков СОЗУ 18Kb1, с возможностью органи- зации от 16Kb1 до 51236 бит (www.hilinx. com/products/boards_kits/virtex6.htm);  внешняя (по отношению к кристаллу ПЛИС) память RAM – два независимых блока 64М16 бит, на одном из которых реализована память основ, а на втором – память окончаний. 22 УСиМ, 2014, № 3 Структура варианта А Как было показано, исходными данными для проектирования АМП приняты заданные статистические характеристики ЛКТ и аппа- ратное оборудование. При морфологическом анализе последова- тельности слов, составляющих некоторый ЕЯТ, первый символ каждого слова (а им может быть только буква) анализируется отдельно, поскольку по его значению определяется ряд грамматических показателей, таких как: пер- вое слово предложения, аббревиатура, соотне- сение слова с заданным ЕЯ и ряд других. Для украинского языка первыми буквами слов мо- гут быть 30 букв, следовательно для их адре- сации необходимо пять разрядов (строчная и заглавная буквы считаются одной буквой, а их различение определяется в отдельной микро- программе). Анализ первой буквы слова делит основную память слов на 32 сегмента, при этом 30 сегментов отводится под индексы соответ- ствующих букв, а два сегмента свободны, и их объем достаточен для хранения всех морфоло- гических характеристик (результатов вычисле- Количественные показатели сочетаний символов для основ ЛКТ Т а б л и ц а 1. Вариант А. Общее количество основ – 259209, средняя длина основы – 9,27 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C32 35 38 37 36 6 6 35 35 35 34 1 C1–C9 C1–C10 C2–C3 C2–C4 C2–C5 C2–C6 C2–C7 C2–C8 C2–C9 C2–C10 C2–C32 206647 224417 789 26450 32208 76421 119831 152789 176251 193052 223140 C3–C32 C4–C5 C4–C32 С5–С6 С5–С7 C5–C8 C5–C9 C5–C10 C5–C11 C5–C16 C5–C32 179001 934 125805 908 7950 27987 48550 61356 69450 83290 83961 C6–C7 C6–C8 C6–C9 C7–C10 C7–C11 C7–C32 C8–C9 C8–C32 C9–C11 C10–C11 C8–C10 835 6796 21543 16290 23929 35226 759 22790 4074 649 4989 С11–С12 C11–C13 C11–C16 C11–C32 C13–C14 C14–C16 C14–C32 C15–C16 С17–С18 C17–C19 C17–C32 594 2733 6125 6639 501 1364 2156 388 293 581 703 C19–C20 C20–C22 C21–C22 C23–C24 C23–C25 C25–C26 C26–C28 C27–C28 C29–C30 C29–C31 C31–C32 198 206 110 66 72 28 17 14 6 6 2 Т а б л и ц а 2. Вариант В. Общее количество слов – 32055, средняя длина слова – 8,54 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C31 38 40 40 36 38 36 35 38 39 38 1 C1–C9 C1–C10 C2–C3 C2–C4 C2–C5 C2–C6 C2–C7 C2–C8 C2–C9 C2–C10 C2–C31 25301 27666 548 3135 8095 12656 16655 20293 23278 25615 29221 C3– C32 C4–C5 C4–C31 С5–С6 С5–С7 C5–C8 C5–C9 C5–C10 C5–C11 C5–C16 C5–C31 25966 674 20909 624 3236 7016 9902 12078 13635 15542 15674 C6–C7 C6–C8 C6–C9 C7–C10 C7–C11 C7–C31 C8–C9 C8–C31 C9–C11 C10–C11 568 2736 5469 4130 5385 7306 499 4820 1362 380 С11–С12 C11–C13 C11–C16 C11–C32 C13–C14 C14–C16 C15–C16 С17–С18 C17–C19 C17–C31 332 771 1233 1380 236 334 162 103 144 200 C19–C20 C20–C22 C21–C22 C23–C24 C23–C25 C25–C26 C26–C28 C27–C28 C29–C30 C29–C31 69 68 41 25 27 11 7 4 2 2 Т а б л и ц а 3. Вариант С. Общее количество слов – 9406, средняя длина слова – 9,35 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C31 38 40 40 36 38 35 34 38 39 37 1 C1–C9 C1–C10 C2–C3 C2–C4 C2–C5 C2–C6 C2–C7 C2–C8 C2–C9 C2–C10 C2–C31 7203 7980 404 1461 2648 3653 4767 5930 6969 7748 9172 C3– C32 C4–C5 C4–C31 С5–С6 С5–С7 C5–C8 C5–C9 C5–C10 C5–C11 C5–C16 C5–C31 8707 479 7696 463 1699 3024 4079 4862 5443 6187 6304 C6–C7 C6–C8 C6–C9 C7–C10 C7–C11 C7–C31 C8–C9 C8–C31 C9–C11 C10–C11 434 1468 2505 1905 2426 3301 356 2324 735 270 С11–С12 C11–C13 C11–C16 C11–C32 C13–C14 C14–C16 C15–C16 С17–С18 C17–C19 C17–C31 236 451 696 823 183 242 136 92 121 170 C19–C20 C20–C22 C21–C22 C23–C24 C23–C25 C25–C26 C26–C28 C27–C28 C29–C30 C29–C31 63 64 40 24 26 10 7 4 2 2 УСиМ, 2014, № 3 23 ния) слов заданного ЛКТ. В «точке гиперпро- странства» некоторого слова хранится индекс- ссылка на соответствующий адрес в сегменте результатов. Поэтому разрядность данных па- мяти слов может быть сравнительно неболь- шой – 16–20 разрядов. Далее необходимо выбрать сочетания сим- волов для уровня 4 дешифраторов сочетаний символов (рис. 2). Они выбираются исходя из аппаратного оборудования, установленного на заданной плате ПЛИС, в частности зависят от объемов внутренней сверхбыстродействующей RAM (СОЗУ) и внешней RAM. Понятно, что чем больше символов войдет в сочетания, тем меньше будут аппаратурные затраты и выше процент использования оборудования (памя- тей) платы. Уровень 4 структурной схемы АМП, как правило, реализуется на внутренних СОЗУ ПЛИС, а их объем сравнительно невелик: 18– 36 Кбит с доступным адресным пространством 14–15 разрядов. На третьем уровне дешифра- ции с помощью специальных алгоритмических и технических решений восьмибитный код сим- вола можно сократить до 6 бит. Следователь- но, для трех символов, включенных в сочета- ние, необходима адресация 18-ти разрядов. Вы- полним расчет необходимого оборудования для сочетания символов С2–С4 в словах ЛКТ вари- анта А в соответствии с рис. 5 и табл. 1. Ш а г 1. В качестве платы ПЛИС выбрана плата HTG – V6HXT – X16PCIE – 565 фирмы HiTech Global (www.hitechglobal.com/boards/ allboards.htm), на которой установлена ПЛИС серии Virtex 6, имеющая в своем составе 912 СОЗУ разрядностью 32К1 бит каждое, и внеш- няя память до 8 Гига 16-тиразрядных слов. Ш а г 2. Количество сочетаний символов рав- но 26450 (см. табл. 1, сочетания С2–С4), следова- тельно, разрядность данных RAM SS_1 равна 15. Ш а г 3. На один бит дешифрации требует- ся 8 СОЗУ (недостающие три разряда до 18 бит, необходимых для адресации сочетания из трех символов), а их общее количество для RAM SS_1 равно 815 = 120. Это самое большое ко- личество СОЗУ для уровня 4–1 (рис. 2). Для сочетаний символов С5–С7 и С8–С10 необхо- димо меньшее количество СОЗУ. Следователь- но, для указанных трех сочетаний символов (обеспечивающих так называемую независимую адресацию символов слов) необходимо около трети из общего количества СОЗУ. Архитектурно-структурная организация АС морфологического анализа для ЛКТ варианта А представлена на рис. 5. Рис. 5. Архитектурно-структурная организация АС МА для ЛКТ варианта А Структуры вариантов В и С Как видно из табл. 2 и 3 статистических ха- рактеристик ЛКТ вариантов В и С, структурные схемы АМП для указанных вариантов мало чем отличаются друг от друга. По сути, для варианта С требуется меньшее количество СОЗУ, что автоматически снижает процент использова- ния оборудования, установленного на плате. При этом нецелесообразно использовать платы ПЛИС более ранних версий, так как у них раз- рядность адресов СОЗУ меньше, что повлечет необходимость увеличения количества таких СОЗУ, увеличение длительности синхросигна- лов процессора, да и объем внешней памяти RAM может быть критическим. Исследования показали, что разрабатывать АМП с внешней RAM, объем которой меньше (32–64)М16 бит, нецелесообразно, так как при этом резко сокра- щается эффективность перевода операторов про- граммного уровня на микропрограммный. Структурная схема АМП вариантов В и С представлена на рис. 6. 24 УСиМ, 2014, № 3 Рис. 6. Структурная схема АМП вариантов В и С Работа АМП начинается с прихода на вход Сброс блока микропрограммного управления (БМУ) сигнала Сброс = 1, который иницииру- ет в нем внутренний управляющий сигнал Сброс. Этот сигнал устанавливает в нулевое состояние блок регистров символов, регистр микрокоманд и счетчики символов и адресов результата. Затем АМП переходит в режим ожидания сигнала Пуск = 1. С его приходом АМП ожидает первый символ входного слова (Запись = 1). По его приходу на информаци- онные входы блока регистров символов и пер- вой схемы сравнения подается восьмибитный код первого символа (рассматривается байто- вое кодирование символов, например Win 1251), и БМУ выдает сигнал ЗпС = 1. Номер символа записи формируется счетчиком сим- волов, выходы которого управляют дешифра- тором. Выходы последнего – это управля- ющие сигналы записи в соответствующий ре- гистр символа. Восьмибитный код первого символа с вы- хода РгС1 дешифрируется в дешифраторе, с выхода которого пятиразрядный код формиру- ет старшие адреса памяти слов. При этом объ- ем последней памяти разбивается на 32 сег- мента. Аналогично в блок регистров символов за- писываются все символы входного слова. При этом по приходу очередного символа в схеме сравнения выполняется сравнение «код вход- ного символа тождествен коду символа окон- чания передачи символов входного слова» (это может быть, например, код 09Н, означающий Пробел), который постоянно находится на вто- ром информационном входе первой схемы сравнения. По приходу кода символа оконча- ния передачи символов входного слова на вы- ходе первой схемы сравнения устанавливается сигнал «1», поступающий на соответствующий управляющий вход блока микропрограммного управления (БМУ). Далее БМУ переходит к интерпретации алго- ритма анализа символов входного слова (рис. 7). Сначала анализируются символы, возможно, принадлежащие окончанию входного слова. При этом их группировка важна для первых инфор- мационных входов блока ключей и не учитыва- ется для информационных входов блока комму- таторов. Рассмотрим алгоритм анализа окончания. При этом в счетчике символов будет записан код «01Н», поступающий на вход мультиплек- соров, на выходы которых будут переданы ко- ды 0, 0, …, Cn, передаваемые на адресные вхо- ды памяти окончаний. В ячейке памяти окончаний с адресом 0, 0, …, Cn записано:  если символ Cn не является окончанием и словом без основы, то на других информацион- ных выходах памяти окончаний будет код NOP (нет операции), а на первых – код 0, 0, …, 0, т.е. на выходах блока ключей все символы С2, … , Cn (символы всех q групп) будут заблоки- рованы. Блокирование символа означает, что в соответствующих разрядах выходов блока ключей, выходах блока дешифраторов сочета- ний символов и средних адресов памяти основ будут коды 0, 0, …, 0;  если символ Cn – окончание и слово без основы, то будут выбраны адреса соответст- вующих ячеек памяти окончаний и памяти ос- нов, в которых сохраняются результаты для окончания и слова Cn соответственно. УСиМ, 2014, № 3 25 Начало Предварительная загрузка памяти Установка в начальное состояние регистров, счетчиков и триггеров Прием первого символа входного слова Прием очередного символа входного слова Получен код пробела ? Нет Да Конец приема символов входного слова. Останов счетчика символов. Входное слово не имеет основы ? Нет Да Сколько символов в окончании ? 0 11-1 Входное слово без окончания Формирование основы входного слова Формирование индекса адресации морфологических характеристик (МХ) основы входного слова Чтение адресов строк окончаний для основы входного слова (формирование омонимов) Формирование буфера передачи МХ входного слова 1 . Основа. 2. Окончание. 3 . Лексема. 4 . Омонимы. Передача результата обработки входного слова Рис. 7. Алгоритм работы АМП Если входное слово состоит из двух букв (символов) С1 и С2 (они же при анализе окон- чаний интерпретируются как Cn – 1 и Cn), то блоком ключей символ С2 не будет заблокиро- ван, и его дешифрированный код через блок дешифраторов сочетаний символов поступит на средние адреса памяти основ. На выходах блока коммутаторов будут присутствовать ко- ды 0, …, Cn – 1, Cn, и в памяти окончаний будет выбран адрес результата анализа возможного окончания Cn – 1, Cn. На соответствующем вы- ходе вторых информационных выходов памяти окончаний будет считан код результата. При этом управляющий выход БМУ Чтение памяти окончаний устанавливается в единицу. Аналогично выполняется анализ для произ- вольной цепочки символов С1, …, Cn. После анализа окончания и основы входного слова БМУ переходит к интерпретации микро- программы выдачи результата анализа. Сначала на информационный выход АМП передается результат анализа основы входного слова. При этом управляющий выход БМУ Чтение памяти слов устанавливается в единицу, что обеспечива- ет чтение памяти основ и выполнение счета в счетчике адресов результата или выбор последо- вательных (по «+1») ячеек результата. Количе- ство ячеек, в которых сохраняется результат, – это переменная величина и зависит от конкрет- ной основы. Конечные ячейки каждого такого результата содержат коды, например 0D0AH, что означает конец передачи результата проанали- зированной основы. При этом информационные выходы памяти слов подключены к первому ин- формационному входу второй схемы сравнения, выход которой, установленный в единицу, по- ступает на соответствующий управляющий вход БМУ и сигнализирует об окончании передачи результата основы. Затем на информационный выход АМП пере- дается код ячейки, содержащей результат анали- за окончания (при этом управляющий сигнал БМУ Чтение памяти окончаний = 1 активен). При каждой передаче слова результата на информационный выход АМП в БМУ анали- зируется управляющий вход Чтение = 1, сиг- нализирующий об окончании передачи очеред- ного слова результата. При завершении передачи на информаци- онный выход АМП кодов всех ячеек результа- та БМУ на своем управляющем выходе уста- навливает внутренний сигнал Сброс = 1, кото- рый устанавливает в ноль соответствующие регистры и счетчики, а алгоритм работы АМП переходит в режим ожидания приема очеред- ного слова для анализа. На описанную структуру АМП получен па- тент на полезную модель [4]. На рис. 8 показана диаграмма зависимости времени работы АМП (количества тактов об- работки) от длины анализируемого слова (ко- личества символов в слове). Оценки сложности структурной реализа- ции аппаратных морфологических процес- соров Ранее было рассмотрено проектирование АМП первого типа (с использованием ПЛИС- технологии) для трех вариантов лингвистиче- ских корпусов текстов, приведена производи- тельность такого АМП в сравнении с программ- ным способом реализации морфологического анализа для общеупотребительной лексики ук- раинского языка. 26 УСиМ, 2014, № 3 40 43 60 65 82 85 102 105 112 110 142 145 162 165 182 205 228 238 265 319 1 40 43 60 65 82 85 102 105 112 110 142 145 162 165 182 205 228 238 265 319 10 50 100 150 200 250 300 350 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 17 19 20 24 28 К ол ич ес тв о та кт ов о бр аб от ки Длина анализируемого слова (символов) Рис. 8. Диаграмма зависимости времени работы АМП от дли- ны слова В табл. 4 приведены показатели моделиро- вания АМП. Т а б л и ц а 4 Сравнительный анализ показателей морфологической обработки для программной и аппаратной реализаций АМП Вид реализации Средняя длина слова Время обработки (мкс) Увеличение производи- тельности для аппарат- ной реализации (раз) Программный 9 937 Аппаратный 9 3,72 252 Представляется целесообразным рассмотреть обобщенную архитектуру АМП второго типа (специальной разработки) и сравнить затраты оборудования и производительность для первого и второго типов реализации АМП (рис. 9). Для этого приняты следующие соглашения.  Исследования показали, что схемы управ- ления памятью АМП занимают сравнительно небольшую часть оборудования от его общего объема, и поэтому их можно не учитывать.  Память слов текста занимает 214 ячеек, что приблизительно равно среднему по объему на- учно-техническому тексту.  Регистровая память символов и память де- шифраторов символов рассчитаны на макси- мальную длину слов общеупотребительной лек- сики украинского языка (32 символа).  При дешифрации символов учитывается восьмибитовый код, а не шестибитовый, как рас- сматривалось в АМП первого типа, что позволя- ет обрабатывать тексты на украинском, русском и английском языках, а также учитывать ряд специальных символов.  Сравнение выполнено для затрат оборудо- вания на реализацию АМП для ЛКТ варианта А в соответствии с архитектурно-структурной организацией, представленной на рис. 5.  Как видно из диаграммы (рис. 3), количе- ство слов длиной 14 символов и больше резко сокращается в сравнении с количеством слов меньшей длины. Поэтому можно принять ряд ограничений, наиболее существенным из кото- рых будет «сборка по ИЛИ» выходов памяти сочетаний символов SS_5 – SS_10. Рис. 9. Обобщенная архитектура АМП второго типа Результаты сравнительного анализа затрат оборудования АМП первого и второго типов для морфологического анализа слов общеупотреби- тельной лексики украинского языка представле- ны в табл. 5. Из таблицы видно, что затраты памяти для АМП второго типа существенно ниже в сравне- нии с затратами памяти для АМП первого типа при одновременном повышении быстродействия на порядок и расширении функциональных воз- можностей. Это связано с проблемно-ориенти- рованной структурной организацией АМП и вы- бором для каждого уровня архитектуры требуе- мых по объему и разрядности чипов памяти. При этом, как указывалось, сложность разработ- ки АМП второго типа существенно выше. Заключение. Анализ особенностей компью- терной обработки ЛКТ сверхбольших объемов показал, что для приложений, работающих в ре- УСиМ, 2014, № 3 27 альном режиме времени, программной реали- зации лингвистического (и особенно морфоло- гического) анализа недостаточно, так как часть информации может быть не обработана. По- этому задача построения аппаратных лингвис- тических процессоров актуальна, и ее решение позволит: во-первых, сократить сроки предос- тавления пользователю оперативной информа- ции (без потери части информации и снижения ее актуальности) для принятия решений; во- вторых, качественно повысить уровень лин- гвистических исследований с учетом большего количества параметров обработки. Рассмотренные особенности архитектурно- структурной организации аппаратных морфо- логических процессоров для обработки ЛКТ разных объемов позволили выделить их лин- гвистические и статистические характеристики (основные – количество употребляемых сло- воформ К, их средняя длина Lcp и количество сочетаний символов), непосредственно влия- ющие на количественные и качественные по- казатели архитектуры и структуры как АМП, так и лингвистической системы в целом. Ста- тистические исследования выполнены на ЛКТ объемом 1 Гб. Разработана архитектурно-структурная ор- ганизация АС, реализующих этап МА для трех вариантов ЛКТ: общеупотребительной лекси- ки украинского языка, онтологического инжи- ниринга и онтолого-управляемых информаци- онных систем общего назначения. Для обра- ботки указанных ЛКТ имеется три варианта структуры АМП, один из которых смоделиро- ван в САПР ПЛИС ISE Foundation фирмы Xilinx. Сформулирована задача квазиоптимального синтеза структуры АМП на основе метода Па- рето. Сравнительный анализ показателей морфо- логической обработки для программной и ап- паратной реализаций МА показал, что повы- шение производительности для АС, выпол- ненных по ПЛИС-технологии, составило два порядка, а для АС структурно-ориентирован- ной разработки – три. Преимуществами АМП второго типа в сравнении с АМП первого типа есть снижение на три порядка объема памяти, повышение на порядок быстродействия и рас- ширение функциональных возможностей. 1. Палагин А.В., Опанасенко В.Н. Реконфигурируемые вычислительные системы. – К.: Просвіта, 2006. – 280 с. 2. Палагин А.В., Крывый С.Л., Петренко Н.Г. Онто- логические методы и средства обработки предмет- ных знаний. – Луганск: Изд-во ВНУ им. В. Даля, 2012. – 324 с. 3. Палагин А.В., Петренко Н.Г. Методологические основы разработки лингвистического процессора для обработки ЛКТ сверхбольших объемов // УСиМ. – 2014. – № 2. – С. 44–57. 4. Пат. № 104225. Пристрій для морфологічного ана- лізу природномовних текстів / О.В. Палагін, М.Г. Пет- ренко, В.Ю. Величко та ін. – Опубл. 10.01.2014, Бюл. № 1. Поступила 17.02.2014 Тел. для справок: +38 044 526-3348 (Киев) © А.В. Палагин, Н.Г. Петренко, 2014  Т а б л и ц а 5 Затраты памяти (бит) по уровням иерархии m = 1,6104 Уровень 4 Тип реализации Уро- вень 1 Уро- вень 2 Уро- вень 3 4–1 4–2 4–3 Всего по уровням 1–4 Уровень 5 ПЛИС-технология 4,2106 2,6102 4,7104 2,5107 1,2109 – 1,23109 2,91017 Специальная разработка 4,2106 2,6102 5,4104 1,1109 4,5109 4,8109 10,41109 2,81014 Производительность АМП в сравнении с программным способом реализации морфологического анализа (раз) На базе ПЛИС 2,5102 Специализированное оборудование 2,6103 << /ASCII85EncodePages false /AllowTransparency false /AutoPositionEPSFiles true /AutoRotatePages /None /Binding /Left /CalGrayProfile (Dot Gain 20%) /CalRGBProfile (sRGB IEC61966-2.1) /CalCMYKProfile (U.S. Web Coated \050SWOP\051 v2) /sRGBProfile (sRGB IEC61966-2.1) /CannotEmbedFontPolicy /Error /CompatibilityLevel 1.4 /CompressObjects /Tags /CompressPages true /ConvertImagesToIndexed true /PassThroughJPEGImages true /CreateJobTicket false /DefaultRenderingIntent /Default /DetectBlends true /DetectCurves 0.0000 /ColorConversionStrategy /CMYK /DoThumbnails false /EmbedAllFonts true /EmbedOpenType false /ParseICCProfilesInComments true /EmbedJobOptions true /DSCReportingLevel 0 /EmitDSCWarnings false /EndPage -1 /ImageMemory 1048576 /LockDistillerParams false /MaxSubsetPct 100 /Optimize true /OPM 1 /ParseDSCComments true /ParseDSCCommentsForDocInfo true /PreserveCopyPage true /PreserveDICMYKValues true /PreserveEPSInfo true /PreserveFlatness true /PreserveHalftoneInfo false /PreserveOPIComments true /PreserveOverprintSettings true /StartPage 1 /SubsetFonts true /TransferFunctionInfo /Apply /UCRandBGInfo /Preserve /UsePrologue false /ColorSettingsFile () /AlwaysEmbed [ true ] /NeverEmbed [ true ] /AntiAliasColorImages false /CropColorImages true /ColorImageMinResolution 300 /ColorImageMinResolutionPolicy /OK /DownsampleColorImages true /ColorImageDownsampleType /Bicubic /ColorImageResolution 300 /ColorImageDepth -1 /ColorImageMinDownsampleDepth 1 /ColorImageDownsampleThreshold 1.50000 /EncodeColorImages true /ColorImageFilter /DCTEncode /AutoFilterColorImages true /ColorImageAutoFilterStrategy /JPEG /ColorACSImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /ColorImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /JPEG2000ColorACSImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /JPEG2000ColorImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /AntiAliasGrayImages false /CropGrayImages true /GrayImageMinResolution 300 /GrayImageMinResolutionPolicy /OK /DownsampleGrayImages true /GrayImageDownsampleType /Bicubic /GrayImageResolution 300 /GrayImageDepth -1 /GrayImageMinDownsampleDepth 2 /GrayImageDownsampleThreshold 1.50000 /EncodeGrayImages true /GrayImageFilter /DCTEncode /AutoFilterGrayImages true /GrayImageAutoFilterStrategy /JPEG /GrayACSImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /GrayImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /JPEG2000GrayACSImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /JPEG2000GrayImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /AntiAliasMonoImages false /CropMonoImages true /MonoImageMinResolution 1200 /MonoImageMinResolutionPolicy /OK /DownsampleMonoImages true /MonoImageDownsampleType /Bicubic /MonoImageResolution 1200 /MonoImageDepth -1 /MonoImageDownsampleThreshold 1.50000 /EncodeMonoImages true /MonoImageFilter /CCITTFaxEncode /MonoImageDict << /K -1 >> /AllowPSXObjects false /CheckCompliance [ /None ] /PDFX1aCheck false /PDFX3Check false /PDFXCompliantPDFOnly false /PDFXNoTrimBoxError true /PDFXTrimBoxToMediaBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXSetBleedBoxToMediaBox true /PDFXBleedBoxToTrimBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXOutputIntentProfile () /PDFXOutputConditionIdentifier () /PDFXOutputCondition () /PDFXRegistryName () /PDFXTrapped /False /CreateJDFFile false /Description << /ARA <FEFF06270633062A062E062F0645002006470630064700200627064406250639062F0627062F0627062A002006440625064606340627062100200648062B062706260642002000410064006F00620065002000500044004600200645062A064806270641064206290020064406440637062806270639062900200641064A00200627064406450637062706280639002006300627062A0020062F0631062C0627062A002006270644062C0648062F0629002006270644063906270644064A0629061B0020064A06450643064600200641062A062D00200648062B0627062606420020005000440046002006270644064506460634062306290020062806270633062A062E062F062706450020004100630072006F0062006100740020064800410064006F006200650020005200650061006400650072002006250635062F0627063100200035002E0030002006480627064406250635062F062706310627062A0020062706440623062D062F062B002E0635062F0627063100200035002E0030002006480627064406250635062F062706310627062A0020062706440623062D062F062B002E> /BGR <FEFF04180437043f043e043b043704320430043904420435002004420435043704380020043d0430044104420440043e0439043a0438002c00200437043000200434043000200441044a0437043404300432043004420435002000410064006f00620065002000500044004600200434043e043a0443043c0435043d04420438002c0020043c0430043a04410438043c0430043b043d043e0020043f044004380433043e04340435043d04380020043704300020043204380441043e043a043e043a0430044704350441044204320435043d0020043f04350447043004420020043704300020043f044004350434043f0435044704300442043d04300020043f043e04340433043e0442043e0432043a0430002e002000200421044a04370434043004340435043d043804420435002000500044004600200434043e043a0443043c0435043d044204380020043c043e0433043004420020043404300020044104350020043e0442043204300440044f0442002004410020004100630072006f00620061007400200438002000410064006f00620065002000520065006100640065007200200035002e00300020043800200441043b0435043404320430044904380020043204350440044104380438002e> /CHS <FEFF4f7f75288fd94e9b8bbe5b9a521b5efa7684002000410064006f006200650020005000440046002065876863900275284e8e9ad88d2891cf76845370524d53705237300260a853ef4ee54f7f75280020004100630072006f0062006100740020548c002000410064006f00620065002000520065006100640065007200200035002e003000204ee553ca66f49ad87248672c676562535f00521b5efa768400200050004400460020658768633002> /CHT <FEFF4f7f752890194e9b8a2d7f6e5efa7acb7684002000410064006f006200650020005000440046002065874ef69069752865bc9ad854c18cea76845370524d5370523786557406300260a853ef4ee54f7f75280020004100630072006f0062006100740020548c002000410064006f00620065002000520065006100640065007200200035002e003000204ee553ca66f49ad87248672c4f86958b555f5df25efa7acb76840020005000440046002065874ef63002> /CZE <FEFF005400610074006f0020006e006100730074006100760065006e00ed00200070006f0075017e0069006a007400650020006b0020007600790074007600e101590065006e00ed00200064006f006b0075006d0065006e0074016f002000410064006f006200650020005000440046002c0020006b00740065007200e90020007300650020006e0065006a006c00e90070006500200068006f006400ed002000700072006f0020006b00760061006c00690074006e00ed0020007400690073006b00200061002000700072006500700072006500730073002e002000200056007900740076006f01590065006e00e900200064006f006b0075006d0065006e007400790020005000440046002000620075006400650020006d006f017e006e00e90020006f007400650076015900ed007400200076002000700072006f006700720061006d0065006300680020004100630072006f00620061007400200061002000410064006f00620065002000520065006100640065007200200035002e0030002000610020006e006f0076011b006a016100ed00630068002e> /DAN <FEFF004200720075006700200069006e0064007300740069006c006c0069006e006700650072006e0065002000740069006c0020006100740020006f007000720065007400740065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e007400650072002c0020006400650072002000620065006400730074002000650067006e006500720020007300690067002000740069006c002000700072006500700072006500730073002d007500640073006b007200690076006e0069006e00670020006100660020006800f8006a0020006b00760061006c0069007400650074002e0020004400650020006f007000720065007400740065006400650020005000440046002d0064006f006b0075006d0065006e0074006500720020006b0061006e002000e50062006e00650073002000690020004100630072006f00620061007400200065006c006c006500720020004100630072006f006200610074002000520065006100640065007200200035002e00300020006f00670020006e0079006500720065002e> /DEU <FEFF00560065007200770065006e00640065006e0020005300690065002000640069006500730065002000450069006e007300740065006c006c0075006e00670065006e0020007a0075006d002000450072007300740065006c006c0065006e00200076006f006e002000410064006f006200650020005000440046002d0044006f006b0075006d0065006e00740065006e002c00200076006f006e002000640065006e0065006e002000530069006500200068006f006300680077006500720074006900670065002000500072006500700072006500730073002d0044007200750063006b0065002000650072007a0065007500670065006e0020006d00f60063006800740065006e002e002000450072007300740065006c006c007400650020005000440046002d0044006f006b0075006d0065006e007400650020006b00f6006e006e0065006e0020006d006900740020004100630072006f00620061007400200075006e0064002000410064006f00620065002000520065006100640065007200200035002e00300020006f0064006500720020006800f600680065007200200067006500f600660066006e00650074002000770065007200640065006e002e> /ESP <FEFF005500740069006c0069006300650020006500730074006100200063006f006e0066006900670075007200610063006900f3006e0020007000610072006100200063007200650061007200200064006f00630075006d0065006e0074006f00730020005000440046002000640065002000410064006f0062006500200061006400650063007500610064006f00730020007000610072006100200069006d0070007200650073006900f3006e0020007000720065002d0065006400690074006f007200690061006c00200064006500200061006c00740061002000630061006c0069006400610064002e002000530065002000700075006500640065006e00200061006200720069007200200064006f00630075006d0065006e0074006f00730020005000440046002000630072006500610064006f007300200063006f006e0020004100630072006f006200610074002c002000410064006f00620065002000520065006100640065007200200035002e003000200079002000760065007200730069006f006e0065007300200070006f00730074006500720069006f007200650073002e> /ETI <FEFF004b00610073007500740061006700650020006e0065006900640020007300e4007400740065006900640020006b00760061006c006900740065006500740073006500200074007200fc006b006900650065006c007300650020007000720069006e00740069006d0069007300650020006a0061006f006b007300200073006f00620069006c0069006b0065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e00740069006400650020006c006f006f006d006900730065006b0073002e00200020004c006f006f0064007500640020005000440046002d0064006f006b0075006d0065006e00740065002000730061006100740065002000610076006100640061002000700072006f006700720061006d006d006900640065006700610020004100630072006f0062006100740020006e0069006e0067002000410064006f00620065002000520065006100640065007200200035002e00300020006a00610020007500750065006d006100740065002000760065007200730069006f006f006e00690064006500670061002e000d000a> /FRA <FEFF005500740069006c006900730065007a00200063006500730020006f007000740069006f006e00730020006100660069006e00200064006500200063007200e900650072002000640065007300200064006f00630075006d0065006e00740073002000410064006f00620065002000500044004600200070006f0075007200200075006e00650020007100750061006c0069007400e90020006400270069006d007000720065007300730069006f006e00200070007200e9007000720065007300730065002e0020004c0065007300200064006f00630075006d0065006e00740073002000500044004600200063007200e900e90073002000700065007500760065006e0074002000ea0074007200650020006f007500760065007200740073002000640061006e00730020004100630072006f006200610074002c002000610069006e00730069002000710075002700410064006f00620065002000520065006100640065007200200035002e0030002000650074002000760065007200730069006f006e007300200075006c007400e90072006900650075007200650073002e> /GRE <FEFF03a703c103b703c303b903bc03bf03c003bf03b903ae03c303c403b5002003b103c503c403ad03c2002003c403b903c2002003c103c503b803bc03af03c303b503b903c2002003b303b903b1002003bd03b1002003b403b703bc03b903bf03c503c103b303ae03c303b503c403b5002003ad03b303b303c103b103c603b1002000410064006f006200650020005000440046002003c003bf03c5002003b503af03bd03b103b9002003ba03b103c42019002003b503be03bf03c703ae03bd002003ba03b103c403ac03bb03bb03b703bb03b1002003b303b903b1002003c003c103bf002d03b503ba03c403c503c003c903c403b903ba03ad03c2002003b503c103b303b103c303af03b503c2002003c503c803b703bb03ae03c2002003c003bf03b903cc03c403b703c403b103c2002e0020002003a403b10020005000440046002003ad03b303b303c103b103c603b1002003c003bf03c5002003ad03c703b503c403b5002003b403b703bc03b903bf03c503c103b303ae03c303b503b9002003bc03c003bf03c103bf03cd03bd002003bd03b1002003b103bd03bf03b903c703c403bf03cd03bd002003bc03b5002003c403bf0020004100630072006f006200610074002c002003c403bf002000410064006f00620065002000520065006100640065007200200035002e0030002003ba03b103b9002003bc03b503c403b103b303b503bd03ad03c303c403b503c103b503c2002003b503ba03b403cc03c303b503b903c2002e> /HEB <FEFF05D405E905EA05DE05E905D5002005D105D405D205D305E805D505EA002005D005DC05D4002005DB05D305D9002005DC05D905E605D505E8002005DE05E105DE05DB05D9002000410064006F006200650020005000440046002005D405DE05D505EA05D005DE05D905DD002005DC05D405D305E405E105EA002005E705D305DD002D05D305E405D505E1002005D005D905DB05D505EA05D905EA002E002005DE05E105DE05DB05D90020005000440046002005E905E005D505E605E805D5002005E005D905EA05E005D905DD002005DC05E405EA05D905D705D4002005D105D005DE05E605E205D505EA0020004100630072006F006200610074002005D5002D00410064006F00620065002000520065006100640065007200200035002E0030002005D505D205E805E105D005D505EA002005DE05EA05E705D305DE05D505EA002005D905D505EA05E8002E05D005DE05D905DD002005DC002D005000440046002F0058002D0033002C002005E205D905D905E005D5002005D105DE05D305E805D905DA002005DC05DE05E905EA05DE05E9002005E905DC0020004100630072006F006200610074002E002005DE05E105DE05DB05D90020005000440046002005E905E005D505E605E805D5002005E005D905EA05E005D905DD002005DC05E405EA05D905D705D4002005D105D005DE05E605E205D505EA0020004100630072006F006200610074002005D5002D00410064006F00620065002000520065006100640065007200200035002E0030002005D505D205E805E105D005D505EA002005DE05EA05E705D305DE05D505EA002005D905D505EA05E8002E> /HRV (Za stvaranje Adobe PDF dokumenata najpogodnijih za visokokvalitetni ispis prije tiskanja koristite ove postavke. Stvoreni PDF dokumenti mogu se otvoriti Acrobat i Adobe Reader 5.0 i kasnijim verzijama.) /HUN <FEFF004b0069007600e1006c00f30020006d0069006e0151007300e9006701710020006e0079006f006d00640061006900200065006c0151006b00e90073007a00ed007401510020006e0079006f006d00740061007400e100730068006f007a0020006c006500670069006e006b00e1006200620020006d0065006700660065006c0065006c0151002000410064006f00620065002000500044004600200064006f006b0075006d0065006e00740075006d006f006b0061007400200065007a0065006b006b0065006c0020006100200062006500e1006c006c00ed007400e10073006f006b006b0061006c0020006b00e90073007a00ed0074006800650074002e0020002000410020006c00e90074007200650068006f007a006f00740074002000500044004600200064006f006b0075006d0065006e00740075006d006f006b00200061007a0020004100630072006f006200610074002000e9007300200061007a002000410064006f00620065002000520065006100640065007200200035002e0030002c0020007600610067007900200061007a002000610074007400f3006c0020006b00e9007301510062006200690020007600650072007a006900f3006b006b0061006c0020006e00790069007400680061007400f3006b0020006d00650067002e> /ITA <FEFF005500740069006c0069007a007a006100720065002000710075006500730074006500200069006d0070006f007300740061007a0069006f006e00690020007000650072002000630072006500610072006500200064006f00630075006d0065006e00740069002000410064006f00620065002000500044004600200070006900f900200061006400610074007400690020006100200075006e00610020007000720065007300740061006d0070006100200064006900200061006c007400610020007100750061006c0069007400e0002e0020004900200064006f00630075006d0065006e007400690020005000440046002000630072006500610074006900200070006f00730073006f006e006f0020006500730073006500720065002000610070006500720074006900200063006f006e0020004100630072006f00620061007400200065002000410064006f00620065002000520065006100640065007200200035002e003000200065002000760065007200730069006f006e006900200073007500630063006500730073006900760065002e> /JPN <FEFF9ad854c18cea306a30d730ea30d730ec30b951fa529b7528002000410064006f0062006500200050004400460020658766f8306e4f5c6210306b4f7f75283057307e305930023053306e8a2d5b9a30674f5c62103055308c305f0020005000440046002030d530a130a430eb306f3001004100630072006f0062006100740020304a30883073002000410064006f00620065002000520065006100640065007200200035002e003000204ee5964d3067958b304f30533068304c3067304d307e305930023053306e8a2d5b9a306b306f30d530a930f330c8306e57cb30818fbc307f304c5fc59808306730593002> /KOR <FEFFc7740020c124c815c7440020c0acc6a9d558c5ec0020ace0d488c9c80020c2dcd5d80020c778c1c4c5d00020ac00c7a50020c801d569d55c002000410064006f0062006500200050004400460020bb38c11cb97c0020c791c131d569b2c8b2e4002e0020c774b807ac8c0020c791c131b41c00200050004400460020bb38c11cb2940020004100630072006f0062006100740020bc0f002000410064006f00620065002000520065006100640065007200200035002e00300020c774c0c1c5d0c11c0020c5f40020c2180020c788c2b5b2c8b2e4002e> /LTH <FEFF004e006100750064006f006b0069007400650020016100690075006f007300200070006100720061006d006500740072007500730020006e006f0072011700640061006d00690020006b0075007200740069002000410064006f00620065002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b00750072006900650020006c0061006200690061007500730069006100690020007000720069007400610069006b007900740069002000610075006b01610074006f00730020006b006f006b007900620117007300200070006100720065006e006700740069006e00690061006d00200073007000610075007300640069006e0069006d00750069002e0020002000530075006b0075007200740069002000500044004600200064006f006b0075006d0065006e007400610069002000670061006c006900200062016b007400690020006100740069006400610072006f006d00690020004100630072006f006200610074002000690072002000410064006f00620065002000520065006100640065007200200035002e0030002000610072002000760117006c00650073006e0117006d00690073002000760065007200730069006a006f006d00690073002e> /LVI <FEFF0049007a006d0061006e0074006f006a00690065007400200161006f00730020006900650073007400610074012b006a0075006d00750073002c0020006c0061006900200076006500690064006f00740075002000410064006f00620065002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b006100730020006900720020012b00700061016100690020007000690065006d01130072006f00740069002000610075006700730074006100730020006b00760061006c0069007401010074006500730020007000690072006d007300690065007300700069006501610061006e006100730020006400720075006b00610069002e00200049007a0076006500690064006f006a006900650074002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b006f002000760061007200200061007400760113007200740020006100720020004100630072006f00620061007400200075006e002000410064006f00620065002000520065006100640065007200200035002e0030002c0020006b0101002000610072012b00200074006f0020006a00610075006e0101006b0101006d002000760065007200730069006a0101006d002e> /NLD (Gebruik deze instellingen om Adobe PDF-documenten te maken die zijn geoptimaliseerd voor prepress-afdrukken van hoge kwaliteit. De gemaakte PDF-documenten kunnen worden geopend met Acrobat en Adobe Reader 5.0 en hoger.) /NOR <FEFF004200720075006b00200064006900730073006500200069006e006e007300740069006c006c0069006e00670065006e0065002000740069006c002000e50020006f0070007000720065007400740065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e00740065007200200073006f006d00200065007200200062006500730074002000650067006e0065007400200066006f00720020006600f80072007400720079006b006b0073007500740073006b00720069006600740020006100760020006800f800790020006b00760061006c0069007400650074002e0020005000440046002d0064006f006b0075006d0065006e00740065006e00650020006b0061006e002000e50070006e00650073002000690020004100630072006f00620061007400200065006c006c00650072002000410064006f00620065002000520065006100640065007200200035002e003000200065006c006c00650072002000730065006e006500720065002e> /POL <FEFF0055007300740061007700690065006e0069006100200064006f002000740077006f0072007a0065006e0069006100200064006f006b0075006d0065006e007400f300770020005000440046002000700072007a0065007a006e00610063007a006f006e00790063006800200064006f002000770079006400720075006b00f30077002000770020007700790073006f006b00690065006a0020006a0061006b006f015b00630069002e002000200044006f006b0075006d0065006e0074007900200050004400460020006d006f017c006e00610020006f007400770069006500720061010700200077002000700072006f006700720061006d006900650020004100630072006f00620061007400200069002000410064006f00620065002000520065006100640065007200200035002e0030002000690020006e006f00770073007a0079006d002e> /PTB <FEFF005500740069006c0069007a006500200065007300730061007300200063006f006e00660069006700750072006100e700f50065007300200064006500200066006f0072006d00610020006100200063007200690061007200200064006f00630075006d0065006e0074006f0073002000410064006f0062006500200050004400460020006d00610069007300200061006400650071007500610064006f00730020007000610072006100200070007200e9002d0069006d0070007200650073007300f50065007300200064006500200061006c007400610020007100750061006c00690064006100640065002e0020004f007300200064006f00630075006d0065006e0074006f00730020005000440046002000630072006900610064006f007300200070006f00640065006d0020007300650072002000610062006500720074006f007300200063006f006d0020006f0020004100630072006f006200610074002000650020006f002000410064006f00620065002000520065006100640065007200200035002e0030002000650020007600650072007300f50065007300200070006f00730074006500720069006f007200650073002e> /RUM <FEFF005500740069006c0069007a00610163006900200061006300650073007400650020007300650074010300720069002000700065006e007400720075002000610020006300720065006100200064006f00630075006d0065006e00740065002000410064006f006200650020005000440046002000610064006500630076006100740065002000700065006e0074007200750020007400690070010300720069007200650061002000700072006500700072006500730073002000640065002000630061006c006900740061007400650020007300750070006500720069006f006100720103002e002000200044006f00630075006d0065006e00740065006c00650020005000440046002000630072006500610074006500200070006f00740020006600690020006400650073006300680069007300650020006300750020004100630072006f006200610074002c002000410064006f00620065002000520065006100640065007200200035002e00300020015f00690020007600650072007300690075006e0069006c006500200075006c0074006500720069006f006100720065002e> /RUS <FEFF04180441043f043e043b044c04370443043904420435002004340430043d043d044b04350020043d0430044104420440043e0439043a043800200434043b044f00200441043e043704340430043d0438044f00200434043e043a0443043c0435043d0442043e0432002000410064006f006200650020005000440046002c0020043c0430043a04410438043c0430043b044c043d043e0020043f043e04340445043e0434044f04490438044500200434043b044f00200432044b0441043e043a043e043a0430044704350441044204320435043d043d043e0433043e00200434043e043f0435044704300442043d043e0433043e00200432044b0432043e04340430002e002000200421043e043704340430043d043d044b04350020005000440046002d0434043e043a0443043c0435043d0442044b0020043c043e0436043d043e0020043e0442043a0440044b043204300442044c002004410020043f043e043c043e0449044c044e0020004100630072006f00620061007400200438002000410064006f00620065002000520065006100640065007200200035002e00300020043800200431043e043b043504350020043f043e04370434043d043804450020043204350440044104380439002e> /SKY <FEFF0054006900650074006f0020006e006100730074006100760065006e0069006100200070006f0075017e0069007400650020006e00610020007600790074007600e100720061006e0069006500200064006f006b0075006d0065006e0074006f0076002000410064006f006200650020005000440046002c0020006b0074006f007200e90020007300610020006e0061006a006c0065007001610069006500200068006f0064006900610020006e00610020006b00760061006c00690074006e00fa00200074006c0061010d00200061002000700072006500700072006500730073002e00200056007900740076006f00720065006e00e900200064006f006b0075006d0065006e007400790020005000440046002000620075006400650020006d006f017e006e00e90020006f00740076006f00720069016500200076002000700072006f006700720061006d006f006300680020004100630072006f00620061007400200061002000410064006f00620065002000520065006100640065007200200035002e0030002000610020006e006f0076016100ed00630068002e> /SLV <FEFF005400650020006e006100730074006100760069007400760065002000750070006f0072006100620069007400650020007a00610020007500730074007600610072006a0061006e006a006500200064006f006b0075006d0065006e0074006f0076002000410064006f006200650020005000440046002c0020006b006900200073006f0020006e0061006a007000720069006d00650072006e0065006a016100690020007a00610020006b0061006b006f0076006f00730074006e006f0020007400690073006b0061006e006a00650020007300200070007200690070007200610076006f0020006e00610020007400690073006b002e00200020005500730074007600610072006a0065006e006500200064006f006b0075006d0065006e0074006500200050004400460020006a00650020006d006f0067006f010d00650020006f0064007000720065007400690020007a0020004100630072006f00620061007400200069006e002000410064006f00620065002000520065006100640065007200200035002e003000200069006e0020006e006f00760065006a01610069006d002e> /SUO <FEFF004b00e40079007400e40020006e00e40069007400e4002000610073006500740075006b007300690061002c0020006b0075006e0020006c0075006f00740020006c00e400680069006e006e00e4002000760061006100740069007600610061006e0020007000610069006e006100740075006b00730065006e002000760061006c006d0069007300740065006c00750074007900f6006800f6006e00200073006f00700069007600690061002000410064006f0062006500200050004400460020002d0064006f006b0075006d0065006e007400740065006a0061002e0020004c0075006f0064007500740020005000440046002d0064006f006b0075006d0065006e00740069007400200076006f0069006400610061006e0020006100760061007400610020004100630072006f0062006100740069006c006c00610020006a0061002000410064006f00620065002000520065006100640065007200200035002e0030003a006c006c00610020006a006100200075007500640065006d006d0069006c006c0061002e> /SVE <FEFF0041006e007600e4006e00640020006400650020006800e4007200200069006e0073007400e4006c006c006e0069006e006700610072006e00610020006f006d002000640075002000760069006c006c00200073006b006100700061002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e007400200073006f006d002000e400720020006c00e4006d0070006c0069006700610020006600f60072002000700072006500700072006500730073002d007500740073006b00720069006600740020006d006500640020006800f600670020006b00760061006c0069007400650074002e002000200053006b006100700061006400650020005000440046002d0064006f006b0075006d0065006e00740020006b0061006e002000f600700070006e00610073002000690020004100630072006f0062006100740020006f00630068002000410064006f00620065002000520065006100640065007200200035002e00300020006f00630068002000730065006e006100720065002e> /TUR <FEFF005900fc006b00730065006b0020006b0061006c006900740065006c0069002000f6006e002000790061007a006401310072006d00610020006200610073006b013100730131006e006100200065006e0020006900790069002000750079006100620069006c006500630065006b002000410064006f006200650020005000440046002000620065006c00670065006c0065007200690020006f006c0075015f007400750072006d0061006b0020006900e70069006e00200062007500200061007900610072006c0061007201310020006b0075006c006c0061006e0131006e002e00200020004f006c0075015f0074007500720075006c0061006e0020005000440046002000620065006c00670065006c0065007200690020004100630072006f006200610074002000760065002000410064006f00620065002000520065006100640065007200200035002e003000200076006500200073006f006e0072006100730131006e00640061006b00690020007300fc007200fc006d006c00650072006c00650020006100e70131006c006100620069006c00690072002e> /UKR <FEFF04120438043a043e0440043804410442043e043204430439044204350020044604560020043f043004400430043c043504420440043800200434043b044f0020044104420432043e04400435043d043d044f00200434043e043a0443043c0435043d044204560432002000410064006f006200650020005000440046002c0020044f043a04560020043d04300439043a04400430044904350020043f045604340445043e0434044f0442044c00200434043b044f0020043204380441043e043a043e044f043a04560441043d043e0433043e0020043f0435044004350434043404400443043a043e0432043e0433043e0020043404400443043a0443002e00200020042104420432043e04400435043d045600200434043e043a0443043c0435043d0442043800200050004400460020043c043e0436043d04300020043204560434043a0440043804420438002004430020004100630072006f006200610074002004420430002000410064006f00620065002000520065006100640065007200200035002e0030002004300431043e0020043f04560437043d04560448043e04570020043204350440044104560457002e> /ENU (Use these settings to create Adobe PDF documents best suited for high-quality prepress printing. Created PDF documents can be opened with Acrobat and Adobe Reader 5.0 and later.) >> /Namespace [ (Adobe) (Common) (1.0) ] /OtherNamespaces [ << /AsReaderSpreads false /CropImagesToFrames true /ErrorControl /WarnAndContinue /FlattenerIgnoreSpreadOverrides false /IncludeGuidesGrids false /IncludeNonPrinting false /IncludeSlug false /Namespace [ (Adobe) (InDesign) (4.0) ] /OmitPlacedBitmaps false /OmitPlacedEPS false /OmitPlacedPDF false /SimulateOverprint /Legacy >> << /AddBleedMarks false /AddColorBars false /AddCropMarks false /AddPageInfo false /AddRegMarks false /ConvertColors /ConvertToCMYK /DestinationProfileName () /DestinationProfileSelector /DocumentCMYK /Downsample16BitImages true /FlattenerPreset << /PresetSelector /MediumResolution >> /FormElements false /GenerateStructure false /IncludeBookmarks false /IncludeHyperlinks false /IncludeInteractive false /IncludeLayers false /IncludeProfiles false /MultimediaHandling /UseObjectSettings /Namespace [ (Adobe) (CreativeSuite) (2.0) ] /PDFXOutputIntentProfileSelector /DocumentCMYK /PreserveEditing true /UntaggedCMYKHandling /LeaveUntagged /UntaggedRGBHandling /UseDocumentProfile /UseDocumentBleed false >> ] >> setdistillerparams << /HWResolution [2400 2400] /PageSize [612.000 792.000] >> setpagedevice
id nasplib_isofts_kiev_ua-123456789-83418
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0130-5395
language Russian
last_indexed 2025-12-07T15:37:22Z
publishDate 2014
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
record_format dspace
spelling Палагин, А.В.
Петренко, Н.Г.
2015-06-19T15:40:12Z
2015-06-19T15:40:12Z
2014
Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ / А.В. Палагин, Н.Г. Петренко // Управляющие системы и машины. — 2014. — № 3. — С. 18-27. — Бібліогр.: 4 назв. — рос.
0130-5395
https://nasplib.isofts.kiev.ua/handle/123456789/83418
004.318
Разработаны методологические основы построения быстродействующих аппаратных лингвистических процессоров. Рассмотрена практическая реализация аппаратных морфологических процессоров, позволяющих на два и более порядка повысить производительность лингвистического анализа корпусов текстов большого объема в сравнении с программной реализацией.
The methodological basis for the construction of the high-speed hardware linguistic processors is elaborated. The practical implementation of the morphological hardware processors which enable to improve the performance of the linguistic analysis of large volume text corpus two times more comparing with the software implementation is considered.
Розроблено методологічні основи побудови швидкодіючих апаратних лінгвістичних процесорів. Розглянуто практичну реалізацію апаратних морфологічних процесорів, які дозволяють на два і більше порядки підвищити продуктивність лінгвістичного аналізу корпусів текстів великого обсягу порівняно з програмною реалізацією.
Продолжение. Начало см. в № 2, 2014 нашего журнала
ru
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Управляющие системы и машины
Технические средства информатики
Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ
The Methodological Basis of the Language Processor Development for the Linguistic Analysis of the Very Large Volume Text Corpus. II
Методологічні основи розробки лінгвістичного процесора для обробки лінгвістичних корпусів текстів надвеликих обсягів. ІІ
Article
published earlier
spellingShingle Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ
Палагин, А.В.
Петренко, Н.Г.
Технические средства информатики
title Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ
title_alt The Methodological Basis of the Language Processor Development for the Linguistic Analysis of the Very Large Volume Text Corpus. II
Методологічні основи розробки лінгвістичного процесора для обробки лінгвістичних корпусів текстів надвеликих обсягів. ІІ
title_full Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ
title_fullStr Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ
title_full_unstemmed Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ
title_short Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. ІІ
title_sort методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов. іі
topic Технические средства информатики
topic_facet Технические средства информатики
url https://nasplib.isofts.kiev.ua/handle/123456789/83418
work_keys_str_mv AT palaginav metodologičeskieosnovyrazrabotkilingvističeskogoprocessoradlâobrabotkilingvističeskihkorpusovtekstovsverhbolʹšihobʺemovíí
AT petrenkong metodologičeskieosnovyrazrabotkilingvističeskogoprocessoradlâobrabotkilingvističeskihkorpusovtekstovsverhbolʹšihobʺemovíí
AT palaginav themethodologicalbasisofthelanguageprocessordevelopmentforthelinguisticanalysisoftheverylargevolumetextcorpusii
AT petrenkong themethodologicalbasisofthelanguageprocessordevelopmentforthelinguisticanalysisoftheverylargevolumetextcorpusii
AT palaginav metodologíčníosnovirozrobkilíngvístičnogoprocesoradlâobrobkilíngvístičnihkorpusívtekstívnadvelikihobsâgívíí
AT petrenkong metodologíčníosnovirozrobkilíngvístičnogoprocesoradlâobrobkilíngvístičnihkorpusívtekstívnadvelikihobsâgívíí