Розподілене комп’ютерне документування голосових мовних фонограм
Запропоновано підхід для розподіленого комп’ютерного документування мовних фонограм засідань. Проведено аналіз предметної області та зроблена постановка задачі. Побудована логічна модель інформаційної системи (ІС). Реалізований прототип ІС та окреслені необхідні дослідження для створення промислової...
Gespeichert in:
| Datum: | 2008 |
|---|---|
| Hauptverfasser: | , , , |
| Format: | Artikel |
| Sprache: | Ukrainisch |
| Veröffentlicht: |
Інститут програмних систем НАН України
2008
|
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/1498 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Розподілене комп’ютерне документування голосових мовних фонограм / Ю.Г. Кривонос, Ю.В. Крак, О.В. Бармак, О.С. Загваздін // Пробл. програмув. — 2008. — N 2-3. — С. 650-656. — Бібліогр.: 7 назв. — укp. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860044885175828480 |
|---|---|
| author | Кривонос, Ю.Г. Крак, Ю.В. Бармак, О.В. Загваздін, О.С. |
| author_facet | Кривонос, Ю.Г. Крак, Ю.В. Бармак, О.В. Загваздін, О.С. |
| citation_txt | Розподілене комп’ютерне документування голосових мовних фонограм / Ю.Г. Кривонос, Ю.В. Крак, О.В. Бармак, О.С. Загваздін // Пробл. програмув. — 2008. — N 2-3. — С. 650-656. — Бібліогр.: 7 назв. — укp. |
| collection | DSpace DC |
| description | Запропоновано підхід для розподіленого комп’ютерного документування мовних фонограм засідань. Проведено аналіз предметної області та зроблена постановка задачі. Побудована логічна модель інформаційної системи (ІС). Реалізований прототип ІС та окреслені необхідні дослідження для створення промислової версії ІС.
n approach to the distributed application speech phonogram is suggested. The project domain analysis is given. The information systems logical model is constructed. The information system example is given.
|
| first_indexed | 2025-12-07T16:58:07Z |
| format | Article |
| fulltext |
Прикладне програмне забезпечення
© Ю.Г. Кривонос, Ю.В. Крак, О.В. Бармак, О.С. Загваздін, 2008
650 ISSN 1727-4907. Проблеми програмування. 2008. № 2-3. Спеціальний випуск
УДК 004.9
РОЗПОДІЛЕНЕ КОМП’ЮТЕРНЕ ДОКУМЕНТУВАННЯ
ГОЛОСОВИХ МОВНИХ ФОНОГРАМ
Ю.Г. Кривонос, Ю.В. Крак, О.В. Бармак, О.С. Загваздін
Інститут кібернетики ім. В.М. Глушкова НАН України,
03680, МСП, Київ, проспект Академіка Глушкова, 40.
Тел.: (+38) (044) 526 2008, факс (+38) (044) 526 7418
Запропоновано підхід для розподіленого комп’ютерного документування мовних фонограм засідань. Проведено аналіз предметної
області та зроблена постановка задачі. Побудована логічна модель інформаційної системи (ІС). Реалізований прототип ІС та
окреслені необхідні дослідження для створення промислової версії ІС.
An approach to the distributed application speech phonogram is suggested. The project domain analysis is given. The information systems
logical model is constructed. The information system example is given.
Якість інформаційного процесу підтримки діяльності представницьких органів, органів виконавчої влади,
судів постійно знаходяться в центрі уваги, тому, що безпосередньо впливає на результати їх діяльності.
Забезпечення оперативності, достовірності та багатосторонності поступаючої інформації дозволяє організувати
цикл їх роботи з оптимальними часовими характеристиками.
Досвід показує, що простого нарощування обслуговуючого персоналу та технічних засобів недостатньо
для вдосконалення управлінського процесу та переходу до керування інформацією. Для ситуацій, коли
необхідна оперативна текстова розшифровка виступів, пропонується інформаційна система розподіленого
комп’ютерного документування (ІС), яка дозволяє одночасно обробляти багато каналів поступаючої мовної
інформації.
Принцип її роботи полягає у тому, що мовний сигнал, який поступає на вхід ІС (від конференц-системи або
безпосередньо з мікрофону), записується на вінчестер комп’ютера, автоматично розбивається на окремі
фрагменти та розподіляється між операторами-стенографістами, які прослуховують його та роблять текстову
розшифровку. Отримані ділянки тексту автоматично з’єднуються в єдиний документ, який після перевірки
керівником групи може бути збереженим та роздрукованим.
Міжнародний досвід використання таких систем показав їх високу ефективність. Слід відмітити подібні
розробки «Центра речевих технологій» – російського лідера в галузі розробки електронної техніки та
програмного забезпечення для високоякісного запису, обробки та аналізу звукової інформації [1], комплекс
оперативного стенографування “SRS Report 2002” [2], розробки «International computer science institute» [3]
тощо [4–7].
Авторами запропонована концепція та реалізація ІС «Автоматизована стенограма» для оперативного
отримання стенограм виступів на базі технології розподіленої обробки мовного сигналу.
Аналіз предметної області та постановка задачі
Для автоматизованого ведення стенограм мають бути реалізовані основна функціональність та такі вимоги:
• мовний сигнал, який поступає із відповідної апаратури (мікрофони, звукові плати тощо):
а) записується на жорсткий диск комп’ютера у вигляді wav-файлу;
б) автоматично розбивається на окремі фрагменти заданої тривалості, які записуються в базу даних (БД) з
відповідною ознакою (необроблений сегмент);
• адміністратор групи стенографістів у локальній мережі в реальному часі автоматично отримує інформацію
про запис в БД нового необробленого сегмента;
• адміністратор групи стенографістів у реальному часі із локальної мережі отримує інформацію про статуси
робочих місць операторів-стенографістів (оператор вільний чи обробляє сегмент);
• адміністратор, отримавши інформацію про необроблений сегмент, що поступив, підтверджує та направляє
його вільному оператору-стенографісту (або ставить його в чергу для подальшої обробки);
• оператор-стенографіст:
1) отримує необроблений фрагмент та, прослуховуючи його, – проводить текстову розшифровку;
2) закінчивши розшифровку, записує фрагмент у БД;
• оброблені операторами-стенографістами сегменти тексту автоматично з’єднуються у підсумковий
документ та інформація про це поступає адміністратору групи стенографістів;
• адміністратор групи стенографістів направляє підсумковий документ редактору-коректору;
• редактор-коректор, закінчивши роботу з підсумковим документом, направляє його адміністратору;
Прикладне програмне забезпечення
651
• адміністратор має змогу для поточного сигналу вказати прізвища людей, які приймають участь у засіданні
та відповідні їм номера мікрофонів (які він попередньо отримає від організаторів засідання).
Далі, на основі цих вимог та обмежень, виділимо класи користувачів ІС, визначимо їх вимоги, та
побудуємо опис системи з точки зору користувача. Складемо діаграму використання, яка описує ІС в цілому
(рис. 1). Ця діаграма включає аспекти використання та зовнішні суб’єкти системи.
Стенографіст
Редагує текст стенограми
Програє звуковий сигнал
Зберігає текст фрашменту
Адміністратор групи
Переглядає список і статуси стенографістів
Переглядає чергу фрагментів
Передача фрагменту
Переглядає текст стенограми
Передача стенограми
Коректор
Редагує стенограму
Зберігає стенограму
Рис. 1. Діаграма використання ІС автоматизованого ведення стенограм засідань
У ІС автоматизованого ведення стенограм засідань виділені три класи користувачів (три ролі), яким
відповідають три зовнішніх суб’єкта, представлених на діаграмі.
1. Адміністратор групи стенографістів – відповідає за розподіл завдань між операторами-стенографістами
та редакторами-коректорами, контролює хід виконання завдань.
2. Оператор-стенографіст – виконує завдання по стенографуванню, отримані від адміністратора.
3. Редактор-коректор – виконує завдання, отриманні від адміністратора.
Для зовнішніх суб’єктів вищеприведені вимоги розділяються на три множини, які не перетинаються.
Розділивши відповідним чином, множину функціональних аспектів системи на три частини, організуємо три
підсистеми: АРМ адміністратора групи стенографістів (АРМ АГС), АРМ оператора-стенографіста (АРМ ОС),
АРМ редактора-коректора (АРМ РК).
Підсистема АРМ АГС призначена для роботи з інформацією про мовний сигнал, що поступає, та
керуванням процесом стенографування цього сигналу. З цією підсистемою взаємодіє зовнішній суб’єкт
«Адміністратор групи стенографістів». Підсистема АРМ ОС призначена для роботи з фрагментами мовного
сигналу з метою їх стенографування. Ця підсистема знаходиться під керуванням зовнішнього суб’єкта
«Оператора-стенографіста». Підсистема АРМ РК призначена для редагування підсумкового документа,
створенного операторами-стенографістами. Керувати двома підсистемами дозволено зовнішньому суб’єкту
«Адміністратору групи стенографістів». Аспекти використання підсистем, виділенні в результаті розподілу
множини аспектів використання всієї ІС на три частини відповідають функціональності вищеописаній та
представлені на діаграмі використання (рис. 1).
Підсистеми АРМ АГС, АРМ ОС і АРМ РК зв’язані між собою: зміна даних в одній підсистемі може
привести до зміни даних в іншій. Тобто між підсистемами має бути організований обмін повідомленнями. Для
цього необхідно організувати сервер для реалізації функцій по обміну повідомленнями. Діаграма
послідовностей (рис. 2) ілюструє схему обміну повідомленнями в системі.
Прикладне програмне забезпечення
652
Рис. 2. Діаграма послідовностей для ІС
Логічна модель ІС
Структура кожного компонента ІС (кожної підсистеми та кожного аспекта використання) включає
наступні елементи:
• єдина модель, яка описує організацію даних;
• види, які є візуальним представленням даних;
• інтерфейсні елементи, з допомогою яких змінюються дані, які зберігаються в моделі.
• Цим елементам відповідають наступні об’єкти в ІС:
• схема даних, яка складається із об’єктів-таблиць;
• запити, збережені процедури;
• керуючі запити, збережені процедури, форми для введення та зміни даних.
Модель даних. ІС має єдину модель даних (для всіх підсистем) яка призначена для збереження голосового
сигналу та відповідної йому текстової інформації. Структура моделі даних випливає із розподіленого характеру
обробки мовного сигналу та показана на рис. 3.
Модель представлення даних. Візуальним представленням даних, які зберігаються в моделі, є види, які
змінюються тоді, коли змінюються ці дані. Для реалізації потрібної функціональності визначимо необхідні
види:
• список фрагментів, яким призначений стенографіст;
• поточний фрагмент для вказаного стенографіста;
• список завершених стенограм;
• список, який містить інформацію про оброблені фрагменти та про відповідні їм стенограми;
• тексти фрагментів стенограми у правильному порядку;
• список неназначених фрагментів;
• ознака завершення стенограми.
Прикладне програмне забезпечення
653
Стенограми
Дата початку
Дата завершення
Дата початку перевірки
Дата завершення перевірки
Текст
Фрагменти
Стенограма
Номер фрагменту
Дата початку
Дата завершення
Дата надсилання стенографісту
Дата завершення стенографування
Сигнал
Текст
Стеногрфіст
Користувачі
Ім’я
Логін
Пароль
Адміністратор
Рис. 3. Логічна модель даних для ІС
Модель керування даними. Побудова моделі керування даними базується на проектуванні інтерфейсу
користувача та на бізнес-логіці організації даних у БД, реалізованій з допомогою збережених процедур.
Елементи інтерфейсу користувача проектуються на основі діаграм активності для кожного аспекту
використання та відображають необхідну функціональність ІС (рис. 4). Збережені процедури мають реалізувати
наступну бізнес-логіку керування даними:
• додати рядок про нову стенограму;
• додати рядок про новий фрагмент стенограми;
• назначити стенографіста для фрагмента стенограми;
• завершити стенограму;
• завершити фрагмент стенограми.
Рис. 4. Діаграма активності для отримання стенограми
Прикладне програмне забезпечення
654
Реалізація прототипу ІС
Прототип ІС реалізований з використанням технології DOT.NET, СУБД Microsoft SQL Server та
триланкової архітектури (сервер БД, сервер ІС, три клієнти – АРМ АГС, АРМ ОС, АРМ РК).
Фізична модель даних включає в себе таблиці зі зв’язками (рис. 5) та збережені процедури (табл. 1):
Рис. 5. Фізична модель даних ІС
Таблиця 1
Ім’я збереженої процедури Опис
AddNewTranscript Додає рядок про нову стенограму
AddNewTranscriptItem Додає рядок про новий фрагмент стенограми
AssignTranscripter Призначає стенографіста для фрагмента стенограми
FinishTranscript Завершує стенограму
FinishTranscriptItem Завершує фрагмент стенограми
GetAssignedTranscriptItems Повертає список фрагментів, яким призначений стенографіст
GetCurrentTaskByTranscripter Повертає поточний фрагмент для вказаного стенографіста
GetFinishedTranscripts Повертає список завершених стенограм.
GetProcessedTranscriptItems Повертає таблицю, яка містить інформацію про оброблення фрагментів та
про відповідні їм стенограми
GetSegmentsText Повертає тексти фрагментів вказаної стенограми у правильному порядку
GetUnassignedTranscriptItems Повертає список неназначених фрагментів
IsTranscriptFinished Повертає ознаку завершення стенограми
ReturnTranscriptItem Повертає сигнал фрагмента стенограми
ReturnTranscriptItemText Повертає текст фрагмента стенограми
SaveTranscriptItemText Зберігає текст фрагмента стенограми
Для програмної реалізації ІС введена ієрархія основних класів, представлена на рис. 6.
Структурно ІС розділена на шість модулів: два службових приєднуваних модулі Common та
ServerCommon, в які винесені загальні класи для клієнтської та серверної частин ІС, та чотири виконуваних
модулі, які реалізують сервер системи та три типи робочих місць: АРМ АГС, АРМ ОС, АРМ РК.
У модуль Common винесені три основних класи, які необхідні для роботи ІС. Клас AsynchronousClient
реалізує роботу клієнтського сокета. Клас ClientSocketProcessor відповідає за обробку інформації, отриманої
через клієнтський сокет. Клас SoundDB містить виклики збережених процедур у БД. Модуль Common містить
абстрактний клас ClientForm, який слугує основою для реалізації форм клієнтських додатків системи.
Модуль ServerCommon містить основні класи, необхідні для роботи серверної частини ІС. Модуль
ServerCommon також використовує класи, які зберігаються у модулі Common. Клас AsynchronousServer реалізує
асинхронний серверний сокет. Клас ServerSoundDB містить виклики збережених процедур БД, необхідних для
роботи серверної частини ІС. Клас SoundProcessor відповідає за обробку вхідного звукового сигналу та
розбиття його на фрагменти. Модуль ServerCommon також містить абстрактний клас ServerForm, який слугує
основою для реалізації форми серверного додатку системи.
Прикладне програмне забезпечення
655
Серверна частина системи реалізована на основі діалогового вікна, яке наслідує клас ServerForm.
Аналогічно, АРМи реалізовані на основі форм, які наслідують клас ClientForm.
Рис. 6. Діаграма основних класів ІС
Основні властивості та методи перерахованих класів приведені в табл. 2.
Таблиця 2
Властивості та методи Опис
ClientSocketProcessor.Client Об’єкт класу AsynchronousClient, який реалізує асинхронний
клієнтський сокет
ClientSocketProcessor.ReceivingThread Потік, у якому отримується і обробляється інформація від сервера
SoundDB.LoadSound() Завантажити звуковий сигнал
SoundDB.LoadText() Завантажити текст фрагмента
SoundDB.SaveText() Зберегти текст фрагмента
SoundDB.ReturnUnassignedSegments() Повертає список фрагментів, які не призначені стенографістам
SoundDB.AssignSegment() Призначити фрагмент стенографісту
SoundDB.FinishSegment() Завершити фрагмент
SoundDB.GetTaskByTranscripter() Повертає ідентифікатор фрагмента, призначеного данному
стенографісту
SoundDB.IsTranscriptFinished() Повертає інформацію про завершення стенограми
SoundDB.FinishTranscript() Завершує стенограму
SoundDB.GetTranscriptText() Повертає текст стенограми
AsynchronousServer.ClientSockets Масив клієнтських сокетів, які підключені до сервера
AsynchronousServer.AdminSocket Сокет АРМ АГС
AsynchronousServer.ClientNames Масив імен стенографістів, які підключені до сервера
SoundProcessor.SplitSignal() Розбиває вхідний звуковий сигнал на фрагменти
ClientForm.UpdateUI()
ServerForm.UpdateUI()
Віртуальні методи, які відповідають за асинхронне відображення
інформації на формах серверної та клієнтських частин. Ці методи
перевизначаються у класах ServerForm, SoundAdminForm,
RecorderForm та CorrectorForm
Прикладне програмне забезпечення
656
Для демонстрації запропонованої технології реалізований прототип ІС (рис. 7), який включає у себе
наступні компоненти ІС: СУБД, сервер ІС, АРМ АГС, АРМ ОС.
Рис. 7. Реалізація прототипу ІС
Висновки
Запропонована реалізація ІС розподіленого комп’ютерного документування є макетом системи,
призначеної для автоматизації процесу стенографування мовних фонограм засідань. Для реалізації промислової
версії ІС будуть проведені дослідження в наступних напрямках:
1. Загальні задачі для мовного сигналу:
• алгоритми сегментації неперервного мовного потоку на фрагменти, які містять мову та на паузи (з
врахуванням послідовної обробки голосового потоку);
• алгоритми сегментації мовних фрагментів на пітчі (періоди основного тону) для української мови;
• алгоритми сегментації мовного фрагменту на ділянки, які не містять пітчів (шипячі тощо);
• алгоритми розпізнавання пітчів (для української мови);
• алгоритми розпізнавання непітчевих фрагментів;
• алгоритми розбиття мовних фрагментів (після розпізнавання пітчів та непітчів) на слова української
мови;
• алгоритми уточнення (повного розпізнавання) слів з допомогою словника української мови та словника
типових виразів української мови;
• алгоритми ідентифікації диктора для цілісних мовних фрагментів;
• алгоритми очищення від сторонніх шумів цілісних мовних фрагментів.
2. Специфічні задачі для проблеми автоматизації процесу стенографування
• оптимальне розбиття вхідного сигналу на рівноцінні фрагменти;
• автоматична побудова оптимальної черги фрагментів;
• оптимальний автоматичний розподіл фрагментів між вільними стенографістами;
• підтримка великої кількості залів, для яких ведеться стенографування;
• підтримка словників типових фраз та виразів для прискорення процесу вводу тексту стенографістом.
Отримані результати досліджень будуть імплементовані в фінальну версію ІС.
1. Система распределенного компьютерного документирования устных выступлений и фонограмм речи Нестор //
http://www.speechpro.ru/rus/products/doc-systems/nestor/
2. Комплекс оперативного стенографирования “SRS Report 2002” // http://srs.kiev.ua/index.php?pg=2&lang=rus&tov=23
3. The meeting recorder project // http://www.icsi.berkeley.edu/Speech/mr/mtgrcdr.html
4. Metze F., Jin Q., Fugen C., Laskowski K., Pan Y., Schultz T. Issues in Meeting Transcription. – The ISL Meeting Transcription System //
http://isl.ira.uka.de/fileadmin/publication-files/islMeetingSystem_icslp04.pdf
5. Yu H., Tomokiyo T., Wangand Z., Waibel A. New Developments in Automatic Meeting Transcription // Proceedings of ICSLP2000, 2000.
http://www.is.cs.cmu.edu/papers/speech/ICSLP2000/ICSLP2000-hua1.pdf
6. Hain T., Burget L., Dines J., Garau G., Karafiat M., Linkoln M., Vepa J., Wan V. The AMI Meeting Transcription System: Progress and
Performance, 2006. // http://www.cstr.ed.ac.uk/downloads/publications/2006/AMIasr.nist06.pdf
7. Yu H., Clark C., Malkin R., Waibel A. Experiments in automatic meeting transcription using JRTK. // Acoustics, Speech and Signal Processing,
1998. Proceedings of the 1998 IEEE International Conference. – 1998. 12-15 May. – Vol. 2. – P. 921 – 924.
Сервер
звукозаписи
АРМ АГС
АРМи ОС
|
| id | nasplib_isofts_kiev_ua-123456789-1498 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1727-4907 |
| language | Ukrainian |
| last_indexed | 2025-12-07T16:58:07Z |
| publishDate | 2008 |
| publisher | Інститут програмних систем НАН України |
| record_format | dspace |
| spelling | Кривонос, Ю.Г. Крак, Ю.В. Бармак, О.В. Загваздін, О.С. 2008-07-31T15:08:43Z 2008-07-31T15:08:43Z 2008 Розподілене комп’ютерне документування голосових мовних фонограм / Ю.Г. Кривонос, Ю.В. Крак, О.В. Бармак, О.С. Загваздін // Пробл. програмув. — 2008. — N 2-3. — С. 650-656. — Бібліогр.: 7 назв. — укp. 1727-4907 https://nasplib.isofts.kiev.ua/handle/123456789/1498 004.9 Запропоновано підхід для розподіленого комп’ютерного документування мовних фонограм засідань. Проведено аналіз предметної області та зроблена постановка задачі. Побудована логічна модель інформаційної системи (ІС). Реалізований прототип ІС та окреслені необхідні дослідження для створення промислової версії ІС. n approach to the distributed application speech phonogram is suggested. The project domain analysis is given. The information systems logical model is constructed. The information system example is given. uk Інститут програмних систем НАН України №2-3 С. 650-656 Прикладне програмне забезпечення Розподілене комп’ютерне документування голосових мовних фонограм The speech phonograms distributed application Article published earlier |
| spellingShingle | Розподілене комп’ютерне документування голосових мовних фонограм Кривонос, Ю.Г. Крак, Ю.В. Бармак, О.В. Загваздін, О.С. Прикладне програмне забезпечення |
| title | Розподілене комп’ютерне документування голосових мовних фонограм |
| title_alt | The speech phonograms distributed application |
| title_full | Розподілене комп’ютерне документування голосових мовних фонограм |
| title_fullStr | Розподілене комп’ютерне документування голосових мовних фонограм |
| title_full_unstemmed | Розподілене комп’ютерне документування голосових мовних фонограм |
| title_short | Розподілене комп’ютерне документування голосових мовних фонограм |
| title_sort | розподілене комп’ютерне документування голосових мовних фонограм |
| topic | Прикладне програмне забезпечення |
| topic_facet | Прикладне програмне забезпечення |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/1498 |
| work_keys_str_mv | AT krivonosûg rozpodílenekompûternedokumentuvannâgolosovihmovnihfonogram AT krakûv rozpodílenekompûternedokumentuvannâgolosovihmovnihfonogram AT barmakov rozpodílenekompûternedokumentuvannâgolosovihmovnihfonogram AT zagvazdínos rozpodílenekompûternedokumentuvannâgolosovihmovnihfonogram AT krivonosûg thespeechphonogramsdistributedapplication AT krakûv thespeechphonogramsdistributedapplication AT barmakov thespeechphonogramsdistributedapplication AT zagvazdínos thespeechphonogramsdistributedapplication |