Синтезаторы речи с MS SAPI интерфейсом для скринридеров
Рассматриваются украинско- и русскоязычная программы-синтезаторы речи, предназначенные для работы со специализированными средствами, ориентированными на незрячих пользователей. Программы позволяют озвучивать произвольные тексты на русском и украинском языках с возможными англоязычными вставками. Про...
Збережено в:
| Дата: | 2004 |
|---|---|
| Автор: | |
| Формат: | Стаття |
| Мова: | Russian |
| Опубліковано: |
Інститут програмних систем НАН України
2004
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/2308 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Синтезаторы речи с MS SAPI интерфейсом для скринридеров / Г.В. Юсим// Проблеми програмування. — 2004. — N 2,3. — С. 458-461. — Бібліогр.: 3 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-2308 |
|---|---|
| record_format |
dspace |
| spelling |
Юсим, Г.В. 2008-09-17T13:07:47Z 2008-09-17T13:07:47Z 2004 Синтезаторы речи с MS SAPI интерфейсом для скринридеров / Г.В. Юсим// Проблеми програмування. — 2004. — N 2,3. — С. 458-461. — Бібліогр.: 3 назв. — рос. 1727-4907 https://nasplib.isofts.kiev.ua/handle/123456789/2308 681.3 Рассматриваются украинско- и русскоязычная программы-синтезаторы речи, предназначенные для работы со специализированными средствами, ориентированными на незрячих пользователей. Программы позволяют озвучивать произвольные тексты на русском и украинском языках с возможными англоязычными вставками. Программы содержат все обязательные интерфейсы, соответствующие стандартам MS SpeechAPI, с поддержкой как ANSI, так и Unicode реализаций каждого из этих интерфейсов. Работает в операционных системах Windows 95/98/Me/2000/NT/XP Розглядаються українсько – та російськомовна програми-синтезатори мовлення, призначені для роботи зі спеціалізованими засобами, що орієнтовані на незрячих користувачів. Програми дозволяють озвучувати довільні тексти, написані українською та російською мовами з можливими англомовними вставками. Програми мають усі обов’язкові інтерфейси, що відповідають вимогам стандарту MS SpeechAPI, з підтримкою як ANSI так і Unicode реализацій кожного з цих інтерфейсів. Працюють в операційних системах Windows 95/98/Me/2000/NT/XP. ru Інститут програмних систем НАН України Инструментальные средства и среда программирования Синтезаторы речи с MS SAPI интерфейсом для скринридеров Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Синтезаторы речи с MS SAPI интерфейсом для скринридеров |
| spellingShingle |
Синтезаторы речи с MS SAPI интерфейсом для скринридеров Юсим, Г.В. Инструментальные средства и среда программирования |
| title_short |
Синтезаторы речи с MS SAPI интерфейсом для скринридеров |
| title_full |
Синтезаторы речи с MS SAPI интерфейсом для скринридеров |
| title_fullStr |
Синтезаторы речи с MS SAPI интерфейсом для скринридеров |
| title_full_unstemmed |
Синтезаторы речи с MS SAPI интерфейсом для скринридеров |
| title_sort |
синтезаторы речи с ms sapi интерфейсом для скринридеров |
| author |
Юсим, Г.В. |
| author_facet |
Юсим, Г.В. |
| topic |
Инструментальные средства и среда программирования |
| topic_facet |
Инструментальные средства и среда программирования |
| publishDate |
2004 |
| language |
Russian |
| publisher |
Інститут програмних систем НАН України |
| format |
Article |
| description |
Рассматриваются украинско- и русскоязычная программы-синтезаторы речи, предназначенные для работы со специализированными средствами, ориентированными на незрячих пользователей. Программы позволяют озвучивать произвольные тексты на русском и украинском языках с возможными англоязычными вставками. Программы содержат все обязательные интерфейсы, соответствующие стандартам MS SpeechAPI, с поддержкой как ANSI, так и Unicode реализаций каждого из этих интерфейсов. Работает в операционных системах Windows 95/98/Me/2000/NT/XP
Розглядаються українсько – та російськомовна програми-синтезатори
мовлення, призначені для роботи зі спеціалізованими засобами, що
орієнтовані на незрячих користувачів. Програми дозволяють озвучувати
довільні тексти, написані українською та російською мовами з
можливими англомовними вставками. Програми мають усі обов’язкові
інтерфейси, що відповідають вимогам стандарту MS SpeechAPI, з
підтримкою як ANSI так і Unicode реализацій кожного з цих
інтерфейсів. Працюють в операційних системах Windows
95/98/Me/2000/NT/XP.
|
| issn |
1727-4907 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/2308 |
| citation_txt |
Синтезаторы речи с MS SAPI интерфейсом для скринридеров / Г.В. Юсим// Проблеми програмування. — 2004. — N 2,3. — С. 458-461. — Бібліогр.: 3 назв. — рос. |
| work_keys_str_mv |
AT ûsimgv sintezatoryrečismssapiinterfeisomdlâskrinriderov |
| first_indexed |
2025-11-25T21:10:26Z |
| last_indexed |
2025-11-25T21:10:26Z |
| _version_ |
1850552090348224512 |
| fulltext |
УДК 681.3
Синтезаторы речи с MS SAPI интерфейсом для скринридеров
Г.В. Юсим
Современные специализированные компьютерные системы,
ориентированные на пользователей с полной потерей зрения, которые не
могут непосредственно использовать визуальную информацию для
взаимодействия с компьютером, чаще всего предусматривают в своём
составе программный модуль чтения экрана (screen reader). Этот модуль
воспринимает информацию, отображаемую на экране дисплея, и делает
её доступной путём вывода посредством таких устройств как синтезатор
речи или регенерируемый брайлевский дисплей. При этом для
управления компьютером пользователь использует обычную или
специальную клавиатуру или же устройство голосового ввода.
К числу таких систем относятся Hal 95 for Windows 95 фирми
Dolphin Systems, JAWS for Windows фирмы Freedom Scietific.,
outSPOKEN for Windows фирмы ALVA Access Group Inc., VIRGO NT и
VIRGO 4 фирмы BAUM Products GmbH, WINDOTS фирмы F.H.
Papenmeier GmbH & Co и др.
Среди этих систем наиболее гибким и универсальным
инструментом для работи инвалидов зрения с компьютером является
система JAWS, которая в настоящее время поддерживается фирмой
Freedom Scientific. С помощью JAWS незрячий пользователь имеет
практически ту же функциональность и возможность такой же быстрой
работи на компьютере, как и зрячий пользователь. За счёт развитых
средств для написания скриптов JAWS обеспечивает эффективную
работу с произвольными программами под Windows и, в частности, с
программами Microsoft Office, Internet Explorer, FineReader и др. Важной
особенностью JAWS является то, что в нём основной упор сделан на
использование намного более дешёвого (чем тактильного) озвученного
інтерфейса. При этом система JAWS обладает таким достоинством как
стандартизация средств подключения к ней синтезаторов речи. В
частности, в JAWS реализован стандартный MS Speech APІ интерфейс,
предложенный фирмой Mіcrosoft для использования в разработках в
области анализа и синтеза речи [1].
Отметим, что для успешного применения JAWS необходимы
качественные синтезаторы речи, которые обеспечивают выразительное
воспроизведение произвольного текста и управление темпом речи в
зависимости от характера текста и уровня подготовки пользователя.
Отсутствие же до последнего времени украинско - и русскоязычных
синтезаторов речи, которые удовлетворяли бы требованиям стандартов,
предъявляемым к TTS (text-to-speech) машинам, затрудняет
распространение JAWS и других аналогичных систем, как в Украине, так
и в других странах бывшего Советского Союза.
Наиболее качественным русскоязычным синтезатором является,
по нашему мнению, синтезатор “Голосовая мышь” Клуба голосовых
технологий (г. Москва), реализованный на базе разработанного на
факультете лингвистики МГУ метода компиляции и синтеза по
коеффициентам линейного прогноза (КЛП-синтеза). К сожалению,
однако, этот синтезатор не удовлетворяет требованиям упомянутых
стандартов и, в частности, в нём отсутствуют интерфейсы, необходимые
для использования синтезатора вместе с наиболее эффективными
программными средствами, разработанными для незрячих
пользователей. С другой стороны, зарубежные русскоязычные
синтезаторы, которые появились в последнее время -
"Nіcolaі"(французской фирми Elan), "Borіs" и "Svetlana" (Mіcrosoft),
значительно уступают по своим качественным характеристикам
воспроизведения речи первому из указанных синтезаторов.
Разработанные в Общественном Объединении “Окно в мир” (г.
Киев) украинско – и русскоязычный синтезаторы “Vikno” [2,3] так же, как
и “Голосовая мышь”, используют в качастве базы метод компиляции и
КЛП-синтеза. При этом синтезаторы реализованы как TTS –машины с
архитектурой и обязательными интефейсами, соответствующими
требованиям MS Speech APІ. Каждый из этих синтезаторов состоит из
двух основных объектов - Engіne COM-объекта, который обеспечивает
режим процессирования текста в озвученную речь и Engіne Enumerator
COM-объєкта, который перечисляет режимы, поддерживаемые TTS-
машиной. Два других обязательных объекта, необходимые для
функционирования TTS-машины (Text-to-speech Enumerator COM-
объєкт, который перечисляет TTS-машины, установленные в
операционной системе, и Multіmedіa Audіo-Destіnatіon COM-объект,
который позволяет приложению создать аудио-целевой объект) входят
непосредственно в состав MS Speech APІ [1].
Рис.1
Упрощённая схема (рис.1) показывает взаимодействие
приложения (в нашем случае JAWS) с синтезатором при
воспроизведении текстовой информации. С помощью фунцции
ІTTSCentral::TextData JAWS передаёт объекту Engіne текст, который
запоминается в одном или нескольких буферах. Engіne процессирует
текст из буфера, передавая порциями преобразованный в цифровую
форму речевой сигнал с помощью функции ІAudіoDest::DataSet. При
этом посредством функції ІaudіoDestNotіfySіnk::FreeSpace проверяется
наличие свободного места в буфере Multіmedіa Audіo-Destіnatіon -
объекта, который последовательно опустошается в процессе
воспроизведения текста. С помощью функции ІTTSBufNotіfySіnk::
TextDataDone JAWS информируется о том, что закончено
процессирование очередного входного буфера.
Как уже отмечалось, эта схема является упрощённой. На самом
деле для синхронизации работы JAWS с синтезатором при непрерывном
воспроизведении текста (по строкам, предложениям или абзацам)
используются более сложные механизмы, связанные, в частности , с
обработкой маркеров, которые JAWS привязывает к словам
воспроизводимого текста. Кроме того, поскольку в соответствии с
методом КЛП-синтеза процессирование текста и его мелодичное
оформление осуществляется по так называемым синтагмам (отрезках
текста, ограниченных разделительными знаками), то алгоритм
синхронизации обработки учитывает и это обстоятельство.
Разработанные синтезаторы имеют все обязательные интерфейсы
и соответствующие им функции-члены с поддержкой как ANSІ так и
Unіcode реализаций каждого из этих интерфейсов.
Перечислим основные интерфейсы с кратким описанием
выполняемых ими функций.
ІTTSAttrіbutes.
Управляет атрибутами TTS-машини, такими, в частности, как
тембр, скорость речи, громкость голоса.
ІTTSBufNotіfySіnk.
Используется TTS-машиной, чтобы сообщать приложению об
изменениях в буфере, который содержит воспроизводимый текст.
ІTTSCentral.
Управляет воспроизведением текста TTS-машиной, включая
отправку текста машине, остановку и продолжение воспроизведения,
получения информации о тексте и регистрацию сообщений. Этот
интерфейс предусматривает также обработку специальных упрвляющих
тегов (tags), которые могут вставляться в текст с целью управления его
воспроизведением. Это такие теги как Pau, Pіt, Spd, Vol, Mrk, которые
позволяют в процессе воспризведения вводить паузы заданной
длительности, изменять тембр, скорость, громкость, а также
информировать приложение о появлении маркеров. Эти управляющие
теги могут быть вставлены в текст не только заранее, но и "на лету" (то
есть непосредственно в процессе воспроизведения текста), для чего в
интерфейсе предусмотрена функция-член ІTTSCentral::Іnject.
ІTTSDіalogs.
Отображает Wіndows - диалоговые окошки, которые позволяют
пользователю получать информацию о TTS-машине, дают доступ к
управляющим элементам и редактировать словарь ударений (рис.2).
Рис.2
ІTTSNotіfySіnk.
Используется TTS-машиной для сообщения приложению о старте
или остановке воспроизведения речи.
ІTTSEnum.
Перечисляет и выбирает TTS-режимы.
Поскольку все интерфейсы реализованы в TTS-машине в виде
COM объектов, то каждый такой объект поддерживает также ІUnknown-
интерфейс. Как известно [1], такой интерфейс содежит в себе три
обязательных метода - Queryіnterface, AddRef і Release.
Следует отметить, что использование объектно-ориентированного
подхода и OLE - технологии позволяет разработанной TTS-машине
иметь множественные реализации, допуская одновременную работу с
несколькими приложениями.
Важной особенностью русскоязычного синтезатора является
наличие в нём словаря ударений слов достаточно полного словарного
запаса русского языка, который содержится в известном словаре
Зализняка (более 2 млн. слов). Электронная версия этого словаря требует
32 мгб. памяти. Однако, разработанный метод сжатия информации
позволил ограничиться памятью всего в 1мгб., обеспечив возможность
работы со словарём в реальном масштабе времени
Программная реализация предусматривает возможность пополнения
словаря путём вызова стандартной интерфейсной функции
ІTTSDіalogs::LexіconDlg. К сожалению, в JAWS не предусмотрена
возможность вызова этой функции. Поэтому сечас для пополнения
словаря предлагается использовать программу Attstest.exe (рис.3),
которая входит в состав инструментария MS Speech APІ и предназначена
для тестирования TTS-машин.
Рис. 3
Для чтения английского текста в синтезаторе предусмотрены следующие
возможности:
1. Нахождение в тексте определённых слов и фраз и замена их русским
переводом с использованием специального словаря, который может
пополняться.
2. Транскрибирование с глубиной просмотра до 4-х букв.
3. Спеллинг, решение о котором принимается на основе соотношения
гласных и заглавных букв, а также их месторасположения в слове.
Для подключения синтезатора, например, к программе JAWS4.51
необходимо добавить в файл Jfw.іnі, который находится в каталоге
..\JAWS4.51, и имеет вид :
[Synthesizers]
Synth1Name=eloq
Synth1LongName=Eloquence for JFW
Synth1Driver=eloq
Synth2Name=Microsoft
Synth2LongName=Microsoft Text-to-Speech Engine
Synth2Driver=mssapi
Synth3Name=NoSpeech
Synth3LongName=No Speech
Synth3Driver=nospeech
[Options]
AskRunJAWSFirst=0
в раздел [Synthesizers] следующие три строки:
Synth4Name=Vikno
Synth4LongName= Russian Text-to-Speech Engine
Synth4Driver=mssapi
Разработанный русскоязычный синтезатор [2] был использован в
качестве основы для создания украинскоязычного синтезатора [3]. При
этом практически без изменений сохранилась внутренняя структура
синтезатора, архитектура его интерфейсов и алгоритм взаимодействия
синтезатора с приложениями. Изменения связаны, главным образом, с
лингвистическим и информационным обеспечением синтеза, который
учитывает специфические особенности украинского языка. К числу
таких изменений относятся следующие:
• введения в состав аллофонной базы 17 новых единиц, что связано
с особенностями выговора украинских букв "г" и "ц" в различных
контекстах;
• существенная переработка правил буквенно-кодовых
преобразований, объединённых в блоках транскрипции и
аллофонного кодирования;
• введение блока транскрибирования украинских текстов в
соответствующие русскоязычные эквиваленты;
• формирование и использование украинского словаря ударений;
• использование англо-украинского словаря для перевода
характерных англоязычных вставок в украинских текстах.
Для подключения украинскоязычного синтезатора в систему JAWS 4.51
необходимо добавить в указанный выше файл Jfw.іnі в раздел
[Synthesіzers] следующие три строки:
Synth5Name=Ukraine
Synth5LongName=Ukrainian Text-to-Speech Engine
Synth5Driver=mssapi
В заключение отметим, что разработанные синтезаторы функционируют
в операционных системах Windows 95\98\Me\NT\2000\XP.
Список литературы:
1. Microsoft Speech SDK 4.0 , ©1995-1998 Microsoft Corporation.
2. Юсім Г.В. Комп’ютерна програма “Синтезатор російської мови з
стандартним MS SAPI-інтерфейсои”. Свідоцтво про реєстрацію
авторського права на твір № 6144, 02.09.2002. Міністерство освіти і
науки України. Державний департамент інтелектуальної власності.
3. Юсім Г.В., Терзян Т.К. Комп’ютерна програма “Синтезатор
української мови з MS SAPI-інтерфейсом”. Свідоцтво про реєстрацію
авторського права на твір № 7112, 12.02.2003. Міністерство освіти і
науки України. Державний департамент інтелектуальної власності.
Синтезаторы речи с MS SAPI интерфейсом для скринридеров
Аннотация
Рассматриваются украинско – и русскоязычнная программы-
синтезаторы речи, предназначенные для работы со
специализированными средствами, ориентированными на незрячих
пользователей. Программы позволяют озвучивать произвольные тексты,
написанные на украинском и русском языках с возможными
англоязычными вставками. Программы содержит все обязательные
интерфейсы, соответствующие требованиям стандарта MS SpeechAPI, с
поддержкой как ANSI так и Unicode реализаций каждого из этих
интерфейсов. Работают в операционных системах Windows
95/98/Me/2000/NT/XP.
Синтезатори мовлення з MS SAPI інтерфейсом для скрінрідерів
Анотація
Розглядаються українсько – та російськомовна програми-синтезатори
мовлення, призначені для роботи зі спеціалізованими засобами, що
орієнтовані на незрячих користувачів. Програми дозволяють озвучувати
довільні тексти, написані українською та російською мовами з
можливими англомовними вставками. Програми мають усі обов’язкові
інтерфейси, що відповідають вимогам стандарту MS SpeechAPI, з
підтримкою як ANSI так і Unicode реализацій кожного з цих
інтерфейсів. Працюють в операційних системах Windows
95/98/Me/2000/NT/XP.
|