Использование голосов MBROLA в среде MS Windows

Дата публикации:2009
Twitter Facebook Vkontakte

ЧТО ТАКОЕ MBROLA

MBROLA - это особый алгоритм синтеза речи, на основе которого создано множество различных программных продуктов с включением технологии Text To Speech, распространяемых без взимания какой-либо платы, однако не как Open Source, а лишь в бинарной форме.

На официальном сайте проекта доступно множество дифонных баз данных для значительного числа распространённых разговорных языков.

MBROLA не является программным обеспечением для реализации полного преобразования текста в речь; обрабатываемые тексты должны быть сначала преобразованы в фонемы, потом к ним должна быть добавлена просодическая информация об общей интонации синтезируемой речи в специальном формате MBROLA, а далее все эти данные должно обработать отдельное программное обеспечение, чтобы уже в готовом виде передать специально отформатированную информацию на звуковой выход, также для работы с некоторыми языками может понадобиться дополнительная настройка.

Хотя MBROLA и построен по технологии дифонного синтеза, но в итоге качество речи будет выше, чем у большинства прочих дифонных синтезаторов. Это отчасти объясняется тем, что MBROLA основан на принципе предварительной обработке дифонов, то есть звуковых сегментов речи, который заключается в использовании постоянного шага и гармонических фаз, что повышает их конкатенацию, то есть плавную склейку на выходе звука. Хотя это и несколько ухудшает их сегментарное качество, но в целом улутшает общее звучание синтезируемой речи.

MBROLA является рекордсменом среди прочих технологий синтеза речи по количеству различных языков, для которых он использовался. Хотя для некоторых распространённых языков MBROLA голоса не созданы до сих пор.

ИСПОЛЬЗОВАНИЕ MBROLA В СРЕДЕ ОПЕРАЦИОННОЙ СИСТЕМЫ MICROSOFT WINDOWS

Как уже было сказано, помимо самой дифонной базы, для использования MBROLA требуется ряд дополнительных программных компонентов. Для операционной системы MS Windows потребуются:

  1. Синтезатор eSpeak Win, на плечи которого ложится преобразование текста в запись фонетического алфавита и поддержка работы MBROLA через интерфейсы SAPI5. Кстати, благодаря многоплатформенности eSpeak, связку eSpeak + MBROLA можно с успехом использовать и в GNU/Linux.
  2. Компонент MbrolaTools [1,77 MB], обеспечивающий непосредственно работу с дифонной базой.
  3. Дифонная база одного из голосов MBROLA. Дифонные голоса для различных языков доступны по ссылке: www.tcts.fpms.ac.be/synthesis/mbrola/mbrcopybin.html.

УСТАНОВКА И НАСТРОЙКА

Установка и настройка всех компонентов MBROLA для дальнейшего использования в среде MS Microsoft является относительно долгим и кропотливым процессом, который состаит из нескольких последовательных шагов.

1. Для начало требуется установить синтезатор eSpeak, чтобы в дальнейшем с его помощью использовать MBROLA через SAPI5. Если на компьютере уже установлен eSpeak, то не обязательно его удалять, достаточно сново запустить мастер установки и переписать список голосов с учётом добавления MBROLA. Подробнее об установке eSpeak читайте в "Инструкции по установке синтезатора речи eSpeak".

На этапе прописывания устанавливаемых голосов требуется указать использование MBROLA. Данная запись имеет формат "mb-xxx" (без кавычек), где "xxx" - это индекс голоса MBROLA, который вы подключаете. Например, один из британских английских голосов MBROLA имеет индекс "en1", таким образом при установки eSpeak следует указывать "mb-en1". В остальном процесс установки eSpeak ничем не отличается от обычного.

2. Следующем шагом станит установка компонента MbrolaTools. Его установка не вызовет никаких серьезных затруднений. Достаточно согласиться со всеми параметрами по умолчанию, или при необходимости изменить их с учётом своих потребностей.

3. Третьим шагом является подключение дифонной базы голоса MBROLA. На сайте они доступны в виде ZIP-архива, который надо распаковать, а данные из него поместить в папку eSpeak. При стандартной установки - это директория C:\Program Files\eSpeak\espeak-data\mbrola\ (в зависимости от настроек операционной системы буква диска может быть другой). Если в процессе установки eSpeak был указан путь, отличный от стандартного, то данные архива следует поместить по соответствующему пути. Сохранив путь внутри самой папки eSpeak ("...\eSpeak\espeak-data\mbrola\"). Обратите внимание, что внутри архива содержится папка с данными дифонной базы. В случаи голоса en1, это папка "en1", внутри которой находятся другие папки и файлы. В системный каталог eSpeak следует копировать именно содержимое этой папки, а не саму папку целиком. В противном случаи данная голосовая база не будет найдена, и её использование станит невозможно.

4. Четвёртым и последним шагом является активация установленного голоса в программах, поддерживающих работу с SAPI5, путём обычного выбора соответствующего диктора. Это может быть как программа экранного доступа, пункт "Речь" в меню операционной системы или любая другая TTS-программа. Как правила, в меню выбора диктора SAPI5 MBROLA голоса отображаются как "MB-xxx", то есть в случаи рассмотренного выше примера, как "MB-EN1", но могут быть и исключения.

ОСОБЕННОСТИ РАБОТЫ

eSpeak совместно с MbrolaTools обеспечивают корректную обработку фонем и просодического алгоритма, которые MBROLA затем использует для генерации звука речи. Для полноценного использования голосов MBROLA, eSpeak нуждается в информации для перевода из собственной фонемной базы в эквивалент базы MBROLA. Данная синхронизация была проведена лишь для некоторых голосов MBROLA, поэтому возможны случаи, когда отдельные голоса не будут работать из под eSpeak.

[ Обсудить в форуме | Содержание раздела ]

Распространение материалов сайта означает, что распространитель принимает условия лицензионного соглашения.
Идея и реализация: © Владимир Довыденков и Анатолий Камынин,  2004-2017
Rambler's Top100