»спользование голосов MBROLA в среде MS Windows

ƒата публикации:2009
Twitter Facebook Vkontakte

„“ќ “ј ќ≈ MBROLA

MBROLA - это особый алгоритм синтеза речи, на основе которого создано множество различных программных продуктов с включением технологии Text To Speech, распростран€емых без взимани€ какой-либо платы, однако не как Open Source, а лишь в бинарной форме.

Ќа официальном сайте проекта доступно множество дифонных баз данных дл€ значительного числа распространЄнных разговорных €зыков.

MBROLA не €вл€етс€ программным обеспечением дл€ реализации полного преобразовани€ текста в речь; обрабатываемые тексты должны быть сначала преобразованы в фонемы, потом к ним должна быть добавлена просодическа€ информаци€ об общей интонации синтезируемой речи в специальном формате MBROLA, а далее все эти данные должно обработать отдельное программное обеспечение, чтобы уже в готовом виде передать специально отформатированную информацию на звуковой выход, также дл€ работы с некоторыми €зыками может понадобитьс€ дополнительна€ настройка.

’от€ MBROLA и построен по технологии дифонного синтеза, но в итоге качество речи будет выше, чем у большинства прочих дифонных синтезаторов. Ёто отчасти объ€сн€етс€ тем, что MBROLA основан на принципе предварительной обработке дифонов, то есть звуковых сегментов речи, который заключаетс€ в использовании посто€нного шага и гармонических фаз, что повышает их конкатенацию, то есть плавную склейку на выходе звука. ’от€ это и несколько ухудшает их сегментарное качество, но в целом улутшает общее звучание синтезируемой речи.

MBROLA €вл€етс€ рекордсменом среди прочих технологий синтеза речи по количеству различных €зыков, дл€ которых он использовалс€. ’от€ дл€ некоторых распространЄнных €зыков MBROLA голоса не созданы до сих пор.

»—ѕќЋ№«ќ¬јЌ»≈ MBROLA ¬ —–≈ƒ≈ ќѕ≈–ј÷»ќЌЌќ… —»—“≈ћџ MICROSOFT WINDOWS

 ак уже было сказано, помимо самой дифонной базы, дл€ использовани€ MBROLA требуетс€ р€д дополнительных программных компонентов. ƒл€ операционной системы MS Windows потребуютс€:

  1. —интезатор eSpeak Win, на плечи которого ложитс€ преобразование текста в запись фонетического алфавита и поддержка работы MBROLA через интерфейсы SAPI5.  стати, благодар€ многоплатформенности eSpeak, св€зку eSpeak + MBROLA можно с успехом использовать и в GNU/Linux.
  2.  омпонент MbrolaTools [1,77 MB], обеспечивающий непосредственно работу с дифонной базой.
  3. ƒифонна€ база одного из голосов MBROLA. ƒифонные голоса дл€ различных €зыков доступны по ссылке: www.tcts.fpms.ac.be/synthesis/mbrola/mbrcopybin.html.

”—“јЌќ¬ ј » Ќј—“–ќ… ј

”становка и настройка всех компонентов MBROLA дл€ дальнейшего использовани€ в среде MS Microsoft €вл€етс€ относительно долгим и кропотливым процессом, который состаит из нескольких последовательных шагов.

1. ƒл€ начало требуетс€ установить синтезатор eSpeak, чтобы в дальнейшем с его помощью использовать MBROLA через SAPI5. ≈сли на компьютере уже установлен eSpeak, то не об€зательно его удал€ть, достаточно сново запустить мастер установки и переписать список голосов с учЄтом добавлени€ MBROLA. ѕодробнее об установке eSpeak читайте в "»нструкции по установке синтезатора речи eSpeak".

Ќа этапе прописывани€ устанавливаемых голосов требуетс€ указать использование MBROLA. ƒанна€ запись имеет формат "mb-xxx" (без кавычек), где "xxx" - это индекс голоса MBROLA, который вы подключаете. Ќапример, один из британских английских голосов MBROLA имеет индекс "en1", таким образом при установки eSpeak следует указывать "mb-en1". ¬ остальном процесс установки eSpeak ничем не отличаетс€ от обычного.

2. —ледующем шагом станит установка компонента MbrolaTools. ≈го установка не вызовет никаких серьезных затруднений. ƒостаточно согласитьс€ со всеми параметрами по умолчанию, или при необходимости изменить их с учЄтом своих потребностей.

3. “ретьим шагом €вл€етс€ подключение дифонной базы голоса MBROLA. Ќа сайте они доступны в виде ZIP-архива, который надо распаковать, а данные из него поместить в папку eSpeak. ѕри стандартной установки - это директори€ C:\Program Files\eSpeak\espeak-data\mbrola\ (в зависимости от настроек операционной системы буква диска может быть другой). ≈сли в процессе установки eSpeak был указан путь, отличный от стандартного, то данные архива следует поместить по соответствующему пути. —охранив путь внутри самой папки eSpeak ("...\eSpeak\espeak-data\mbrola\"). ќбратите внимание, что внутри архива содержитс€ папка с данными дифонной базы. ¬ случаи голоса en1, это папка "en1", внутри которой наход€тс€ другие папки и файлы. ¬ системный каталог eSpeak следует копировать именно содержимое этой папки, а не саму папку целиком. ¬ противном случаи данна€ голосова€ база не будет найдена, и еЄ использование станит невозможно.

4. „етвЄртым и последним шагом €вл€етс€ активаци€ установленного голоса в программах, поддерживающих работу с SAPI5, путЄм обычного выбора соответствующего диктора. Ёто может быть как программа экранного доступа, пункт "–ечь" в меню операционной системы или люба€ друга€ TTS-программа.  ак правила, в меню выбора диктора SAPI5 MBROLA голоса отображаютс€ как "MB-xxx", то есть в случаи рассмотренного выше примера, как "MB-EN1", но могут быть и исключени€.

ќ—ќЅ≈ЌЌќ—“» –јЅќ“џ

eSpeak совместно с MbrolaTools обеспечивают корректную обработку фонем и просодического алгоритма, которые MBROLA затем использует дл€ генерации звука речи. ƒл€ полноценного использовани€ голосов MBROLA, eSpeak нуждаетс€ в информации дл€ перевода из собственной фонемной базы в эквивалент базы MBROLA. ƒанна€ синхронизаци€ была проведена лишь дл€ некоторых голосов MBROLA, поэтому возможны случаи, когда отдельные голоса не будут работать из под eSpeak.

[ ќбсудить в форуме | —одержание раздела ]

–аспространение материалов сайта означает, что распространитель прин€л услови€ лицензионного соглашени€.
»де€ и реализаци€: © ¬ладимир ƒовыденков и јнатолий  амынин,  2004-2021