О сходстве головы и задницы

angry emoticon

И тем и другим можно издавать звуки. Различие же головы и задницы в том, что головой можно воспринимать звуки, а задницей затруднительно. И современный компьютер более напоминает задницу чем голову. Это я к тому, что перспектива вручную расставлять фонемы в километровых монологах меня не прельщает, и чтобы избежать ее, мне требуется распознаватель (а не синтезатор) русской речи под MS SAPI 5.1.

Раньше я страдал от синтеза речи, теперь страдаю от распознавания… Многочасовое копание в сети показывает, что:

  1. Существует ровно один движок распознавания русской речи под SAPI. Его якобы сделала компания с сакраментальным названием «Сакрамент». Якобы, потому что приобрести его штатным порядком невозможно, в их ценнике его нет, и сколько они могут содрать за него даже думать боязно.
  2. Микрософт считает что достаточно сделать английский, японский и китайский распознаватели, а дальше вы как-нибудь сами. Впрочем, подобным же свинством они отличились и когда распознавали рукописный текст, так что тут ничего нового нет.
  3. Существует некая система «Горыныч» якобы изготовленная некоей компанией “VoiceLock”. Якобы изготовленная, потому что более ранние упоминания о ней говорят, что это скорее всего хак Dragon Dictate. Сайт у компании напрочь отсутствует, хотя диски с программой продаются аж на Озоне, поэтому выяснить достоверно, порождает ли установка программы движок распознавания в списке SAPI или нет — невозможно.

При этом самых разнообразных дурносинтезаторов русской речи дохера, в том числе в исполнении вышеупомянутой «Сакрамент» только нафиг мне не сдались синтезаторы под винду.

Вопрос о том, расставляли ли все фонемы в русском дубляже Half-Life Episode 2 вручную, остается открытым. Написать им, чтоли…

update: Возможно, фокус не пройдет даже если мне удастся добыть такой распознаватель. Судя по внутренностям оригинального звука и русского дубляжа, фонемы для русского дубляжа расставляли каким-то совершенно иным софтом, который не пишет в исходный вав никаких сведений о произносимой фразе, и не делит ее на слова.

Вопрос только в том, автоматически это делалось или нет. Тупой генератор данных фонем из русской письменной фразы, подставляющий некие дефолтные значения для длительностей, которые потом надо было бы двигать ручками, написать несложно…

update 2 — update strikes back: Обнаружено достоверно что поддерживающий SAPI 5.1 распознаватель русской речи меня таки спасет. Обнаружено также что теоретически есть в природе Vocative Russian ASR Engine, но тоже только теоретически — его нельзя ни скачать ни пронаблюдать в демо-версии, и как и Сакраментовский, вероятно, он продается только телекомам за неприличные деньги. Горыныч, судя по различным интервью и прочей мути, ничего кроме SAPI 4.0 не поддерживает, что сделает его добычу бессмысленной.

Повбывав бы гадов.