Почти дубляж: Яндекс научился многоголосому переводу YouTube-видео

Помните нейросеть Яндекса, которая переводила зарубежные видео на лету? Компания «прокачала» её, научив ещё большим трюкам.

Так, теперь пользователи Яндекс.Браузера могут смотреть ролики на английском языке с многоголосым закадровым переводом на русский.

Если изначально технология использовала два синтезированных голоса для перевода речи — один мужской и один женский — то теперь голосов двенадцать. По шесть на каждый из полов.

Сообщается, что нейросеть «раздаёт» голоса разным спикерам, после чего «запоминает» их с помощью созданных внутри Яндекса ИИ-моделей.

Причём работает это всё достаточно многослойно: сначала одна нейросеть переводит речь в текст, восстанавливает пунктуацию и определяет границы предложений, а затем другая анализирует спектрограмму голоса и отмечает фрагменты, сказанные разными людьми.