Один из стартапов в США представил результаты своей годовой работы – систему ИИ, которая может преобразовать несколько строк текста в аудиофайл. Однако даже экспертам будет весьма трудно отличить эту созданную компьютером запись от речи реального, живого человека.
Используемые сейчас в мире системы преобразования текста в речь отличаются «роботизированным» голосом, при этом данная особенность присуща практически всем системам, имеющимся на рынке – от голосовых помощников, до систем навигации в автомобилях. Новый стартап из США задумал решить эту проблему, и за год программисты из Сиэтла создали систему ИИ, которая научилась говорить как человек. За основу были взяты голоса актеров, которые надиктовали множество статей из википедии, в чем нет ничего необычного, но то как система произносит текст, является ее изюминкой, выгодно отличающей WSLTTS от других подобных программных решений. Для демонстрации возможностей «движка» TTS компания озвучила заголовок и первый абзац оригинала статьи с сайта CNN.
Мало кто сможет отличить данную запись, созданную компьютерной системой, от человеческой речи, уверяют разработчики. При этом авторы разработки говорят, что их система не предназначена для озвучивания большого объема информации: к примеру, на трансформацию этого небольшого кусочка, прозвучавшего выше, текста ушло 4 секунды. Но главное в TTS то, что она никогда не озвучит один и тот же текст одинаково – результат всегда будет отличаться скоростью, интонацией, паузами и другими нюансами, которыми ранее владел только человек, но теперь это уже в прошлом.