Friday, November 22

Spotify está doblando sus podcasts con IA y las voces de sus creadores. El resultado es alucinante

Whisper, de OpenAI, transcribe y traduce los podcasts, pero la magia está en la síntesis de voz que hace uso del tono y timbre de la voz original

Fuente: Xataka

Cuando uno ve una serie o película en otros idiomas, los subtítulos solucionan la papeleta si no entiende muy bien (o nada) esos idiomas. Eso es imposible hacerlo en los podcasts porque no hay subtítulos, pero la inteligencia artificial acaba de dar una solución que ya habíamos perfilado previamente. Una que han aprovechado en Spotify con resultados alucinantes.

Traducido con IA. Spotify ha anunciado que ha comenzado a ofrecer el doblaje automático de algunos podcasts para permitir que un podcast que por ejemplo está en inglés pueda ser escuchado en español o cualquier otro idioma que consideren interesante para esta oferta.

Todo gracias a OpenAI. Para realizar el proceso, en Spotify se han aliado con OpenAI, los creadores de ChatGPT. En este caso han utilizado otra de sus excepcionales herramientas, Whisper, que transcribe de voz a texto pero también es capaz de completar traducciones. Así es como cada podcast obtiene un texto en idioma original (por ejemplo, en inglés) y luego lo traduce a otro texto en el idioma objetivo a traducir y doblar (por ejemplo, español).

La misma voz, pero traducida. El último paso es el más sorprendente: ese texto en español (en nuestro ejemplo) se vuelve a convertir en voz gracias a la síntesis de un sistema de IA, pero aquí lo realmente llamativo es que la voz usada es la de quien hablaba en el podcast. El resultado: el creador del podcast aparece hablando en español con su mismo timbre y tono de voz.

Resultados sorprendentemente convincentes. Lo alucinante es que el resultado es realmente convincente, y parece que esos podcasts han sido grabados por alguien que de hecho habla en español. En los ejemplos publicados por ahora se usa español de México, y durante el doblaje se traduce lo que dicen sus participantes, pero además se trata de ajustar el tono —como cuando muestran sorpresa o exclaman durante los programas— y forma de hablar de esos protagonistas en cada momento. La idea es ciertamente llamativa a la hora de abrir aún más el público objetivo de estos podcasts.

Por ahora, un piloto. El proyecto está de momento en fase piloto y para dichos inicios han seleccionado algunos de los podcasts más populares de la plataforma en inglés: Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons y Steven Bartlett disponen de episodios de sus podcasts —que originalmente han sido grabados en inglés— en español, francés y alemán.

Disponibles para todos. Estos episodios traducidos y doblados por una IA estarán disponibles en todo el mundo tanto para usuarios Premium como para usuarios de la versión gratuita de Spotify. De momento están ofreciendo tres episodios concretos de tres de estos podcasters (Lex FridmanArmchair ExpertSteven Barlett) y solo con su doblaje por IA al español, pero indican que se ofrecerán más episodios en español y los citados francés y alemán “en los próximos días y semanas”..

Cómo disfrutarlos. Los usuarios de Spotify podrán disfrutar de esta opción en la “Vista Sonando” (“Now Playing”) que suele estar seleccionada por defecto. Allí aparecerá una opción para poder cambiar de idioma, y si estamos interesados en el futuro de esta opción, podemos dirigirnos al Centro de Traducciones de Voz, que irá mostrando los capítulos que se van traduciendo.

Un uso excelente para una tecnología que tiene sus riesgos. Los propios responsables de OpenAI hablaban de esta opción en su blog hoy e indicaban que estas capacidades “plantean nuevos riesgos, como el potencial de que actores maliciosos suplanten a figuras públicas o cometan fraudes“. Hemos visto como este tipo de opción ha sido usado recientemente para publicar vídeos y memes virales de Torrente o el Fary hablando en inglés, y precisamente hay un importante debate sobre cómo el acceso a esta tecnología puede plantear un futuro lleno de peligrosos deepfakes de audio. De momento, eso sí, esta es una aplicación realmente interesante de esta tecnología, y de hecho en YouTube ya comenzaron a hacer algo así en algunos canales muy conocidos esta primavera. Estamos, pues, ante una tendencia que parece coger fuerza. 

Leave a Reply

Your email address will not be published. Required fields are marked *