La revolución de las voces: cómo la inteligencia artificial está transformando el text-to-speech con emociones y sonidos personalizados

La tecnología de text to speech (TTS) ha recorrido un largo camino en las últimas décadas. Ya no estamos hablando de voces robóticas y monótonas que apenas son inteligibles, sino de voces que son casi indistinguibles de las de un ser humano real. Y ahora, con el uso de inteligencia artificial, las voces pueden incluso expresar emociones y hablar en varios idiomas.

En este artículo, exploraremos algunas de las mejores inteligencias artificiales de TTS disponibles en la actualidad, desde el altamente aclamado NaturalSpeech2 hasta el divertido y poderoso AudioLM. Descubriremos cómo estas tecnologías están cambiando la forma en que escuchamos y comprendemos el lenguaje y cómo están ayudando a personas con discapacidades visuales y del habla.

Además, este artículo no se limitará a ser un aburrido informe técnico. Añadiremos un toque de humor a lo largo del camino, porque, después de todo, ¿quién dijo que la tecnología tenía que ser aburrida?

NaturalSpeech2: La voz más realista

NaturalSpeech2 es un modelo de TTS altamente avanzado que ha recibido numerosas críticas positivas por su calidad de voz realista. Aunque el código no es público, la demo está disponible para su uso en su sitio web.

La demo es impresionante. La voz generada por NaturalSpeech2 es tan realista que, si lo escuchas con los ojos cerrados, podrías pensar que es una persona real hablando. El modelo es capaz de expresar una amplia variedad de emociones, incluyendo felicidad, tristeza, sorpresa, miedo y más.

Puedes escuchar varias demostraciones en https://speechresearch.github.io/naturalspeech2/

El código todavía no está publicado, aunque ¡buenas noticias! Pronto lo estará y lo podrás utilizar desde tu ordenador. Actualmente, el desarrollador lucidrains está replicando el proyecto de Natural Speech 2 a traves del paper publicado por microsoft. Puedes ver las últimas actualizaciones aquí: https://github.com/lucidrains/naturalspeech2-pytorch

En resumen, NaturalSpeech2 es una excelente opción para aquellos que buscan una voz realista y emocionalmente expresiva en su TTS.

Vall-e y vall-ex: Excelente calidad de voz y código abierto

Si bien Vall-e y vall-ex no son tan conocidos como NaturalSpeech2, son excelentes opciones en su propia categoría. Vall-e es un modelo de TTS que genera voces de alta calidad en varios idiomas, incluyendo inglés, alemán, francés, español y más.

Una de las mayores ventajas de Vall-e es que su código es de código abierto y, por lo tanto, está disponible para todos los desarrolladores aquí: https://github.com/lifeiteng/vall-e . Esto significa que cualquier persona con experiencia en programación puede modificar el modelo para satisfacer sus necesidades específicas.

Vall-ex es una extensión de Vall-e que se centra en la expresión de emociones en las voces generadas. Aunque aún no se ha lanzado, el modelo promete ofrecer una calidad de voz emocionalmente expresiva similar a la de NaturalSpeech2.

Ya tienes disponibles una serie de demostraciones que puedes escuchar en: https://lifeiteng.github.io/valle/index.html

En resumen, Vall-e y vall-ex son excelentes opciones para aquellos que buscan una calidad de voz de alta calidad y la capacidad de personalizar su TTS.

Bark: es capaz de hablar por ti en múltiples idiomas con tu misma voz simulando tu acento de extranjero.

Bark es una inteligencia artificial de Text-to-Speech (TTS) que no solo puede generar voces multilingües de gran realismo, sino que también puede generar otros tipos de sonido, como música, ruido de fondo y efectos sonoros sencillos. Bark ha sido desarrollado por Suno AI, una empresa que se dedica a la investigación y desarrollo de tecnologías de audio y voz basadas en inteligencia artificial.

Lo que hace que Bark sea especialmente interesante es su capacidad para generar música a partir de texto. En lugar de tener que escribir partituras complejas, los usuarios pueden simplemente escribir el texto de una canción, y Bark se encarga de crear la musicalidad en la voz correspondiente.

Además de la música, Bark también puede generar ruido de fondo y efectos sonoros sencillos. Esto es muy útil para la creación de contenido multimedia, ya que permite a los usuarios generar sonidos de ambiente y efectos de sonido personalizados para sus vídeos, podcasts y otros tipos de contenido.

Tienes disponible el código fuente y una serie de demostraciones en este enlace: https://github.com/suno-ai/bark

Otra característica interesante de Bark es que puede generar voces en múltiples idiomas con una calidad de sonido muy alta. Esto es especialmente útil para aquellos que necesitan generar contenido en varios idiomas, como empresas internacionales o creadores de contenido en línea que quieren llegar a una audiencia global.

AudioLM: la inteligencia artificial que no solo habla, sino que también canta y reproduce sonidos personalizados

AudioLM no solo puede generar voces multilingües de alta calidad, sino que también incluye un prompt tipo chat GPT, donde el usuario puede pedir que se reproduzca un sonido con ciertas características, como “chirrido de pájaros y ecos lejanos de campanas”, y AudioLM lo reproducirá. Esto es muy útil para aquellos que necesitan generar efectos de sonido personalizados o sonidos ambientales para sus proyectos multimedia.

Además, AudioLM también cuenta con la capacidad de generar diferentes emociones en las voces que crea. Al igual que con Vall-e y Vall-ex, el usuario puede elegir la emoción que desea que se exprese en la voz generada. Estas emociones incluyen risa, llanto, tristeza, sorpresa, disgusto, somnolencia y muchas más.

Una de las características más impresionantes de AudioLM es su capacidad para generar voces personalizadas. Los usuarios pueden entrenar el modelo con su propia voz para crear una versión sintética de la misma. Esto es muy útil para aquellos que desean crear contenido multimedia utilizando su propia voz, pero que no tienen el tiempo o los recursos para grabar toda la narración ellos mismos.

Dispones del código fuente aquí: https://github.com/lucidrains/audiolm-pytorch

En resumen, tanto Bark, NaturalSpeech2 y AudioLM son ejemplos impresionantes de las tecnologías de síntesis de voz que están disponibles hoy en día. Cada uno ofrece características únicas y avanzadas, lo que hace que sean muy útiles para una variedad de proyectos multimedia.