La revolució de les veus: com la intel·ligència artificial està transformant el text-to-speech amb emocions i sons personalitzats

La tecnologia de text to speech (TTS) ha recorregut un llarg camí en les darreres dècades. Ja no estem parlant de veus robòtiques i monòtones que gairebé no són intel·ligibles, sinó de veus que són gairebé indistingibles de les d’un ésser humà real. I ara, amb l’ús d’intel·ligència artificial, fins i tot les veus poden expressar emocions i parlar-se en diversos idiomes.

En aquest article, explorarem algunes de les millors intel·ligències artificials de TTS disponibles actualment, des de l’altament aclamat NaturalSpeech2 fins al divertit i poderós AudioLM. Descobrirem com aquestes tecnologies estan canviant la manera com escoltem i comprenem el llenguatge i com estan ajudant persones amb discapacitats visuals i de la parla.

A més, aquest article no es limitarà a ser un informe tècnic avorrit. Afegirem un toc d’humor al llarg del camí perquè, després de tot, qui va dir que la tecnologia havia de ser avorrida?

NaturalSpeech2: La veu més realista

NaturalSpeech2 és un model de TTS altament avançat que ha rebut nombroses crítiques positives per la qualitat de veu realista. Encara que el codi no és públic, la demo està disponible per al seu ús al vostre lloc web.

La demo és impressionant. La veu generada per NaturalSpeech2 és tan realista que, si ho escoltes amb els ulls tancats, podries pensar que és una persona real parlant. El model és capaç dexpressar una àmplia varietat democions, incloent felicitat, tristesa, sorpresa, por i més.

Pots escoltar diverses demostracions a https://speechresearch.github.io/naturalspeech2/

El codi encara no està publicat, encara que bones notícies! Aviat ho estarà i ho podràs fer servir des del teu ordinador. Actualment, el desenvolupador lucidrains està replicant el projecte de Natural Speech 2 a través del paper publicat per microsoft. Pots veure les darreres actualitzacions aquí: https://github.com/lucidrains/naturalspeech2-pytorch

En resum, NaturalSpeech2 és una excel·lent opció per a aquells que busquen una veu realista i emocionalment expressiva a la seva TTS.

Vall-e i vall-ex: Excel·lent qualitat de veu i codi obert

Si bé Vall-e i vall-ex no són tan coneguts com NaturalSpeech2, són excel·lents opcions a la seva pròpia categoria. Valle és un model de TTS que genera veus d’alta qualitat en diversos idiomes, incloent anglès, alemany, francès, espanyol i més.

Un dels avantatges més grans de Vall-e és que el seu codi és de codi obert i, per tant, està disponible per a tots els desenvolupadors aquí: https://github.com/lifeiteng/vall-e . Això significa que qualsevol persona amb experiència en programació pot modificar el model per satisfer les necessitats específiques.

Vall-ex és una extensió de Vall-e que se centra en l’expressió d’emocions a les veus generades. Tot i que encara no s’ha llançat, el model promet oferir una qualitat de veu emocionalment expressiva semblant a la de NaturalSpeech2.

Ja tens disponibles una sèrie de demostracions que pots escoltar a: https://lifeiteng.github.io/valle/index.html

En resum, Vall-e i vall-ex són excel·lents opcions per a aquells que busquen una qualitat de veu dalta qualitat i la capacitat de personalitzar el seu TTS.

Bark: és capaç de parlar per tu en múltiples idiomes amb la teva veu simulant el teu accent d’estranger.

Bark és una intel·ligència artificial de Text-to-Speech (TTS) que no només pot generar veus multilingües de gran realisme, sinó que també pot generar altres tipus de so, com ara música, soroll de fons i efectes sonors senzills. Bark ha estat desenvolupat per Suno AI, una empresa que es dedica a la investigació i desenvolupament de tecnologies d’àudio i veu basades en intel·ligència artificial.

El que fa que Bark sigui especialment interessant és la capacitat per generar música a partir de text. En lloc d’escriure partitures complexes, els usuaris poden simplement escriure el text d’una cançó, i Bark s’encarrega de crear la musicalitat a la veu corresponent.

A més de la música, Bark també pot generar soroll de fons i efectes sonors senzills. Això és molt útil per a la creació de contingut multimèdia, ja que permet als usuaris generar sons dambient i efectes de so personalitzats per als seus vídeos, podcasts i altres tipus de contingut.

Tens disponible el codi font i una sèrie de demostracions en aquest enllaç: https://github.com/suno-ai/bark

Una altra característica interessant de Bark és que pot generar veus en múltiples idiomes amb una qualitat de so molt alta. Això és especialment útil per a aquells que necessiten generar contingut en diversos idiomes, com ara empreses internacionals o creadors de contingut en línia que volen arribar a una audiència global.

AudioLM: la intel·ligència artificial que no només parla, sinó que també canta i reprodueix sons personalitzats

AudioLM no només pot generar veus multilingües d’alta qualitat, sinó que també inclou un prompt tipus xat GPT, on l’usuari pot demanar que es reprodueixi un so amb certes característiques, com “xerric d’ocells i ecos llunyans de campanes”, i AudioLM ho reproduirà. Això és molt útil per a aquells que necessiten generar efectes de so personalitzats o sons ambientals per als projectes multimèdia.

A més, AudioLM també compta amb la capacitat de generar diferents emocions a les veus que crea. Igual que amb Vall-e i Vall-ex, l’usuari pot triar l’emoció que voleu que s’expressi en la veu generada. Aquestes emocions inclouen riure, plor, tristesa, sorpresa, disgust, somnolència i moltes més.

Una de les característiques més impressionants d’AudioLM és la capacitat per generar veus personalitzades. Els usuaris poden entrenar el model amb la seva pròpia veu per crear-ne una versió sintètica. Això és molt útil per a aquells que volen crear contingut multimèdia utilitzant la seva pròpia veu, però que no tenen el temps o els recursos per gravar tota la narració ells mateixos.

Disposes del codi font aquí: https://github.com/lucidrains/audiolm-pytorch

En resum, tant Bark, NaturalSpeech2 i AudioLM són exemples impressionants de les tecnologies de síntesi de veu que estan disponibles avui dia. Cadascú ofereix característiques úniques i avançades, la qual cosa fa que siguin molt útils per a una varietat de projectes multimèdia.