¿Qué son las voces sintéticas?

Puedes leer o escuchar este artículo si haces click en el «play»

La evolución de la IA de síntesis de voz, menos datos necesarios y resultados más precisos

La creación de voces sintéticas a través de Inteligencia Artificial (IA) ha experimentado en los últimos años una mejora exponencial, ya que son necesarios menos datos para obtener voces cada vez más realistas.

Actualmente, el desarrollo de voces sintéticas ha sufrido un gran cambio y se puede observar cómo el proceso de creación ha variado. Para clonar una voz humana, hasta hace poco, se debían aportar miles de datos de una voz real (muestras de esa voz) para obtener una sintética parecida. Por lo tanto, esto lleva a consumir mucho tiempo de investigación y grabación de esas muestras. Hoy, gracias a la tecnología de IA ese tiempo de recogida y grabación de muestras se ha visto reducido. La simplificación del proceso acerca las voces sintéticas a todos los usuarios y empresas como Microsoft, Google, IBM ya tienen sus propios proyectos. Otras empresas han surgido con la misión específica de acercar la IA de generación de voz al usuario como es el caso de Lyrebird, adquirida por Descript, (EE. UU.), CandyVoice (Francia), Resemble (Canadá) o Aflorithmic (Reino Unido), mientras que otras compañías y startups trabajan con IA y lanzan proyectos que tienen que ver con múltiples aplicaciones de las IA (imagen, texto y voz, sobre todo), es el caso de Vicomtech (España) o Voikers (España).

Voces sintéticas al alcace de tod@s

Existen también herramientas que permiten convertir texto a audio en cuestión de segundos como Auris.audio, una herramienta creada por Voikers y Avantgarde IT. Sus casos de uso son infinitos: posibilidad de transformar a audio artículos en medios online, transformar a audio posts en blogs, crear una voz en off para vídeos efímeros en redes sociales, cambiar el audio en cuñas o vídeos publicitarios previo a la final voz de una persona (ahorrando costes y tiempo), etc.

Según los datos de MarketsandMarkets, empresa de investigación y consultoría a nivel global, el tamaño del mercado global de clonación de voz a través de IA, que en 2018 se estimaba en un valor de 456 millones de dólares crecerá a 1.739 millones para el año 2023. Este enorme crecimiento es síntoma del interés despertado por los avances en el desarrollo de voces sintéticas, sobre todo en el mundo audiovisual, en medios de comunicación y en empresas tecnológicas startups y multinacionales. Las startups que se dedican al desarrollo de proyectos con IA consiguen que los procesos sean más rápidos y eficientes. A su vez, las multinacionales están cada vez más interesadas en invertir en nuevos proyectos de IA y suben aun más el valor de este mercado en el que se incluyen las voces sintéticas.

Ejemplos de empresas que hacen voces sintéticas y proyectos elaborados con ellas

Hay múltiples ejemplos que demuestran la efectividad en el procesamiento y creación de voces sintéticas, las cuales son aplicadas a múltiples proyectos audiovisuales. Por ejemplo, la empresa WellSaid Labs ha conseguido crear más de 50 voces difíciles de diferenciar de una voz real. Otro ejemplo es el de la empresa tecnológica Resemble Al, la cual ha lanzado la herramienta Resemble Clone que permite crear una voz sintética precisa a partir de un audio de, mínimo, 3 minutos. Este tipo de empresas abren la puerta a la posibilidad de utilizar la síntesis de voz para dar vida a proyectos que quizás no habrían salido a la luz por falta de recursos. Algunas ofrecen la posibilidad de comprar voces sintéticas de cualquier persona conocida y el resultado es sorprendentemente similar a la voz real.

La tecnología de voz generativa de IA se ha utilizado para recrear la voz de Andy Warhol en una nueva serie documental de Netflix. «The Andy Warhol Diaries», en un documental que se estrenó a comienzos de este año 2022. La voz del artista se ajustó en cuanto a emoción y tono y se recreó para recitar palabras de los diarios de Warhol. El creador de la serie, Andrew Rossi, dijo que decidió utilizar la voz de la IA con el permiso de la Fundación Andy Warhol.

Otro ejemplo de proyecto de voz sintética desarrollada gracias a IA, esta vez de la empresa tecnológica multinacional Microsoft, sería la llamada Azure Custom Neural Voice, una herramienta que permite crear voces sintéticas realistas con el mínimo de datos de voz humana.

La empresa tecnológica multinacional Nvidia ha desarrollado New Voices Nvidia, una herramienta que sintetiza voces personalizadas con solo 30 minutos de datos de voz y puede ser utilizada por cualquier consumidor que tenga interés en crear asistentes de voz, voces de marca o aplicaciones de voz. Estos elementos son cada vez más importantes para crear un valor de marca y por ello, herramientas como las mencionadas tendrán un gran número de usuarios utilizándolas cada día.

Las grandes empresas de contenido audiovisual ponen la mira en la efectividad probada de las voces sintéticas, capaces no solo de reproducir voces humanas en su mismo idioma, sino de hacerlo en cualquier idioma con precisión. Esto es interesante para mantener la voz original de los actores en contenidos doblados, aunque podría plantear un conflicto de intereses con el modelo actual de doblaje.

Tecnología “Deepfake”, una rama más de la IA creadora de voz e imagen

Con el modelo actual de desarrollo de voces sintéticas a partir de IA, es prácticamente imposible diferenciar la voz sintética de la real y esto está estrechamente relacionado con la definición de la tecnología “deepfake”. Se trata de la creación de vídeos, audios (o ambos) de personas que parecen reales, pero han sido creadas por ordenador. La tecnología deepfake es posible gracias al desarrollo de la IA que crea las voces sintéticas mencionadas anteriormente y las imágenes que permiten una composición perfecta que puede engañar a cualquier oyente y observador. Esto lleva, indudablemente, a la utilización de esta tecnología para fines ilícitos y fraudulentos, pero también es utilizada para, de nuevo, enriquecer proyectos audiovisuales y hacer posible aquello que era impensable hace apenas unos años.

La tecnología deepfake ha permitido “revivir” a personajes fallecidos, tanto en imagen como en voz. Tras el fallecimiento de Carrie Ficher, actriz que interpretó a la Princesa Leia en la saga de películas Star Wars se tuvo que recurrir a esta tecnología para rodar algunas escenas que faltaban. Otro ejemplo sería la animación de Salvador Dalí creada por la Agencia GS&P para el Museo Dalí en Florida, el video de presentación donde Dalí habla en inglés es increíblemente preciso tanto por su imagen, expresiones y movimiento como por su voz. Otro ejemplo similar de esta tecnología sería la animación de John F. Kennedy dando el discurso en el Dallas Trade Mart, discurso que realmente nunca llegó a realizar porque fue asesinado antes.

Con Inteligencia Artificial se puede enriquecer cualquier experiencia de usuario y hacer cualquier proyecto (cultural, educativo, científico o de cualquier índole) potencialmente más atractivo, pues cuanto mejores voces sintéticas se desarrollan más interés hay en invertir en ellas.

Hasta el mismísimo Elvis ha resucitado gracias a la Inteligencia Artificial subiendo al escenario de America’s Got Talent, el desarrollador Metaphysic mostró al Rey del Rock n’ Roll en digital interpretando canciones y bailando a la par de un cantante tributo a Elvis en el escenario. En esta ocasión, la actuación de audio fue mejorada por la empresa de voz sintética Respeecher, conocida por sintetizar las voces de Darth Vader y Luke Skywalker para las recientes series de televisión de Star Wars.