• Aarón Almansa

Inteligencia Artificial y Generación de Voz

Actualizado: 9 dic 2021

Hablar es más cómodo, más natural y 3 veces más rápido que escribir. A mano podemos escribir una media de 32 palabras por minuto, 71 palabras en un teclado, y en cambio podemos emitir alrededor de 200 palabras por minuto cuando hablamos.

Es por tanto totalmente lógico que se haya pensado en tecnologías que permitan generar voz.


La voz sintética es una voz creada de forma artificial que imita la voz humana. La tecnología que la genera se conoce como TTS (del inglés “Text to Speech” - Texto a voz). Se implementa a través de dispositivos software o hardware, que uniendo distintos fragmentos del habla grabados y almacenados en una base de datos, permiten llegar incluso a crear conversaciones. Una vez generada la voz artificial, se obtiene un archivo de audio que puede ser reproducido a través de los altavoces de ordenadores, teléfonos móviles, asistentes virtuales, altavoces inteligentes o máquinas de servicios.


Esta tecnología no es nueva. Hace tiempo que es posible convertir voz en texto. Podemos comprobar aplicaciones en nuestros dispositivos GPS, altavoces inteligentes o asistentes virtuales que hacen preguntas y/o respondan a nuestras consultas, incluso hemos podido ver a personas comunicándose mediante voces robóticas como el profesor Stephen Hawking.

Las voces sintéticas tradicionales que podemos escuchar en dispositivos como Amazon Echo, Google Home, los GPS o lectores de libros electrónicos, son rápidas y baratas de crear para las empresas, pero suenan “robóticas” y muy poco realistas.


Con la incorporación de la inteligencia artificial (IA) a la generación de voz sintética, se ha conseguido crear una voz artificial de más calidad que imita con mayor precisión el tono, la acentuación, el timbre y el ritmo de una voz humana real.


Con este avance, han surgido empresas cuyo objetivo y modelo de negocio consiste en generar y comercializar contenido de audio a partir de texto. Con las múltiples opciones de personalización que consiguen (utilizando la Inteligencia Artificial), esta oferta tiene muchos casos de uso diferentes.


LOVO es una de las empresas pioneras en este tema. Utiliza una API de voz en off para convertir texto en voz sintética en tiempo real, y proporcionan lo que llaman “Biblioteca de Voces”, en donde disponen de más de 200 voces diferentes, muy similares a las humanas y en 33 idiomas distintos. Los usuarios pueden elegir la máscara de voz que mejor se adapte a su objetivo, seleccionando idioma, personalidad, tono, timbre, .. e incluso pueden clonar sus propias voces para crear máscaras de voz personales (lo que se consigue simplemente leyendo un texto en voz alta durante 15 minutos).


El mercado global para estas soluciones TTS es importante. Los analistas estiman que alcanzará los 5.000 millones de dólares en 2026, por lo que las oportunidades son enormes para esta nueva y apasionante tecnología, y grandes empresas tecnológicas han lanzado ya sus soluciones “Text to Speech” para generar voz sintética con IA. Ejemplos son IBM con Watson, o las apps de Apple y Google para IOS y Android.


Estas tecnologías de generación de voz sintética con IA son muy sofisticadas y pueden imitar la voz humana de forma sorprendente, pero en ningún caso pretenden reemplazarla. Es muy complicado que una voz artificial sintética pueda igualar a la experiencia de voz que ofrece una persona, que al hablar tiene una intención, transmite emoción y expresividad, acerca, puede crear intimidad y hasta incluso desplegar matices ambiguos, como ironía o sarcasmo. Sin embargo, estas tecnologías de TTS con la incorporación de la IA ofrecen posibles aplicaciones muy interesantes:

  • Traducciones: Utilización de la voz sintética para traducir videos y material audiovisual generando voces que suenan exactamente igual al orador original.

  • Publicidad: Teniendo un guion escrito se puede crear un anuncio de audio/video sin incurrir en el gasto y tiempo adicional que implica la contratación de un actor de doblaje. No parece idoneo para el sector del cine, en donde los matices de emociones, expresividad y pausas son vitales y es lo que se valora en los doblajes.

  • Educación: para permitir que los materiales actuales escritos, sean mucho más accesibles a diferentes tipos de estudiantes con necesidades especiales.

  • Realidad aumentada y realidad virtual: Con la explosión de estos dos mercados en los últimos años, existe una gran demanda de voces humanas realistas y auténticas para utilizarlas en aplicaciones y sitios web, y la voz sintética es ideal para ello


9 visualizaciones0 comentarios

Entradas Recientes

Ver todo