Los sistemas de texto-a-voz.
En la década del treinta del siglo pasado, los laboratorios de la empresa de comunicaciones Bell desarrollaron el “Vocoder”, un dispositivo que automáticamente analizaba el habla de una persona basándose en su nota musical y resonancias .Partiendo de este desarrollo previo, Homer Dudley desarrolló luego un sintetizador de sonidos operado por un teclado llamado el cual llevó por nombre “The Voder” y fue presentado por primera vez en la feria mundial de Nueva York del año 1939. Estos primeros sintetizadores de habla y sonido tenían un resultado robótico y poseían pocas posibilidades vocales.
En 1961, los físicos John Larry Kelly, Jr y Louis Gerstman se valieron de una computadora IBM 704 para sintetizar una voz que reprodujo la canción "Daisy Bell" con el acompañamiento musical de Max Mathews. El efecto fue llamativo para la época, pero no fue más que un experimento. Si bien desde entonces la calidad del habla sintetizada ha sido mejorada, salvo algunos en casos muy puntuales, aún hoy es fácilmente distinguible del modo de hablar de un ser humano.
En la actualidad, además de los asistentes virtuales como Siri o Alexa, los sistemas de navegación por GPS o las voces sintetizadas de cualquier aplicación de traducción de idiomas, existen desarrollos donde se busca la interacción de la Inteligencia Artificial y los sistemas de Texto-A-Voz o TTS, siglas en inglés que significan Text-To-Speech. Un ejemplo de esto es “Tacotron 2” un sistema desarrollado por el área de investigación en Inteligencia Artificial de Google. Según ellos mismo explican:
“Nuestro enfoque no utiliza características lingüísticas y acústicas complejas como entrada. En su lugar, generamos un discurso similar al humano a partir de texto, utilizando redes neuronales entrenadas, utilizando solo ejemplos de voz y las transcripciones de texto correspondientes.”
A través de este sistema, usuarios de internet como Vocal Synthesis producen audios con voces completamente generadas por computadora, usando un modelo de texto a voz entrenado en los patrones de voz de diferentes celebridades como Frank Sinatra o Mark Zuckerberg. Esta técnica es equivalente a los DeepFake en videos.
El sintetizador de voz Vocoder de los laboratorios Bell canta con el acompañamiento musical de Max Mathews.
"Speech Synthesis" con la tecnología de IA de Google.