Social Proof

Una breve historia de la conversión de texto a voz

Speechify es el lector de audio número 1 del mundo. Lee libros, documentos, artículos, PDFs, correos electrónicos - cualquier cosa que leas - más rápido.

Destacado en

forbes logocbs logotime magazine logonew york times logowall street logo
¡Escucha este artículo con Speechify!
Speechify

La tecnología de síntesis de voz, más comúnmente conocida como conversión de texto a voz, ha evolucionado rápidamente a lo largo de los años. Aprende más sobre la historia de la conversión de texto a voz.

La síntesis de voz, o la producción artificial de la voz humana, ha recorrido un largo camino en los últimos 70 años. Ya sea que uses actualmente servicios de texto a voz para escuchar libros, estudiar o revisar tu propio trabajo escrito, no hay duda de que los servicios de texto a voz han facilitado la vida a personas en una variedad de profesiones.

Aquí, echaremos un vistazo a cómo funciona el procesamiento de texto a voz y cómo la tecnología asistencial ha cambiado con el tiempo.

Introducción

En el siglo XVIII, el profesor ruso Christian Kratzenstein creó resonadores acústicos que imitaban el sonido de la voz humana. Dos décadas después, el VODER (Voice Operating Demonstrator) hizo grandes titulares en la Feria Mundial de Nueva York cuando su creador, Homer Dudley, mostró a las multitudes cómo se podía crear el habla humana por medios artificiales. El dispositivo era difícil de manejar: Dudley tenía que controlar la frecuencia fundamental usando pedales.

A principios del siglo XIX, Charles Wheatstone desarrolló el primer sintetizador de voz mecánico. Esto dio inicio a una rápida evolución de herramientas y tecnologías de síntesis articulatoria.

Puede ser difícil determinar exactamente qué hace que un programa de texto a voz sea bueno, pero como muchas cosas en la vida, lo sabes cuando lo escuchas. Un programa de texto a voz de alta calidad ofrece voces que suenan naturales con inflexión y tono realistas.

La tecnología de texto a voz puede ayudar a las personas con discapacidad visual y otras discapacidades a obtener la información que necesitan para prosperar en el trabajo y comunicarse con otros. El software también permite a estudiantes y personas con grandes cargas de lectura escuchar su información a través del habla humana cuando están en movimiento. La voz sintética permite a las personas hacer más en menos tiempo y puede ser útil en una variedad de entornos, desde la creación de videojuegos hasta ayudar a personas con diferencias en el procesamiento del lenguaje.

Años 50 y 60

A finales de los años 50, se crearon los primeros sistemas de síntesis de voz. Estos sistemas eran basados en computadoras. En 1961, John Larry Kelly Jr., un físico de Bell Labs, utilizó una computadora IBM para sintetizar voz. Su vocoder (sintetizador de grabación de voz) recreó la canción Daisy Bell.

En el momento en que Kelly perfeccionaba su vocoder, Arthur C. Clarke, autor de 2001: Una odisea del espacio, utilizó la demostración de Kelly en el guion de su libro. Durante la escena, la computadora HAL 9000 canta Daisy Bell.

En 1966, la codificación predictiva lineal apareció en escena. Esta forma de codificación de voz comenzó su desarrollo bajo Fumitada Itakura y Shuzo Saito. Bishnu S. Atal y Manfred R. Schroeder también contribuyeron al desarrollo de la codificación predictiva lineal.

Años 70

En 1975, Itakura desarrolló el método de pares espectrales lineales. Este método de codificación de voz de alta compresión ayudó a Itakura a aprender más sobre el análisis y la síntesis del habla, encontrando puntos débiles y descubriendo cómo mejorarlos.

Durante este año, también se lanzó MUSA. Este sistema de síntesis de voz autónomo utilizaba un algoritmo para leer en voz alta en italiano. Una versión lanzada tres años después fue capaz de cantar en italiano.

En los años 70, se desarrolló el primer sintetizador articulatorio basado en el tracto vocal humano. El primer sintetizador conocido fue desarrollado por Tom Baer, Paul Mermelstein y Philip Rubin en Haskins Laboratories. El trío utilizó información de los modelos de tracto vocal creados en Bell Laboratories en los años 60 y 70.

En 1976, se introdujeron las Máquinas de Lectura Kurzweil para Ciegos. Aunque estos dispositivos eran demasiado caros para el público en general, las bibliotecas a menudo los proporcionaban a personas con discapacidades visuales para escuchar libros.

La codificación predictiva lineal se convirtió en el punto de partida para los chips sintetizadores. Los Chips de Voz LPC de Texas Instruments y los juguetes Speak & Spell de finales de los años 70 utilizaron tecnología de chips sintetizadores. Estos juguetes eran ejemplos de síntesis de voz humana con entonaciones precisas, diferenciando la voz de las comúnmente voces sintetizadas robóticas de la época. Muchos dispositivos electrónicos portátiles con la capacidad de sintetizar voz se hicieron populares durante esta década, incluyendo la calculadora Speech+ de Telesensory Systems para ciegos. El Fidelity Voice Chess Challenger, una computadora de ajedrez capaz de sintetizar voz, fue lanzada en 1979.

Años 80

En la década de 1980, la síntesis de voz comenzó a revolucionar el mundo de los videojuegos. El lanzamiento de 1980 de Stratovox (un juego de arcade de estilo de disparos) fue realizado por Sun Electronics. Manbiki Shoujo (traducido al inglés como Shoplifting Girl) fue el primer juego de computadora personal con la capacidad de sintetizar voz. El juego electrónico Milton también fue lanzado en 1980; fue el primer juego electrónico de The Milton Bradley Company que tenía la capacidad de sintetizar la voz humana.

En 1983, la máquina de habla acústico-mecánica independiente llamada DECtalk. DECtalk entendía las grafías fonéticas de las palabras, permitiendo la pronunciación personalizada de palabras inusuales. Estas grafías fonéticas también podían incluir un indicador de tono que DECtalk usaría al enunciar los componentes fonéticos. Esto permitió que DECtalk pudiera cantar.

A finales de los 80, Steve Jobs creó NeXT, un sistema que fue desarrollado por Trillium Sound Research. Aunque NeXT no despegó, Jobs finalmente fusionó el programa con Apple en los 90.

Años 1990

Las primeras versiones de sistemas de texto a voz sintetizado sonaban claramente robóticas, pero eso comenzó a cambiar a finales de los 80 y principios de los 90. Consonantes más suaves permitieron que las máquinas parlantes perdieran el tono electrónico y sonaran más humanas. En 1990, Ann Syrdal en AT&T Bell Laboratories desarrolló una voz sintetizadora femenina. Los ingenieros trabajaron para hacer que las voces sonaran más naturales durante los 90.

En 1999, Microsoft lanzó Narrator, una solución de lector de pantalla que ahora está incluida en cada copia de Microsoft Windows.

Años 2000

La síntesis de voz encontró algunos obstáculos durante los 2000, ya que los desarrolladores lucharon por crear estándares acordados para la voz sintetizada. Dado que el habla es altamente individual, es difícil para las personas de todo el mundo ponerse de acuerdo sobre la pronunciación adecuada de fonemas, difonos, entonación, tono, reproducción de patrones e inflexión.

La calidad del audio de la síntesis de voz por formantes también se convirtió en una preocupación en los 90, ya que ingenieros e investigadores notaron que la calidad de los sistemas utilizados en un laboratorio para reproducir voz sintetizada era a menudo mucho más avanzada que el equipo que tenía el usuario. Al pensar en la síntesis de voz, muchas personas piensan en el sintetizador de voz de Stephen Hawking, que proporcionaba una voz de sonido robótico con poco tono humano.

En 2005, los investigadores finalmente llegaron a un acuerdo y comenzaron a usar un conjunto de datos de voz común, lo que les permitió trabajar desde los mismos ideales básicos al crear sistemas de síntesis de voz de alto nivel.

En 2007, se realizó un estudio que mostró que los oyentes pueden determinar si una persona que está hablando está sonriendo. Los investigadores continúan trabajando para descubrir cómo usar esta información para crear software de reconocimiento y síntesis de voz que sea más natural.

Años 2010

Hoy en día, los productos de síntesis de voz que utilizan señales de voz están en todas partes, desde Siri hasta Alexa. Los sintetizadores de voz electrónicos no solo hacen la vida más fácil, sino que también la hacen más divertida. Ya sea que estés usando un sistema TTS para escuchar novelas mientras te desplazas o estés usando aplicaciones que facilitan el aprendizaje de un idioma extranjero, es probable que estés utilizando tecnología de texto a voz para activar tus redes neuronales a diario.

El futuro

En los próximos años, es probable que la tecnología de síntesis de voz se enfoque en crear un modelo del cerebro para comprender mejor cómo registramos los datos del habla en nuestras mentes. La tecnología del habla también trabajará para comprender mejor el papel que juegan las emociones en el habla, y usará esta información para crear voces de IA que sean indistinguibles de los humanos reales.

Lo último en tecnología de síntesis de voz: Speechify

Al aprender sobre las transiciones de la tecnología de síntesis de voz anterior, es asombroso imaginar hasta dónde ha llegado la ciencia. Hoy en día, aplicaciones como Speechify facilitan la traducción de cualquier texto en archivos de audio. Con solo tocar un botón (o pulsar en una aplicación), Speechify es capaz de tomar sitios web, documentos e imágenes de texto y traducirlos en voz de sonido natural. La biblioteca de Speechify se sincroniza en todos tus dispositivos, haciéndolo simple para que sigas aprendiendo y trabajando mientras te desplazas. Consulta la aplicación Speechify tanto en la App Store de Apple como en Android Google Play.  

Preguntas frecuentes

¿Quién inventó el texto a voz?

El texto a voz para inglés fue inventado por Noriko Umeda. El sistema fue desarrollado en el Laboratorio Electrotécnico en Japón en 1968.

¿Cuál es el propósito del texto a voz?

Muchas personas utilizan la tecnología de texto a voz. Para quienes prefieren obtener su información en formato de audio, la tecnología TTS puede facilitar la obtención de la información necesaria para trabajar o aprender, sin tener que pasar horas frente a un libro. Los profesionales ocupados también usan la tecnología TTS para mantenerse al día con su trabajo cuando no pueden sentarse frente a una pantalla de computadora. Muchos tipos de tecnología TTS se desarrollaron originalmente para personas con discapacidades visuales, y TTS sigue siendo una excelente manera para que las personas con dificultades visuales obtengan la información que necesitan.

¿Cómo se sintetiza un discurso?

Fragmentos de discurso grabado se almacenan en una base de datos en varias unidades. El software prepara archivos de audio mediante la selección de unidades. A partir de ahí, se crea una voz. A menudo, cuanto mayor es el rango de salida de un programa, más le cuesta al programa proporcionar claridad vocal a los usuarios.

Tyler Weitzman

Tyler Weitzman

Tyler Weitzman es el Cofundador, Jefe de Inteligencia Artificial y Presidente de Speechify, la aplicación de texto a voz número uno en el mundo, con más de 100,000 reseñas de 5 estrellas. Weitzman es graduado de la Universidad de Stanford, donde obtuvo una licenciatura en matemáticas y una maestría en Ciencias de la Computación en la especialización de Inteligencia Artificial. Ha sido seleccionado por la revista Inc. como uno de los 50 mejores emprendedores, y ha aparecido en Business Insider, TechCrunch, LifeHacker, CBS, entre otras publicaciones. La investigación de su maestría se centró en inteligencia artificial y texto a voz, donde su trabajo final se tituló: “CloneBot: Predicciones Personalizadas de Respuestas en Diálogo.”