Una breve historia de la conversión de texto a voz

Speechify es el lector de audio número 1 del mundo. Lee libros, documentos, artículos, PDFs, correos electrónicos - cualquier cosa que leas - más rápido.

Prueba gratis

Destacado en

Años 70
Años 80
Años 1990
Años 2000
Años 2010
El futuro
Lo último en tecnología de síntesis de voz: Speechify
Preguntas frecuentes

¡Escucha este artículo con Speechify!

La tecnología de síntesis de voz, más comúnmente conocida como conversión de texto a voz, ha evolucionado rápidamente a lo largo de los años. Aprende más sobre la historia de la conversión de texto a voz.

La síntesis de voz, o la producción artificial de la voz humana, ha recorrido un largo camino en los últimos 70 años. Ya sea que uses actualmente servicios de texto a voz para escuchar libros, estudiar o revisar tu propio trabajo escrito, no hay duda de que los servicios de texto a voz han facilitado la vida a personas en una variedad de profesiones.

Aquí, echaremos un vistazo a cómo funciona el procesamiento de texto a voz y cómo la tecnología asistencial ha cambiado con el tiempo.

Introducción

En el siglo XVIII, el profesor ruso Christian Kratzenstein creó resonadores acústicos que imitaban el sonido de la voz humana. Dos décadas después, el VODER (Voice Operating Demonstrator) hizo grandes titulares en la Feria Mundial de Nueva York cuando su creador, Homer Dudley, mostró a las multitudes cómo se podía crear el habla humana por medios artificiales. El dispositivo era difícil de manejar: Dudley tenía que controlar la frecuencia fundamental usando pedales.

A principios del siglo XIX, Charles Wheatstone desarrolló el primer sintetizador de voz mecánico. Esto dio inicio a una rápida evolución de herramientas y tecnologías de síntesis articulatoria.

Puede ser difícil determinar exactamente qué hace que un programa de texto a voz sea bueno, pero como muchas cosas en la vida, lo sabes cuando lo escuchas. Un programa de texto a voz de alta calidad ofrece voces que suenan naturales con inflexión y tono realistas.

La tecnología de texto a voz puede ayudar a las personas con discapacidad visual y otras discapacidades a obtener la información que necesitan para prosperar en el trabajo y comunicarse con otros. El software también permite a estudiantes y personas con grandes cargas de lectura escuchar su información a través del habla humana cuando están en movimiento. La voz sintética permite a las personas hacer más en menos tiempo y puede ser útil en una variedad de entornos, desde la creación de videojuegos hasta ayudar a personas con diferencias en el procesamiento del lenguaje.

Años 50 y 60

A finales de los años 50, se crearon los primeros sistemas de síntesis de voz. Estos sistemas eran basados en computadoras. En 1961, John Larry Kelly Jr., un físico de Bell Labs, utilizó una computadora IBM para sintetizar voz. Su vocoder (sintetizador de grabación de voz) recreó la canción Daisy Bell.

En el momento en que Kelly perfeccionaba su vocoder, Arthur C. Clarke, autor de 2001: Una odisea del espacio, utilizó la demostración de Kelly en el guion de su libro. Durante la escena, la computadora HAL 9000 canta Daisy Bell.

En 1966, la codificación predictiva lineal apareció en escena. Esta forma de codificación de voz comenzó su desarrollo bajo Fumitada Itakura y Shuzo Saito. Bishnu S. Atal y Manfred R. Schroeder también contribuyeron al desarrollo de la codificación predictiva lineal.

Años 70

En 1975, Itakura desarrolló el método de pares espectrales lineales. Este método de codificación de voz de alta compresión ayudó a Itakura a aprender más sobre el análisis y la síntesis del habla, encontrando puntos débiles y descubriendo cómo mejorarlos.

Durante este año, también se lanzó MUSA. Este sistema de síntesis de voz autónomo utilizaba un algoritmo para leer en voz alta en italiano. Una versión lanzada tres años después fue capaz de cantar en italiano.

En los años 70, se desarrolló el primer sintetizador articulatorio basado en el tracto vocal humano. El primer sintetizador conocido fue desarrollado por Tom Baer, Paul Mermelstein y Philip Rubin en Haskins Laboratories. El trío utilizó información de los modelos de tracto vocal creados en Bell Laboratories en los años 60 y 70.

En 1976, se introdujeron las Máquinas de Lectura Kurzweil para Ciegos. Aunque estos dispositivos eran demasiado caros para el público en general, las bibliotecas a menudo los proporcionaban a personas con discapacidades visuales para escuchar libros.

La codificación predictiva lineal se convirtió en el punto de partida para los chips sintetizadores. Los Chips de Voz LPC de Texas Instruments y los juguetes Speak & Spell de finales de los años 70 utilizaron tecnología de chips sintetizadores. Estos juguetes eran ejemplos de síntesis de voz humana con entonaciones precisas, diferenciando la voz de las comúnmente voces sintetizadas robóticas de la época. Muchos dispositivos electrónicos portátiles con la capacidad de sintetizar voz se hicieron populares durante esta década, incluyendo la calculadora Speech+ de Telesensory Systems para ciegos. El Fidelity Voice Chess Challenger, una computadora de ajedrez capaz de sintetizar voz, fue lanzada en 1979.

Años 80

En la década de 1980, la síntesis de voz comenzó a revolucionar el mundo de los videojuegos. El lanzamiento de 1980 de Stratovox (un juego de arcade de estilo de disparos) fue realizado por Sun Electronics. Manbiki Shoujo (traducido al inglés como Shoplifting Girl) fue el primer juego de computadora personal con la capacidad de sintetizar voz. El juego electrónico Milton también fue lanzado en 1980; fue el primer juego electrónico de The Milton Bradley Company que tenía la capacidad de sintetizar la voz humana.

En 1983, la máquina de habla acústico-mecánica independiente llamada DECtalk. DECtalk entendía las grafías fonéticas de las palabras, permitiendo la pronunciación personalizada de palabras inusuales. Estas grafías fonéticas también podían incluir un indicador de tono que DECtalk usaría al enunciar los componentes fonéticos. Esto permitió que DECtalk pudiera cantar.

A finales de los 80, Steve Jobs creó NeXT, un sistema que fue desarrollado por Trillium Sound Research. Aunque NeXT no despegó, Jobs finalmente fusionó el programa con Apple en los 90.

Años 1990

Las primeras versiones de sistemas de texto a voz sintetizado sonaban claramente robóticas, pero eso comenzó a cambiar a finales de los 80 y principios de los 90. Consonantes más suaves permitieron que las máquinas parlantes perdieran el tono electrónico y sonaran más humanas. En 1990, Ann Syrdal en AT&T Bell Laboratories desarrolló una voz sintetizadora femenina. Los ingenieros trabajaron para hacer que las voces sonaran más naturales durante los 90.

En 1999, Microsoft lanzó Narrator, una solución de lector de pantalla que ahora está incluida en cada copia de Microsoft Windows.

Años 2000

La síntesis de voz encontró algunos obstáculos durante los 2000, ya que los desarrolladores lucharon por crear estándares acordados para la voz sintetizada. Dado que el habla es altamente individual, es difícil para las personas de todo el mundo ponerse de acuerdo sobre la pronunciación adecuada de fonemas, difonos, entonación, tono, reproducción de patrones e inflexión.

La calidad del audio de la síntesis de voz por formantes también se convirtió en una preocupación en los 90, ya que ingenieros e investigadores notaron que la calidad de los sistemas utilizados en un laboratorio para reproducir voz sintetizada era a menudo mucho más avanzada que el equipo que tenía el usuario. Al pensar en la síntesis de voz, muchas personas piensan en el sintetizador de voz de Stephen Hawking, que proporcionaba una voz de sonido robótico con poco tono humano.

En 2005, los investigadores finalmente llegaron a un acuerdo y comenzaron a usar un conjunto de datos de voz común, lo que les permitió trabajar desde los mismos ideales básicos al crear sistemas de síntesis de voz de alto nivel.

En 2007, se realizó un estudio que mostró que los oyentes pueden determinar si una persona que está hablando está sonriendo. Los investigadores continúan trabajando para descubrir cómo usar esta información para crear software de reconocimiento y síntesis de voz que sea más natural.

Años 2010

Hoy en día, los productos de síntesis de voz que utilizan señales de voz están en todas partes, desde Siri hasta Alexa. Los sintetizadores de voz electrónicos no solo hacen la vida más fácil, sino que también la hacen más divertida. Ya sea que estés usando un sistema TTS para escuchar novelas mientras te desplazas o estés usando aplicaciones que facilitan el aprendizaje de un idioma extranjero, es probable que estés utilizando tecnología de texto a voz para activar tus redes neuronales a diario.

El futuro

En los próximos años, es probable que la tecnología de síntesis de voz se enfoque en crear un modelo del cerebro para comprender mejor cómo registramos los datos del habla en nuestras mentes. La tecnología del habla también trabajará para comprender mejor el papel que juegan las emociones en el habla, y usará esta información para crear voces de IA que sean indistinguibles de los humanos reales.

Lo último en tecnología de síntesis de voz: Speechify

Al aprender sobre las transiciones de la tecnología de síntesis de voz anterior, es asombroso imaginar hasta dónde ha llegado la ciencia. Hoy en día, aplicaciones como Speechify facilitan la traducción de cualquier texto en archivos de audio. Con solo tocar un botón (o pulsar en una aplicación), Speechify es capaz de tomar sitios web, documentos e imágenes de texto y traducirlos en voz de sonido natural. La biblioteca de Speechify se sincroniza en todos tus dispositivos, haciéndolo simple para que sigas aprendiendo y trabajando mientras te desplazas. Consulta la aplicación Speechify tanto en la App Store de Apple como en Android Google Play.

Preguntas frecuentes

¿Quién inventó el texto a voz?

El texto a voz para inglés fue inventado por Noriko Umeda. El sistema fue desarrollado en el Laboratorio Electrotécnico en Japón en 1968.

¿Cuál es el propósito del texto a voz?

Muchas personas utilizan la tecnología de texto a voz. Para quienes prefieren obtener su información en formato de audio, la tecnología TTS puede facilitar la obtención de la información necesaria para trabajar o aprender, sin tener que pasar horas frente a un libro. Los profesionales ocupados también usan la tecnología TTS para mantenerse al día con su trabajo cuando no pueden sentarse frente a una pantalla de computadora. Muchos tipos de tecnología TTS se desarrollaron originalmente para personas con discapacidades visuales, y TTS sigue siendo una excelente manera para que las personas con dificultades visuales obtengan la información que necesitan.

¿Cómo se sintetiza un discurso?

Fragmentos de discurso grabado se almacenan en una base de datos en varias unidades. El software prepara archivos de audio mediante la selección de unidades. A partir de ahí, se crea una voz. A menudo, cuanto mayor es el rango de salida de un programa, más le cuesta al programa proporcionar claridad vocal a los usuarios.

Texto a Voz en Google Docs: Todo lo que Necesitas Saber

Presentamos Speechify 4.0 para iOS

Tyler Weitzman

Tyler Weitzman es el Cofundador, Jefe de Inteligencia Artificial y Presidente de Speechify, la aplicación de texto a voz número uno en el mundo, con más de 100,000 reseñas de 5 estrellas. Weitzman es graduado de la Universidad de Stanford, donde obtuvo una licenciatura en matemáticas y una maestría en Ciencias de la Computación en la especialización de Inteligencia Artificial. Ha sido seleccionado por la revista Inc. como uno de los 50 mejores emprendedores, y ha aparecido en Business Insider, TechCrunch, LifeHacker, CBS, entre otras publicaciones. La investigación de su maestría se centró en inteligencia artificial y texto a voz, donde su trabajo final se tituló: “CloneBot: Predicciones Personalizadas de Respuestas en Diálogo.”

Por Tyler Weitzman

Maestría en Ciencias de la Computación, Universidad de Stanford, Defensor de la Dislexia y la Accesibilidad, CEO/Fundador de Speechify

en TTS el 27 de junio de 2022

Blogs Recientes

16 de diciembre de 2024
Presentamos Speechify 4.0 para iOS
20 de noviembre de 2024
Agentes de Voz con IA Explicados: La Guía Definitiva
20 de noviembre de 2024
Novedades – Aplicación Speechify para Mac Otoño 2024
20 de noviembre de 2024
Novedades – Speechify Studio Otoño 2024
20 de noviembre de 2024
Guía Definitiva de Agentes de IA para Centros de Llamadas
18 de noviembre de 2024
Las Mejores Alternativas a Artlist.io
16 de noviembre de 2024
Novedades – Aplicación Web y Extensión de Chrome de Speechify Otoño 2024
16 de noviembre de 2024
Cómo Sam Liccardo Ganó con Tecnología de Voz AI y Speechify Studio
16 de noviembre de 2024
¿Cuál es el mejor generador de voz AI para italiano?
15 de noviembre de 2024
¿Cuál es el Mejor Generador de Voz AI para Francés?
15 de noviembre de 2024
¿Cuál es el mejor generador de voz IA en portugués (Brasil)?
15 de noviembre de 2024
¿Cuál es el mejor generador de voz AI para español?
15 de noviembre de 2024
Cómo Doblar un Video en Alemán Usando Voces de IA
15 de noviembre de 2024
Cómo Doblar un Video al Italiano Usando Voces de IA
15 de noviembre de 2024
Cómo Doblar un Video al Portugués (Brasil) Usando Voces de IA
15 de noviembre de 2024
Cómo Doblar un Video al Francés Usando Voces de IA
13 de noviembre de 2024
Cómo Doblar un Video al Español Usando Voces de IA
3 de julio de 2024
Lectura en Voz Alta: Transformando la Forma en que Experimentamos el Texto
3 de julio de 2024
Leer en Voz Alta: Adoptando la Tecnología de Texto a Voz para una Mejor Experiencia de Lectura
3 de julio de 2024
Lectura de Audio: Mejorando la Accesibilidad y el Disfrute
3 de julio de 2024
Lector de Sitios Web: Mejorando Tu Experiencia de Lectura con Voces de IA
3 de julio de 2024
La Voz Hablante: El Futuro de la Tecnología de Voz y sus Aplicaciones
3 de julio de 2024
Speak Screen: Desbloqueando la Accesibilidad en tu iPhone y iPad
16 de junio de 2024
Actor de Doblaje: Navegando el Mundo de los Doblajes Tradicionales y de IA
16 de junio de 2024
Generador de Voz AI: Revolucionando las Locuciones y Más Allá
16 de junio de 2024
IA de Voz: Cómo la IA está Transformando el Paisaje del Audio
16 de junio de 2024
Creador de voces
16 de junio de 2024
Generadores de Voz de Celebridades: Guía Práctica
10 de junio de 2024
Prosodia del habla
10 de junio de 2024
Cómo crear videos de capacitación para empleados

Speechify texto a voz te ayuda a ahorrar tiempo

Más de 150k reseñas de 5 estrellas

Prueba Gratis

Blogs Populares

27 de junio de 2022
Mejores Generadores de Voz de Celebridades en 2024
21 de agosto de 2022
Texto a Voz de YouTube: Elevando Tu Contenido de Video con Speechify
20 de octubre de 2022
Las 7 mejores alternativas a Synthesia.io
1 de junio de 2022
Todo lo que necesitas saber sobre la función de texto a voz en TikTok
25 de julio de 2022
Las 10 mejores aplicaciones de texto a voz para Android
27 de julio de 2022
Cómo convertir un PDF a voz
17 de noviembre de 2022
Cambiador de Voz Femenina con IA: Guía y las Mejores Herramientas para el Trabajo
27 de junio de 2022
Cómo usar el texto a voz de Siri
26 de octubre de 2022
Texto a voz de Obama
17 de julio de 2022
Generadores de Voz Robótica: La Frontera Futurista de la Creación de Audio
1 de agosto de 2022
PDF en Voz Alta: Opciones Gratuitas y de Pago
18 de julio de 2022
Alternativas a FakeYou texto a voz
31 de octubre de 2022
Todo Sobre Voces Deepfake
27 de septiembre de 2022
Generador de voz de TikTok
18 de agosto de 2022
Texto a voz GoAnimate
27 de junio de 2022
Los mejores generadores de voz de texto a voz de celebridades
27 de junio de 2022
Lector de Audio para PDF
27 de junio de 2022
Cómo obtener voces indias para texto a voz
27 de junio de 2022
Elevando Tu Experiencia de Anime con Generadores de Voz de Anime
27 de junio de 2022
Mejor texto a voz en línea
3 de octubre de 2022
Las 50 mejores películas basadas en libros que deberías leer
30 de octubre de 2022
Descargar audio
27 de junio de 2022
Cómo usar texto a voz para los sonidos del meme de Quandale Dingle
10 de agosto de 2022
Las 5 mejores aplicaciones que leen texto en voz alta
27 de junio de 2022
Las mejores voces femeninas de texto a voz
3 de noviembre de 2022
Cambiador de voz femenina
2 de octubre de 2022
Generador de voz de texto a voz de Sonic en línea
16 de julio de 2022
Mejores generadores de voz con IA - La lista definitiva
23 de agosto de 2022
Cambiador de voz
27 de junio de 2022
Texto a voz en PowerPoint