- Startseite
- Produktivität
- Text-to-Speech-Stimmen. Wie funktioniert das?
Text-to-Speech-Stimmen. Wie funktioniert das?
Bekannt aus
Wie genau funktionieren Text-to-Speech-Stimmen? Wir sprechen ein wenig über die KI-Technologie, die Wörter in natürlich klingende Stimmen verwandelt - in Echtzeit!
Obwohl das Konzept von Text-to-Speech - also Software, die die Wörter auf einem Computerbildschirm laut vorlesen kann - nichts Neues ist, scheint es in den letzten Jahren eine Art Revolution zu erleben.
Laut einer aktuellen Studie wurde der Text-to-Speech-Markt im Jahr 2020 auf unglaubliche 2 Milliarden Dollar geschätzt - teilweise aufgrund der Auswirkungen der noch andauernden COVID-19-Pandemie. Es wird erwartet, dass er bis 2026 auf 5 Milliarden Dollar anwächst - eine beeindruckende jährliche Wachstumsrate von 14,6%.
Vieles davon ist auf die Art und Weise zurückzuführen, wie Text-to-Speech-Lösungen Menschen mit verschiedenen Sehbehinderungen helfen. Laut den Centers for Disease Control and Prevention haben etwa 12 Millionen Menschen über 40 in den USA Probleme mit der Verarbeitung visueller Informationen. Davon sind eine Million völlig blind und acht Millionen haben sehbedingte Probleme aufgrund nicht korrigierter Brechungsfehler. Diese Zahl ist seit 2012 von 4,2 Millionen gestiegen.
All dies zeigt, dass Text-to-Speech-Technologie im Laufe der Jahre ihren Wert mehr als bewiesen hat. Viele Lösungen wie Speechify bieten sogar mehrere hochwertige Stimmen zur Auswahl, je nach den Bedürfnissen der Nutzer. Aber wie funktionieren diese Lösungen und warum gibt es so viele Sprachoptionen? Die Antworten auf solche Fragen erfordern, dass man einige wichtige Dinge im Hinterkopf behält.
Die Funktionsweise von Text-to-Speech
Bevor man zu den eigentlichen Stimmen hinter Text-to-Speech kommt, ist es wichtig, ein besseres Verständnis dafür zu entwickeln, wie diese Lösungen überhaupt funktionieren.
Text-to-Speech nutzt künstliche Intelligenz, maschinelles Lernen und ähnliche Technologien, um die geschriebenen Wörter auf einer Seite oder einem Bildschirm in Audioinhalte umzuwandeln, die dann laut vorgelesen werden können. Dies umfasst nicht nur den Inhalt einer Website oder eines Artikels, sondern auch Text, der in Anwendungen wie Microsoft Word geschrieben wurde.
Die Audioinhalte werden vollständig von dem verwendeten Gerät erzeugt. Neben Desktop- und Laptop-Computern ist Text-to-Speech auch auf nahezu jedem Smartphone, Tablet oder anderen mobilen Gerät verfügbar, das heute auf dem Markt ist.
In der überwiegenden Mehrheit aller Lösungen wird die Text-to-Speech-Verarbeitung lokal auf dem Gerät selbst durchgeführt. Dies macht Text-to-Speech wertvoll, selbst wenn keine Internetverbindung vorhanden ist.
Neben der Möglichkeit, Menschen mit Sehproblemen den Zugang zu schriftlichen Inhalten zu erleichtern, ist Text-to-Speech auch hilfreich, weil Tonhöhe und sogar das Tempo der Stimme gesteuert werden können. Wenn Sie etwas verlangsamen möchten, um es besser zu verstehen, können Sie das tun. Ebenso können Sie die Stimme beschleunigen, um Inhalte schneller durchzugehen.
Text-to-Speech-Stimmen: Eine Analyse
Wenn es um die tatsächliche Stimme geht, die von diesen Text-to-Speech-Lösungen verwendet wird, läuft letztlich alles auf ein Konzept namens Sprachsynthesizer hinaus.
Was ist ein Sprachsynthesizer?
Sprachsynthese ist eine Form der Ausgabe, bei der Ihr Computer (oder ein anderes Gerät) Wörter in einer zuvor gewählten Stimme laut vorliest. Konzeptionell ist es nicht unähnlich dem Lesen der Wörter auf einer Seite oder dem Ausdrucken - es geht immer noch darum, wie der Computer die angeforderten Informationen ausgibt. Nur dass er dies nicht nur über Text, sondern über eine Stimme tut, die Sie über Ihre Lautsprecher oder Kopfhörer hören können.
Im Allgemeinen funktioniert die Sprachsynthese, indem die von Ihnen verwendete Lösung eine Reihe von grundlegenden, aber wichtigen Schritten befolgt. Der erste dieser Schritte beinhaltet die Umwandlung von Text auf einer Seite in Wörter.
Schritt 1: Vorverarbeitung
In diesem Teil des Prozesses analysieren Text-to-Speech-Lösungen die Wörter in den Inhalten, die Sie lesen möchten, und nehmen die Buchstaben - die im Wesentlichen nur Symbole sind - und wandeln sie in Wörter um. Dieser Teil des Prozesses ist wichtig, da das geschriebene Wort manchmal mehrdeutiger sein kann, als man denkt. Bestimmte Wörter oder sogar Phrasen können mehrere Bedeutungen haben. Ebenso muss der Computer in der Lage sein, den Unterschied zwischen Wörtern wie "ihr", "dort" und "sie sind" zu "verstehen" - drei Wörter, die gleich ausgesprochen werden, aber den Kontext eines Satzes erheblich verändern können.
Hier kommen künstliche Intelligenz und maschinelles Lernen ins Spiel. Mit KI können Text-to-Speech-Lösungen darauf "trainiert" werden, diese Mehrdeutigkeit so weit wie möglich zu beseitigen. Diese Phase des Text-to-Speech-Stimmenprozesses wird "Vorverarbeitung" genannt, da sie "hinter den Kulissen" stattfindet, bevor die betreffende Anwendung überhaupt etwas laut vorliest.
Dies ist auch die Phase, in der die Text-zu-Sprache-Lösung zwischen Wörtern unterscheidet, die gleich geschrieben werden, aber unterschiedlich klingen, je nachdem, wie sie verwendet werden. "Read" ist ein perfektes Beispiel dafür, denn es ist möglich, dass Sie heute Abend ein Buch lesen möchten, um sich zu entspannen, obwohl Sie dieses Buch schon unzählige Male gelesen haben. Menschen können diese beiden Ideen leicht anhand des Kontexts unterscheiden - künstliche Intelligenz wird auf der Computerseite eingesetzt, um ein ähnliches Ergebnis zu erzielen.
Ebenso schwierig in dieser Phase sind Dinge wie Zahlen, Abkürzungen, Akronyme und mehr. Sonderzeichen wie das Dollarzeichen sind auch schwerer zu "übersetzen" als das geschriebene Wort allein. Deshalb ist die Vorverarbeitungsphase so wichtig - sie hilft sicherzustellen, dass alles, was letztendlich laut vorgelesen wird, tatsächlich im beabsichtigten Kontext Sinn ergibt.
Schritt 2: Aussprache verstehen
Sobald der Text analysiert wurde und die Text-zu-Sprache-Lösung "versteht", welche Wörter laut gesprochen werden müssen, beginnt der nächste Teil des Prozesses. Dies ist der Moment, in dem diese Wörter in Phoneme umgewandelt werden - im Wesentlichen lernt man, wie man die Wörter im betreffenden Text richtig ausspricht.
Dies ist ein Teil des Prozesses, der sich im Laufe der Jahre dramatisch entwickelt hat. Wenn Sie jemals die Gelegenheit hatten, eine Text-zu-Sprache-Lösung aus den 1990er Jahren zu verwenden (oder einen älteren Film aus den 1970er oder 80er Jahren gesehen haben, der eine Szene mit Text-zu-Sprache enthielt), hatten Sie wahrscheinlich mit einer Computerstimme zu tun, die nicht natürlich klang. Es war sofort erkennbar, dass sie von einem Computer generiert wurde, und obwohl man verstehen konnte, was gesagt wurde, wurden die meisten Wörter wahrscheinlich falsch ausgesprochen.
Schritt 3: Die Umwandlung in Sprache beginnt
Sobald diese Phoneme identifiziert wurden, geht die Text-zu-Sprache-Lösung zum letzten Teil des Prozesses über: die Umwandlung dieser Informationen in Klang, der über die Lautsprecher oder Kopfhörer eines Geräts abgespielt werden kann.
Dies geschieht auf verschiedene Weise, je nach der verwendeten Lösung. Eine Möglichkeit besteht darin, dass ein Schauspieler oder eine Schauspielerin eine Liste von Phonemen laut vorliest, woraufhin diese Informationen in den Computer und die Lösung selbst zurückgespeist werden. Dann, sobald ein bestimmter Textblock von der Anwendung gescannt wurde, kann er die Phoneme, die er auf der Seite findet, mit den zuvor aufgezeichneten Phonemen abgleichen. Er fügt diese beiden Dinge dann zusammen, um eine Audio-Version des Textes auf eine weitaus natürlichere Weise als je zuvor wiederzugeben.
Einige Lösungen erlauben es dem Computer immer noch, die Stimme selbst zu erzeugen. Es funktioniert immer noch auf ähnliche Weise, nur dass die "Stimme" nicht auf zuvor aufgezeichnetem Audio basiert, sondern einfach durch die Erzeugung spezifischer Klangfrequenzen in der richtigen Reihenfolge erstellt wird.
In dieser Hinsicht ist es nicht ganz unähnlich der Art und Weise, wie ein Musiksynthesizer einem Musiker ermöglichen könnte, die Klänge von Instrumenten mit einer Standardtastatur, die an einen Computer angeschlossen ist, zu imitieren. Sie können die Tastatur spielen, wie sie es mit dem Klavier tun würden, obwohl anstelle von Klaviermusik jede Taste einen anderen Akkord auf einer Gitarre oder Klänge von einem Schlagzeug imitieren könnte. Es ist immer noch ein Computer, der die Absicht jedes Tastenanschlags "versteht" und ihn mit dem entsprechenden Klang verbindet, wenn auch in einem anderen Kontext.
Stimmoptionen und mehr
Ein Teil des Grundes, warum es so viele verschiedene Stimmoptionen in diesen Stimmgenerator Text-zu-Sprache-Lösungen gibt, ist, dass sie nicht so schwer zu erstellen sind, wie viele Leute annehmen. Die Arten von Phonemen, die für einen KI-Stimmgenerator benötigt werden, sind tatsächlich ziemlich häufig in der menschlichen Sprache. Daher würde es nur einen Schauspieler oder eine Schauspielerin erfordern, sich vor ein Mikrofon zu setzen, ein kurzes Skript mit allen notwendigen Phonemen zu lesen, woraufhin diese Informationen in die Lösung selbst zurückgespeist werden können.
Die KI-Sprachtechnologie wird jedes der Phoneme einzeln erkennen, im Wesentlichen diese Aufnahme in die Summe ihrer Teile "zerlegen" und diejenigen verwenden, die notwendig sind, um die Text-zu-Sprache-Stimmen genau zu erzeugen, die erforderlich sind, wenn ein Benutzer versucht, eine Website oder eine andere Form von Inhalten zu lesen.
Natürlich gibt es viele andere potenzielle Anwendungen für diesen Typ von natürlich klingendem Stimmgenerator, die über die bloße Unterstützung von Menschen mit Sehbehinderungen hinausgehen. In den letzten Jahren hat das öffentliche Interesse an KI-Sprache und Stimmerzeugung dank sozialer Netzwerke wie TikTok stark zugenommen.
TikTok ist tatsächlich eine der größeren Marken, die die KI-Stimmerzeugung angenommen haben, indem sie es den Nutzern ermöglicht, Videos aufzunehmen, Text über diese Videos zu legen und dann die Sprachsynthese diesen Inhalt laut vorlesen zu lassen. Es ist eine unterhaltsame Möglichkeit, eine zusätzliche Ebene der Immersion zu den auf TikTok geposteten Inhalten hinzuzufügen, und es ist eine, die mit der Zeit immer beliebter wird.
Die Zukunft der Text-zu-Sprache ist angekommen
Letztendlich ist die Sprach-Text-zu-Sprache-Technologie ein unschätzbares Werkzeug, weil sie uns ermöglicht, Dinge zu tun. Sie erlaubt Menschen mit Sehproblemen, denselben Inhalt zu genießen und zu verstehen, den alle anderen auch tun, und zwar zu ihren eigenen Bedingungen. Sie kann jeden Blogbeitrag, Artikel, jedes Dokument, Whitepaper oder andere gedruckte Inhalte in ein leicht konsumierbares Audioerlebnis verwandeln, sodass Sie es nicht nur zu Hause, sondern auch auf dem Weg zur Arbeit, im Fitnessstudio usw. genießen können.
Es macht unser Leben nicht nur produktiver, sondern hilft auch, eine Vielzahl bedeutender Probleme zu lösen, wie die oben genannten. Angesichts all dessen ist es leicht zu verstehen, warum Sprachsynthese und KI-Sprache in den letzten Jahren so populär geworden sind.
Wenn Sie mehr über Text-zu-Sprache-Stimmen erfahren möchten oder einfach mehr darüber wissen wollen, wie eine solche Lösung Ihr Leben bereichern kann, zögern Sie nicht - probieren Sie Speechify heute kostenlos aus.
Speechify ist die am besten bewertete App im App Store mit der natürlichsten Sprachwiedergabe und Benutzererfahrung sowie einer Vielzahl an individuellen Stimmen.
Speechify ist in verschiedenen Varianten verfügbar: für Einzelbenutzer, Gruppen oder API für Unternehmen jeder Größe.
Tyler Weitzman
Tyler Weitzman ist Mitbegründer, Leiter der Künstlichen Intelligenz und Präsident von Speechify, der weltweit führenden Text-to-Speech-App mit über 100.000 5-Sterne-Bewertungen. Weitzman ist Absolvent der Stanford University, wo er einen Bachelor in Mathematik und einen Master in Informatik mit Schwerpunkt Künstliche Intelligenz erwarb. Er wurde von Inc. Magazine als einer der Top 50 Unternehmer ausgewählt und in Business Insider, TechCrunch, LifeHacker, CBS und anderen Publikationen vorgestellt. Weitzmans Masterarbeit konzentrierte sich auf künstliche Intelligenz und Text-to-Speech, wobei seine Abschlussarbeit den Titel trug: „CloneBot: Personalisierte Dialog-Antwort-Vorhersagen.“