1. Startseite
  2. Barrierefreiheit
  3. Foto-Text-zu-Sprache—Wie man ein Bild einer Seite aufnimmt und vorlesen lässt
Social Proof

Foto-Text-zu-Sprache—Wie man ein Bild einer Seite aufnimmt und vorlesen lässt

Speechify ist der weltweit führende Audio-Reader. Bewältigen Sie Bücher, Dokumente, Artikel, PDFs, E-Mails - alles, was Sie lesen - schneller.

Bekannt aus

forbes logocbs logotime magazine logonew york times logowall street logo
Diesen Artikel mit Speechify anhören!
Speechify

Erfahren Sie die Grundlagen der Foto-Text-zu-Sprache-Technologie - Wie man ein Bild einer Seite aufnimmt und auf jedem mobilen oder Desktop-Gerät und Betriebssystem vorlesen lässt.

TTS-Leser sind sehr gefragt und reichlich vorhanden. Aber bedeutet das, dass alle Text-zu-Sprache-Technologien die gleiche Leistung erbringen? Viele TTS-Bildschirmleser können digitalen Text aus Microsoft Word-Dokumenten, HTML-Webseiten oder kopierten Texten aus anderen Dateien verarbeiten. Aber nur wenige können gesperrten digitalen und physischen Text aus Bildern in natürlich klingende Erzählungen umwandeln. Diejenigen, die das können, verwenden optische Zeichenerkennung (OCR).

Was ist OCR?

OCR, bekannt als optische Zeichenerkennung oder Texterkennung, ist eine Technologie, die für spezialisierte Datenerfassung entwickelt wurde. Sie hat zahlreiche geschäftliche Anwendungen und wird auch in Freizeit und Unterhaltung häufig genutzt. Diese Technologie besteht normalerweise aus zwei Komponenten. Sie hat ein Hardware-Element zum Scannen von Bildern und ein Software-Element zur Extraktion und Umnutzung von Daten. Aber die Software-Komponente ist der spannendste und komplexeste Teil. OCR-Software kann einzelne Buchstaben und ganze Wörter erkennen und sie zu Sätzen zusammenfügen. Darüber hinaus ermöglicht sie es Benutzern, den ursprünglichen gesperrten Inhalt zu bearbeiten, ähnlich wie beim Bearbeiten einer PDF-Datei mit gesperrtem Textinhalt.

Wie OCR funktioniert

Optische Zeichenerkennung (OCR) ist eine Technologie, die verschiedene Arten von Dokumenten, wie gescannte Papierdokumente, PDF-Dateien oder Bilder, die mit einer Digitalkamera aufgenommen wurden, in bearbeitbare und durchsuchbare Daten umwandelt. Der Prozess beginnt damit, dass die OCR-Software die Struktur des Dokumentenbildes analysiert und Bereiche erkennt, die Text enthalten. Diese Bereiche werden dann in Zeilen, Wörter und Zeichen segmentiert. Jedes Zeichen wird mit einer Reihe vordefinierter Muster verglichen oder mit maschinellen Lernmodellen trainiert, um sie zu identifizieren und in maschinenkodierten Text umzuwandeln. Diese Umwandlung ermöglicht es, den Text im Bild digital zu bearbeiten, zu durchsuchen und zu verarbeiten.

Kombination von Text-zu-Sprache und OCR

Die Kombination von optischer Zeichenerkennung mit Text-zu-Sprache-Technologie schafft ein leistungsstarkes Werkzeug, das die Zugänglichkeit und Effizienz verbessert. OCR extrahiert Text aus gescannten Dokumenten, Bildern oder gedruckten Materialien und wandelt ihn in maschinenlesbaren Text um. Dieser Text kann dann in ein TTS-System eingespeist werden, das die geschriebenen Wörter in gesprochene Audioinhalte umwandelt. Diese Synergie ermöglicht eine Vielzahl von Anwendungen, wie die Unterstützung sehbehinderter Personen beim "Lesen" gedruckter Materialien, die Umwandlung von Büchern und Dokumenten in Hörbücher oder die Bereitstellung von Echtzeit-Audioübersetzungen gedruckter fremdsprachiger Texte. Durch die Integration von OCR mit TTS können Benutzer dynamischer mit Textinhalten interagieren, wodurch Informationen für alle zugänglicher werden, unabhängig von ihrer Lesefähigkeit oder Sehbehinderung.

Anwendungen für Text-zu-Sprache OCR

Die Kombination von OCR- und TTS-Technologien eröffnet zahlreiche Möglichkeiten, Informationen in verschiedenen Szenarien zugänglicher und konsumierbarer zu machen. Hier sind einige Anwendungen für Text-zu-Sprache OCR:

  • Assistive Technologie für Sehbehinderte: Wandelt schriftliche Inhalte aus Büchern, Dokumenten oder Bildschirmen in gesprochene Worte um und hilft sehbehinderten oder blinden Personen, den Inhalt zu "lesen".
  • Lernen und Bildung:
    • Hilfe für dyslexische Schüler: Unterstützt Schüler mit Dyslexie oder anderen Leseschwierigkeiten, indem geschriebener Text in Audio umgewandelt wird.
    • Multimodales Lernen: Ermöglicht es Lernenden, Inhalte sowohl zu lesen als auch zu hören, was das Verständnis und die Behaltensleistung verbessert.
  • Übersetzung und Sprachenlernen: Wandelt geschriebene fremdsprachige Texte in gesprochene Worte um und unterstützt bei Aussprache und Verständnis.
  • Digitaler Medienkonsum: Wandelt Bücher, Nachrichtenartikel und andere gedruckte Textinhalte in Hörbücher oder Podcasts für den mobilen Konsum um.
  • Dokumentenzugänglichkeit: Macht PDFs, gescannte Dokumente und andere nicht bearbeitbare Formate für Menschen zugänglich, die Audioinhalte bevorzugen oder benötigen.
  • Analyse historischer Dokumente: Wandelt alte Manuskripte oder Archivdokumente in Audioinhalte um, für Forscher oder Enthusiasten, die historische Texte hören möchten.
  • Geschäft und Produktivität: Wandelt gedruckte, nicht-digitale Berichte in gesprochene Inhalte für vielbeschäftigte Fachleute um.
  • Korrekturlesen: Hilft Autoren oder Redakteuren, Fehler in schriftlichen Inhalten auf Papier zu identifizieren, indem sie diese anhören.
  • Unterhaltung: Wandelt Comics, Graphic Novels oder andere hauptsächlich visuelle Medien in ein auditives Erlebnis um.

Wie man Text aus einem Bild vorliest

Nicht jeder Nutzer von Apple- und Android-Mobilgeräten weiß, dass ihre Apps möglicherweise über OCR-Technologie und einen TTS-Reader verfügen, der einfache Text-zu-Sprache-Konvertierungsaufgaben erledigen kann. Betrachten Sie die integrierten TTS-Funktionen wie Apps, die Ihnen kostenlos vorlesen, oder wie eine kostenlose App, die Text von Kameras liest, jedoch ist ihre Qualität nicht so gut wie die fortschrittlicherer Text-zu-Sprache-Software. So greifen Sie auf den Textleser von Bildern auf Android- und Apple-Geräten zu:

Android

Android-Geräte, zumindest diejenigen mit Android 12 OS und höher, verfügen über einen integrierten TTS-Reader. Es ist ein nützliches Werkzeug für die Navigation, das Lesen kleiner Schriftarten usw. Aber Sie können es auch verwenden, um Text von Bildern zu lesen. So richten Sie Ihr Gerät ein:

  • Gehen Sie über die App „Einstellungen“ zum Menü „Bedienungshilfen“.
  • Aktivieren Sie die Option „Zum Sprechen auswählen“.
  • Gehen Sie zum Tab „Einstellungen“ des TTS-Readers und schalten Sie die Option „Text auf Bildern lesen“ ein.
  • Kehren Sie zum Startbildschirm zurück und starten Sie die App „Kamera“.
  • Richten Sie die Kamera auf ein Buch, eine Zeitung oder einen anderen Bildschirm mit digitalem Text.
  • Tippen Sie auf die Schaltfläche „Zum Sprechen auswählen“, bevor Sie in der App „Kamera“ auf ein Wort tippen.

Der TTS-Reader für Android beginnt mit dem Vorlesen ab dem hervorgehobenen Wort. Sie können Textabschnitte auswählen, indem Sie mit dem Finger über den Bildschirm ziehen, wie Sie es bei einem Textverarbeitungsprogramm tun würden.

Apple

Um physischen Text mit einem iPhone laut vorzulesen, benötigen Sie eine funktionierende Kamera, iOS 15 oder höher und müssen den integrierten TTS-Reader aktivieren.

  • Navigieren Sie zum Tab „Bedienungshilfen“ im Menü „Einstellungen“.
  • Tippen Sie auf die Funktion „Gesprochener Inhalt“.
  • Aktivieren Sie die Optionen „Auswahl sprechen“ und „Bildschirm sprechen“.
  • Gehen Sie zurück zum Startbildschirm und schalten Sie die Kamera ein.
  • Richten Sie die Kamera auf eine Seite und warten Sie, bis die Schaltfläche „Live Text“ in der unteren Symbolleiste erscheint.
  • Tippen Sie auf die Schaltfläche, um das OCR-Bildschirmlesen zu aktivieren.
  • Wischen Sie mit zwei Fingern nach unten, um vom oberen Rand der Seite zu lesen.
  • Tippen Sie auf ein Wort oder treffen Sie eine Auswahl auf dem Bildschirm, um ein bestimmtes Wort, einen Satz oder einen Absatz laut vorzulesen.

Wie Android-Geräte haben iPads und iPhones begrenzte OCR- und TTS-Fähigkeiten. Während die Genauigkeit der Textverarbeitung überdurchschnittlich ist, ist die Sprachqualität aufgrund ihrer robotischen Natur enttäuschend.

Speechify—Das beste TTS mit OCR-Technologie

Während integrierte TTS-Reader und OCR-Software auf mobilen Geräten schön zu haben sind, sind ihre Qualität und Leistung weniger beeindruckend. Glücklicherweise gibt es eine alternative Lese-App. Speechify ist ein Text-zu-Sprache-Reader, der OCR-Technologie und hochwertige, KI-generierte Stimmen kombiniert. Seine Funktionalität übertrifft die der standardmäßigen mobilen Textleser und kann ganze Bücher und physische Dokumente scannen, um den physischen Text in digitalen Text zu verwandeln. Von dort aus erzeugen die komplexen Algorithmen natürlich klingende Stimmen, die Sie steuern und an Ihre gewünschte Lesegeschwindigkeit anpassen können. Die Speechify Text-zu-Sprache-Software ist auf den folgenden Plattformen verfügbar:

Egal, ob Sie es aus dem Apple App Store oder Google Play Store beziehen oder die Desktop-Mac-Version oder die Chrome-Browsererweiterung herunterladen, eine Lizenz reicht aus, um Speechify auf all Ihren Desktop- und Mobilgeräten zu nutzen. Die benutzerfreundliche Oberfläche spricht alle Altersgruppen und technischen Hintergründe an. Speechify OCR-Scans sind für das Echtzeit-Online-Lesen verfügbar.

Entwickelt für Benutzer mit Legasthenie, Leseschwierigkeiten, Sehbehinderungen und Multitasker, leistet die assistive Technologie von Speechify mehr als ein typischer Vollbildleser. Es ist die App, die Sie möchten, um jeden digitalen und physischen Text in ein Hörbuch zu verwandeln, Podcasts zu erstellen und Ihre Lesefähigkeiten mit weniger Aufwand und größerer Konzentration zu verbessern. Probieren Sie die kostenlose Speechify Text-zu-Sprache-App aus und personalisieren Sie ein immersives Leseerlebnis.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman ist ein Verfechter für Legasthenie und der CEO und Gründer von Speechify, der weltweit führenden Text-zu-Sprache-App mit über 100.000 5-Sterne-Bewertungen und dem ersten Platz im App Store in der Kategorie Nachrichten & Zeitschriften. 2017 wurde Weitzman für seine Arbeit, das Internet für Menschen mit Lernschwierigkeiten zugänglicher zu machen, in die Forbes 30 unter 30 Liste aufgenommen. Cliff Weitzman wurde in führenden Medien wie EdSurge, Inc., PC Mag, Entrepreneur und Mashable vorgestellt.