Startseite
Barrierefreiheit
Foto-Text-zu-Sprache—Wie man ein Bild einer Seite aufnimmt und vorlesen lässt

Foto-Text-zu-Sprache—Wie man ein Bild einer Seite aufnimmt und vorlesen lässt

Speechify ist der weltweit führende Audio-Reader. Bewältigen Sie Bücher, Dokumente, Artikel, PDFs, E-Mails - alles, was Sie lesen - schneller.

Kostenlos ausprobieren

Bekannt aus

Was ist OCR?
Wie OCR funktioniert
Kombination von Text-zu-Sprache und OCR
Anwendungen für Text-zu-Sprache OCR
Wie man Text aus einem Bild vorliest
1. Android
2. Apple
Speechify—Das beste TTS mit OCR-Technologie

Diesen Artikel mit Speechify anhören!

Erfahren Sie die Grundlagen der Foto-Text-zu-Sprache-Technologie - Wie man ein Bild einer Seite aufnimmt und auf jedem mobilen oder Desktop-Gerät und Betriebssystem vorlesen lässt.

TTS-Leser sind sehr gefragt und reichlich vorhanden. Aber bedeutet das, dass alle Text-zu-Sprache-Technologien die gleiche Leistung erbringen? Viele TTS-Bildschirmleser können digitalen Text aus Microsoft Word-Dokumenten, HTML-Webseiten oder kopierten Texten aus anderen Dateien verarbeiten. Aber nur wenige können gesperrten digitalen und physischen Text aus Bildern in natürlich klingende Erzählungen umwandeln. Diejenigen, die das können, verwenden optische Zeichenerkennung (OCR).

Was ist OCR?

OCR, bekannt als optische Zeichenerkennung oder Texterkennung, ist eine Technologie, die für spezialisierte Datenerfassung entwickelt wurde. Sie hat zahlreiche geschäftliche Anwendungen und wird auch in Freizeit und Unterhaltung häufig genutzt. Diese Technologie besteht normalerweise aus zwei Komponenten. Sie hat ein Hardware-Element zum Scannen von Bildern und ein Software-Element zur Extraktion und Umnutzung von Daten. Aber die Software-Komponente ist der spannendste und komplexeste Teil. OCR-Software kann einzelne Buchstaben und ganze Wörter erkennen und sie zu Sätzen zusammenfügen. Darüber hinaus ermöglicht sie es Benutzern, den ursprünglichen gesperrten Inhalt zu bearbeiten, ähnlich wie beim Bearbeiten einer PDF-Datei mit gesperrtem Textinhalt.

Wie OCR funktioniert

Optische Zeichenerkennung (OCR) ist eine Technologie, die verschiedene Arten von Dokumenten, wie gescannte Papierdokumente, PDF-Dateien oder Bilder, die mit einer Digitalkamera aufgenommen wurden, in bearbeitbare und durchsuchbare Daten umwandelt. Der Prozess beginnt damit, dass die OCR-Software die Struktur des Dokumentenbildes analysiert und Bereiche erkennt, die Text enthalten. Diese Bereiche werden dann in Zeilen, Wörter und Zeichen segmentiert. Jedes Zeichen wird mit einer Reihe vordefinierter Muster verglichen oder mit maschinellen Lernmodellen trainiert, um sie zu identifizieren und in maschinenkodierten Text umzuwandeln. Diese Umwandlung ermöglicht es, den Text im Bild digital zu bearbeiten, zu durchsuchen und zu verarbeiten.

Kombination von Text-zu-Sprache und OCR

Die Kombination von optischer Zeichenerkennung mit Text-zu-Sprache-Technologie schafft ein leistungsstarkes Werkzeug, das die Zugänglichkeit und Effizienz verbessert. OCR extrahiert Text aus gescannten Dokumenten, Bildern oder gedruckten Materialien und wandelt ihn in maschinenlesbaren Text um. Dieser Text kann dann in ein TTS-System eingespeist werden, das die geschriebenen Wörter in gesprochene Audioinhalte umwandelt. Diese Synergie ermöglicht eine Vielzahl von Anwendungen, wie die Unterstützung sehbehinderter Personen beim "Lesen" gedruckter Materialien, die Umwandlung von Büchern und Dokumenten in Hörbücher oder die Bereitstellung von Echtzeit-Audioübersetzungen gedruckter fremdsprachiger Texte. Durch die Integration von OCR mit TTS können Benutzer dynamischer mit Textinhalten interagieren, wodurch Informationen für alle zugänglicher werden, unabhängig von ihrer Lesefähigkeit oder Sehbehinderung.

Anwendungen für Text-zu-Sprache OCR

Die Kombination von OCR- und TTS-Technologien eröffnet zahlreiche Möglichkeiten, Informationen in verschiedenen Szenarien zugänglicher und konsumierbarer zu machen. Hier sind einige Anwendungen für Text-zu-Sprache OCR:

Assistive Technologie für Sehbehinderte: Wandelt schriftliche Inhalte aus Büchern, Dokumenten oder Bildschirmen in gesprochene Worte um und hilft sehbehinderten oder blinden Personen, den Inhalt zu "lesen".
Lernen und Bildung:

Hilfe für dyslexische Schüler: Unterstützt Schüler mit Dyslexie oder anderen Leseschwierigkeiten, indem geschriebener Text in Audio umgewandelt wird.
Multimodales Lernen: Ermöglicht es Lernenden, Inhalte sowohl zu lesen als auch zu hören, was das Verständnis und die Behaltensleistung verbessert.

Übersetzung und Sprachenlernen: Wandelt geschriebene fremdsprachige Texte in gesprochene Worte um und unterstützt bei Aussprache und Verständnis.
Digitaler Medienkonsum: Wandelt Bücher, Nachrichtenartikel und andere gedruckte Textinhalte in Hörbücher oder Podcasts für den mobilen Konsum um.
Dokumentenzugänglichkeit: Macht PDFs, gescannte Dokumente und andere nicht bearbeitbare Formate für Menschen zugänglich, die Audioinhalte bevorzugen oder benötigen.
Analyse historischer Dokumente: Wandelt alte Manuskripte oder Archivdokumente in Audioinhalte um, für Forscher oder Enthusiasten, die historische Texte hören möchten.
Geschäft und Produktivität: Wandelt gedruckte, nicht-digitale Berichte in gesprochene Inhalte für vielbeschäftigte Fachleute um.
Korrekturlesen: Hilft Autoren oder Redakteuren, Fehler in schriftlichen Inhalten auf Papier zu identifizieren, indem sie diese anhören.

Unterhaltung: Wandelt Comics, Graphic Novels oder andere hauptsächlich visuelle Medien in ein auditives Erlebnis um.

Wie man Text aus einem Bild vorliest

Nicht jeder Nutzer von Apple- und Android-Mobilgeräten weiß, dass ihre Apps möglicherweise über OCR-Technologie und einen TTS-Reader verfügen, der einfache Text-zu-Sprache-Konvertierungsaufgaben erledigen kann. Betrachten Sie die integrierten TTS-Funktionen wie Apps, die Ihnen kostenlos vorlesen, oder wie eine kostenlose App, die Text von Kameras liest, jedoch ist ihre Qualität nicht so gut wie die fortschrittlicherer Text-zu-Sprache-Software. So greifen Sie auf den Textleser von Bildern auf Android- und Apple-Geräten zu:

Android

Android-Geräte, zumindest diejenigen mit Android 12 OS und höher, verfügen über einen integrierten TTS-Reader. Es ist ein nützliches Werkzeug für die Navigation, das Lesen kleiner Schriftarten usw. Aber Sie können es auch verwenden, um Text von Bildern zu lesen. So richten Sie Ihr Gerät ein:

Gehen Sie über die App „Einstellungen“ zum Menü „Bedienungshilfen“.
Aktivieren Sie die Option „Zum Sprechen auswählen“.
Gehen Sie zum Tab „Einstellungen“ des TTS-Readers und schalten Sie die Option „Text auf Bildern lesen“ ein.
Kehren Sie zum Startbildschirm zurück und starten Sie die App „Kamera“.
Richten Sie die Kamera auf ein Buch, eine Zeitung oder einen anderen Bildschirm mit digitalem Text.
Tippen Sie auf die Schaltfläche „Zum Sprechen auswählen“, bevor Sie in der App „Kamera“ auf ein Wort tippen.

Der TTS-Reader für Android beginnt mit dem Vorlesen ab dem hervorgehobenen Wort. Sie können Textabschnitte auswählen, indem Sie mit dem Finger über den Bildschirm ziehen, wie Sie es bei einem Textverarbeitungsprogramm tun würden.

Apple

Um physischen Text mit einem iPhone laut vorzulesen, benötigen Sie eine funktionierende Kamera, iOS 15 oder höher und müssen den integrierten TTS-Reader aktivieren.

Navigieren Sie zum Tab „Bedienungshilfen“ im Menü „Einstellungen“.
Tippen Sie auf die Funktion „Gesprochener Inhalt“.
Aktivieren Sie die Optionen „Auswahl sprechen“ und „Bildschirm sprechen“.
Gehen Sie zurück zum Startbildschirm und schalten Sie die Kamera ein.
Richten Sie die Kamera auf eine Seite und warten Sie, bis die Schaltfläche „Live Text“ in der unteren Symbolleiste erscheint.
Tippen Sie auf die Schaltfläche, um das OCR-Bildschirmlesen zu aktivieren.
Wischen Sie mit zwei Fingern nach unten, um vom oberen Rand der Seite zu lesen.
Tippen Sie auf ein Wort oder treffen Sie eine Auswahl auf dem Bildschirm, um ein bestimmtes Wort, einen Satz oder einen Absatz laut vorzulesen.

Wie Android-Geräte haben iPads und iPhones begrenzte OCR- und TTS-Fähigkeiten. Während die Genauigkeit der Textverarbeitung überdurchschnittlich ist, ist die Sprachqualität aufgrund ihrer robotischen Natur enttäuschend.

Speechify—Das beste TTS mit OCR-Technologie

Während integrierte TTS-Reader und OCR-Software auf mobilen Geräten schön zu haben sind, sind ihre Qualität und Leistung weniger beeindruckend. Glücklicherweise gibt es eine alternative Lese-App. Speechify ist ein Text-zu-Sprache-Reader, der OCR-Technologie und hochwertige, KI-generierte Stimmen kombiniert. Seine Funktionalität übertrifft die der standardmäßigen mobilen Textleser und kann ganze Bücher und physische Dokumente scannen, um den physischen Text in digitalen Text zu verwandeln. Von dort aus erzeugen die komplexen Algorithmen natürlich klingende Stimmen, die Sie steuern und an Ihre gewünschte Lesegeschwindigkeit anpassen können. Die Speechify Text-zu-Sprache-Software ist auf den folgenden Plattformen verfügbar:

Windows
macOS
Linux
iOS
Android

Egal, ob Sie es aus dem Apple App Store oder Google Play Store beziehen oder die Desktop-Mac-Version oder die Chrome-Browsererweiterung herunterladen, eine Lizenz reicht aus, um Speechify auf all Ihren Desktop- und Mobilgeräten zu nutzen. Die benutzerfreundliche Oberfläche spricht alle Altersgruppen und technischen Hintergründe an. Speechify OCR-Scans sind für das Echtzeit-Online-Lesen verfügbar.

Entwickelt für Benutzer mit Legasthenie, Leseschwierigkeiten, Sehbehinderungen und Multitasker, leistet die assistive Technologie von Speechify mehr als ein typischer Vollbildleser. Es ist die App, die Sie möchten, um jeden digitalen und physischen Text in ein Hörbuch zu verwandeln, Podcasts zu erstellen und Ihre Lesefähigkeiten mit weniger Aufwand und größerer Konzentration zu verbessern. Probieren Sie die kostenlose Speechify Text-zu-Sprache-App aus und personalisieren Sie ein immersives Leseerlebnis.

Zurück

Entdecken Sie die 10 innovativsten Wege, um Ihre digitalen Projekte mit der Speechify Text-to-Speech API zu transformieren.

Weiter

Ein Leitfaden zum Meistern von Text und Lesen

Cliff Weitzman

Cliff Weitzman ist ein Verfechter für Legasthenie und der CEO und Gründer von Speechify, der weltweit führenden Text-zu-Sprache-App mit über 100.000 5-Sterne-Bewertungen und dem ersten Platz im App Store in der Kategorie Nachrichten & Zeitschriften. 2017 wurde Weitzman für seine Arbeit, das Internet für Menschen mit Lernschwierigkeiten zugänglicher zu machen, in die Forbes 30 unter 30 Liste aufgenommen. Cliff Weitzman wurde in führenden Medien wie EdSurge, Inc., PC Mag, Entrepreneur und Mashable vorgestellt.

Von Cliff Weitzman

Verfechter für Legasthenie & Barrierefreiheit, CEO/Gründer von Speechify

in Barrierefreiheit am 2. Januar 2025

Aktuelle Blogs

7. Januar 2025
Kostenloser Deepfake Video Maker: Wie man KI für Spaß und Kreativität nutzt
7. Januar 2025
PDF zu Audio Konverter: Hören Sie Ihre PDFs
7. Januar 2025
Zurück ins Büro? So erleichtern Sie den Übergang
7. Januar 2025
Alternativen zu Elai.io
6. Januar 2025
Prominente mit Legasthenie
6. Januar 2025
Gray Man Bücher in der richtigen Reihenfolge
5. Januar 2025
Wie man kostenlos in MP3 konvertiert
5. Januar 2025
PDFs in Chrome lesen
5. Januar 2025
Text-zu-Video KI: Erstellen Sie fesselnde Videos mit dem Speechify AI Video Generator
5. Januar 2025
Ein Leitfaden zum Meistern von Text und Lesen
5. Januar 2025
Verwandeln Sie jedes Buch in ein Hörbuch
5. Januar 2025
Top 5 der besten Synchronisationssoftware-Tools für Mac
5. Januar 2025
Stimmen-Generatoren für Cartoon-Charaktere
4. Januar 2025
AI-Film: Die Schnittstelle von filmischem Handwerk und Maschinenintelligenz
4. Januar 2025
MP4 zu GIF: Der ultimative Leitfaden zur Umwandlung von Videos in animierte Bilder
4. Januar 2025
Vergleich von E-Learning-Autorentools-Software
4. Januar 2025
Beste Software-Tools zur Erstellung interaktiver Rollenspiele
4. Januar 2025
Wie man E-Learning-Videos lokalisiert: Ein umfassender Leitfaden
3. Januar 2025
Text-to-Speech in HTML5: Verbesserung der Web-Interaktion mit Stimme
3. Januar 2025
Beste KI-Verkaufsvideo-Ersteller. Steigern Sie Ihre Produktion von Verkaufsvideos.
3. Januar 2025
Blog zu Video: Die Kraft von Videoinhalten aus geschriebenen Blogs nutzen
3. Januar 2025
Die Kunst der TikTok-Untertitel meistern: Ihr Publikum fesseln und unterhalten
3. Januar 2025
Wie man einen Ice Spice Deepfake erstellt
3. Januar 2025
Text-to-Speech in Google Docs: Alles, was Sie wissen müssen
3. Januar 2025
Weiblicher Stimmenverzerrer
2. Januar 2025
Was Sie über Synthesia.io und Alternativen wissen sollten
2. Januar 2025
Was ist die ideale Facebook-Video-Größe?
2. Januar 2025
Können KI-Video-Editoren Untertitel, offene oder geschlossene Untertitel zu einem Video hinzufügen?
2. Januar 2025
Hörbücher auf Spotify hören. Lohnt es sich?
2. Januar 2025
Transcriber: Ihr Leitfaden zur Umwandlung von Audio in Chancen

Speechify Text-to-Speech hilft Ihnen, Zeit zu sparen

Über 150.000 5-Sterne-Bewertungen

Kostenlos testen

Beliebte Blogs

27. Juni 2022
Beste Promi-Stimmen-Generatoren 2024
21. August 2022
YouTube Text-to-Speech: Verbessern Sie Ihre Videoinhalte mit Speechify
20. Oktober 2022
Die 7 besten Alternativen zu Synthesia.io
1. Januar 2025
Alles, was Sie über Text-to-Speech auf TikTok wissen müssen
25. Juli 2022
Die 10 besten Text-to-Speech-Apps für Android
27. Juli 2022
Wie man ein PDF in Sprache umwandelt
2. Januar 2025
Mädchen-Stimmenverzerrer mit KI: Eine Anleitung und die besten Tools für den Job
27. Juni 2022
So nutzen Sie Siri Text-to-Speech
26. Oktober 2022
Obama Text-to-Speech
17. Juli 2022
Roboter-Stimmen-Generatoren: Die Zukunft der Audiokreation
1. August 2022
PDF Vorlesen: Kostenlose & Kostenpflichtige Optionen
18. Juli 2022
Alternativen zu FakeYou Text-to-Speech
31. Oktober 2022
Alles über Deepfake-Stimmen
27. September 2022
TikTok Sprachgenerator
18. August 2022
Text-to-Speech GoAnimate
27. Juni 2022
Die besten Promi-Text-zu-Sprache-Generatoren
2. Januar 2025
PDF Audio Reader
27. Juni 2022
Wie man indische Text-zu-Sprache-Stimmen erhält
27. Juni 2022
Verbessern Sie Ihr Anime-Erlebnis mit Anime-Sprachgeneratoren
27. Juni 2022
Beste Text-zu-Sprache-Online-Tools
3. Oktober 2022
Top 50 Filme basierend auf Büchern, die Sie lesen sollten
30. Oktober 2022
Audio herunterladen
27. Juni 2022
Wie man Text-to-Speech für Quandale Dingle Meme-Sounds verwendet
10. August 2022
Top 5 Apps, die Texte vorlesen
27. Juni 2022
Die besten weiblichen Text-to-Speech-Stimmen
3. Januar 2025
Weiblicher Stimmenverzerrer
2. Oktober 2022
Sonic Text-to-Speech Sprachgenerator online
16. Juli 2022
Beste KI-Stimmengeneratoren - Die ultimative Liste
23. August 2022
Stimmenverzerrer
27. Juni 2022
Text-to-Speech in PowerPoint

Text zu Sprache

iPhone & iPad App

Chrome-Erweiterung

Android App

Mac App

KI-Voiceover

Stimmenklonen

KI-Synchronisation

Transkription

KI-Avatar

API kostenlos ausprobieren

API-Vertrieb kontaktieren

Text zu Sprache für Unternehmen

Voiceover-Studio für Unternehmen

Text zu Sprache für Schulen

Text zu Sprache für Behindertenunterstützung

Text zu Sprache für öffentliche Schulen in NYC

Unsere Geschichte

Bewertungen

Kontakt

Blog

Preise

Beste Text-zu-Sprache-Online-Dienste

Wie Text zu Sprache bei einem individuellen Bildungsprogramm hilft

Text-zu-Sprache-Tools zur Bewältigung von ADHS-Herausforderungen

Text-zu-Sprache WAV-Datei

Beste KI-Stimmengeneratoren. Die ultimative Liste

Die besten Text-zu-Sprache-Apps

Stimmenverzerrer

Mein Dokument laut vorlesen

Text zu Sprache auf Amazon

Text zu Sprache auf Apple-Geräten

Alternativen zu Google Cloud Text zu Sprache

Alternativen zu Google WaveNet

Beste Text-zu-Sprache-Apps für Android

Brandon Sanderson Hörbücher

Text zu Sprache Google Docs

Alternativen zu FakeYou Text zu Sprache

Alles, was Sie über Text zu Sprache auf TikTok wissen müssen

Mädchen-Stimmenverzerrer

Die besten Alternativen zu Synthesia.io

Roboter-Text-zu-Sprache

Weiblicher Stimmenverzerrer

Audio herunterladen

Promi-Voiceover-Generator

Wie man ein PDF laut vorlesen lässt

5 Apps, die Text vorlesen

Die besten weiblichen Text-zu-Sprache-Stimmen

Wie man Promi-Stimmen mit Text zu Sprache erhält

Deepfake-Stimme

Wie man ein PDF in Sprache umwandelt