1. 首页
  2. 无障碍访问
  3. 照片文字转语音——如何拍摄页面并朗读
Social Proof

照片文字转语音——如何拍摄页面并朗读

Speechify是全球第一的音频阅读器。让您更快地阅读书籍、文档、文章、PDF、电子邮件——任何您需要阅读的内容。

精选推荐

forbes logocbs logotime magazine logonew york times logowall street logo
用Speechify收听这篇文章!
Speechify

了解照片文字转语音的基础知识——如何在任何移动或桌面设备和操作系统上拍摄页面并朗读。

TTS 阅读器需求量大且供应充足。但这是否意味着所有 文字转语音 技术都能提供相同的性能?许多 TTS 屏幕阅读器可以处理来自 Microsoft Word 文档、HTML 网页或其他文本文件中复制粘贴的数字文本。但很少有能将图像中的锁定数字和物理文本转换为自然听感的叙述。那些能够做到的使用了光学字符识别 (OCR)。

什么是 OCR?

OCR,即光学字符识别或文本识别,是一种专为数据提取而设计的技术。它在商业应用和休闲娱乐中有着广泛的用途。这种技术通常有两个组成部分。它有一个硬件部分用于扫描图像,还有一个软件部分用于提取和重新利用数据。但软件部分是最令人兴奋和复杂的。OCR 软件可以识别单个字母和整个单词,并将它们排列成句子。此外,它还允许用户编辑原始锁定内容,类似于编辑带有锁定文本内容的 PDF 文件。

OCR 的工作原理

光学字符识别 (OCR) 是一种将不同类型的文档,如扫描的纸质文档、PDF 文件或数码相机拍摄的图像,转换为可编辑和可搜索数据的技术。该过程始于 OCR 软件分析文档图像的结构,检测包含文本的区域。然后将这些区域分割成行、单词和字符。每个字符与一组预定义的模式进行比较,或通过机器学习模型进行训练,以识别并转换为机器编码文本。这种转换使图像中的文本可以被编辑、搜索和数字化处理。

结合文字转语音和 OCR

将光学字符识别与文字转语音技术结合,创造出一种强大的工具,提升了可访问性和效率。OCR 从扫描文档、图像或印刷材料中提取文本,并将其转换为机器可读文本。然后,这些文本可以输入到 TTS 系统中,将书面文字转换为语音音频。这种协同作用允许广泛的应用,例如帮助视障人士“阅读”印刷材料,将书籍和文档转换为有声读物,或提供印刷外文文本的实时音频翻译。通过将 OCR 与 TTS 集成,用户可以更动态地与文本内容互动,使信息对所有人更易获取,无论他们的阅读能力或视力障碍如何。

文字转语音 OCR 的用途

结合 OCR 和 TTS 技术在各种场景中开辟了许多可能性,使信息更易获取和消费。以下是文字转语音 OCR 的一些用途:

  • 辅助技术为视障人士服务:将书籍、文档或屏幕上的书面内容转换为语音,帮助视障或盲人“阅读”内容。
  • 学习和教育:
    • 为阅读障碍学生提供帮助:通过将书面文本转换为音频,帮助有阅读障碍的学生。
    • 多模态学习:允许学习者同时阅读和聆听内容,提高理解和记忆。
  • 翻译和语言学习:将书面外语文本转换为语音,帮助发音和理解。
  • 数字内容消费:将书籍、新闻文章和其他印刷文本内容转换为有声读物或播客,便于随时随地消费。
  • 文档可访问性:使 PDF、扫描文档和其他不可编辑格式对需要或偏好音频内容的人可访问。
  • 历史文档分析:将旧手稿或档案文档转换为音频内容,供研究人员或爱好者聆听历史文本。
  • 商业和生产力:将印刷的非数字报告转换为语音内容,供忙碌的专业人士使用。
  • 校对:帮助作家或编辑通过聆听纸上书面内容来识别错误。
  • 娱乐:将漫画书、图画小说或其他主要视觉媒体转换为听觉体验。

如何从图片中朗读文本

并不是每个苹果和安卓手机用户都知道,他们的应用程序可能具备OCR技术和TTS阅读器,能够完成简单的文本转语音转换任务。内置的TTS功能就像是免费的应用程序,可以为你朗读,或者像是从相机读取文本的免费应用程序,但其质量不如更高级的文本转语音软件。以下是在安卓和苹果设备上如何从图像访问文本阅读器的方法:

安卓

安卓设备,至少是运行安卓12及以上系统的设备,配备了内置的TTS阅读器。这是一个用于导航、阅读小字体等的有用工具。你也可以用它来读取图片中的文本。以下是设置设备的方法:

  • 通过“设置”应用进入“辅助功能”菜单。
  • 启用“选择朗读”选项。
  • 进入TTS阅读器的“设置”选项卡,打开“读取图像上的文本”选项。
  • 返回主屏幕并启动“相机”应用。
  • 将相机对准书籍、报纸或其他带有数字文本的屏幕。
  • 在“相机”应用中点击“选择朗读”按钮,然后点击一个单词。

TTS安卓阅读器将从高亮显示的单词开始朗读。你可以像使用文字处理器一样,通过在屏幕上拖动手指来选择文本块。

苹果

使用iPhone朗读实体文本需要一个可用的相机、iOS 15及以上版本,并启用内置的TTS阅读器。

  • 从“设置”菜单中进入“辅助功能”选项卡。
  • 点击“朗读内容”功能。
  • 启用“朗读选择”和“朗读屏幕”选项。
  • 返回主屏幕并打开相机。
  • 将相机对准页面,等待底部工具栏上出现“实时文本”按钮。
  • 点击按钮以启用OCR屏幕阅读。
  • 用两根手指向下滑动,从页面顶部开始阅读。
  • 点击一个单词或在屏幕上进行选择,以朗读特定的单词、句子或段落。

与安卓设备类似,iPad和iPhone的OCR和TTS功能有限。虽然文字处理的准确性高于平均水平,但由于其机械化的性质,语音质量令人失望。

Speechify—最佳的TTS与OCR技术结合

虽然内置的TTS阅读器和OCR软件在移动设备上很不错,但它们的质量和性能不够令人满意。幸运的是,你有一个替代的文本阅读应用程序。Speechify是一款文本转语音阅读器,结合了OCR技术和高质量的AI生成语音。其功能超越了默认的移动文本阅读器,可以扫描整本书和实体文件,将实体文本处理成数字文本。然后,复杂的算法生成自然的语音,你可以控制和调整到你想要的阅读速度。Speechify文本转语音软件可在以下平台使用:

无论你是从苹果应用商店还是谷歌应用商店获取,或是下载桌面Mac版本或Chrome浏览器扩展,一个许可证足以在所有桌面和移动设备上使用Speechify。用户友好的界面吸引了所有年龄段和技术背景的人。Speechify的OCR扫描可用于实时在线阅读。

Speechify的辅助技术不仅仅是一个典型的全屏阅读器,它专为有阅读障碍、视觉障碍和多任务处理需求的用户设计。它是你想要将任何数字和实体文本转换为有声书、创建播客,并以更少的努力和更高的专注力提高阅读技能的应用程序。试用免费的Speechify文本转语音应用程序,个性化沉浸式阅读体验。

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman 是一位阅读障碍倡导者,也是全球排名第一的文字转语音应用Speechify的首席执行官和创始人,该应用在App Store新闻与杂志类中排名第一,拥有超过10万个五星好评。2017年,Weitzman因其在提高学习障碍人士网络可访问性方面的贡献,被评为福布斯30位30岁以下精英之一。Cliff Weitzman曾被EdSurge、Inc.、PC Mag、Entrepreneur、Mashable等知名媒体报道。