什么是光学字符识别 (OCR)?
当前位置:首页 > 技术分享 > 什么是光学字符识别 (OCR)?

什么是光学字符识别 (OCR)?

机器视觉 2021-09-22 11380


光学字符识别,简称OCR,用于描述将文本图像转换为机器编码文本的算法和技术(电子和机械)。我们通常从软件的角度考虑 OCR 。也就是说,这些系统:

  1. 接受输入图像(扫描的、拍摄的或计算机生成的)

  2. 自动检测文本并像人类一样“阅读”它

  3. 将文本转换为机器可读格式,以便在更大的计算机视觉系统范围内对其进行搜索、索引和处理


image.png

什么是光学字符识别 (OCR)?

OCR 系统也可以是机械的和物理的。例如,您可能熟悉电子铅笔,它会在您书写时自动扫描您的笔迹。完成书写后,将笔连接到计算机(通用串行总线 (USB)、蓝牙或其他方式)。然后,OCR 软件会分析 smartpen 记录的动作和图像,生成机器可读的文本。

OCR的应用

OCR 的应用有很多,最初是为盲人制造阅读机(Schantz,1982)。从那时起,OCR 应用程序有了显着的发展,包括(但不限于):

  1. 自动车牌/车牌识别 (ALPR/ANPR)

  2. 交通标志识别

  3. 分析和击败网站上的 CAPTCHA(完全自动化的公共图灵测试,以区分计算机和人类)

  4. 从名片中提取信息

  5. 自动读取护照的机读区 (MRZ) 和其他相关部分

  6. 从银行支票中解析路由号码、帐号和货币金额

  7. 理解自然场景中的文本,例如从智能手机拍摄的照片

方向和脚本检测

在我们详细讨论 OCR 之前,我们需要简要介绍一下方向和脚本检测 (OSD),我们将在以后的教程中详细介绍。如果 OCR 是获取输入图像并以人类可读和机器可读格式返回文本的过程,那么 OSD 是分析图像以获取文本元数据的过程,特别是方向和脚本/书写风格。

文本的方向是输入图像中文本的角度(以度为单位)。为了获得更高的 OCR 精度,我们可能需要应用 OSD 来确定文本方向,对其进行校正,然后应用 OCR。

脚本和写作风格是指用于书面和打字交流的一组字符和符号。我们大多数人都熟悉拉丁字符,它构成了许多欧洲和西方国家使用的字符和符号;但是,还有许多其他形式的书写方式被广泛使用,包括阿拉伯语、希伯来语、中文等。拉丁字符与阿拉伯语有很大不同,而阿拉伯语又与日本汉字不同,这是一种使用汉字的日本书写系统.

OCR 系统可以针对特定脚本或书写系统做出的任何规则、启发式方法或假设,都将使 OCR 引擎在应用于给定脚本时更加准确。因此,我们可能会使用 OSD 信息作为提高 OCR 准确性的前兆。

总结

在本教程中,您了解了光学字符识别 (OCR) 领域。根据我的经验,OCR 表面上看起来很容易,但当您需要开发一个工作系统时,它绝对是一个具有挑战性的领域。请记住,计算机视觉领域已经存在50 多年,但研究人员尚未创建高度准确的通用 OCR 系统。我们肯定离著名的云服务提供商 API 越来越近,但我们还有很长的路要走。



本文链接地址:https://schnoka-vts.com/post/952.html

立即定制视觉方案