光学字符识别(OCR)是一种将印刷材料转换成易于编辑和存储的文本或文字处理文件的过程。该技术使此类材料的存储空间比硬拷贝材料少得多。OCR技术对信息的存储方式产生了巨大的影响,共享和编辑。在光学字符识别之前,如果有...
光学字符识别(OCR)是一种将印刷材料转换成易于编辑和存储的文本或文字处理文件的过程。该技术使此类材料的存储空间比硬拷贝材料少得多。OCR技术对信息的存储方式产生了巨大的影响,共享和编辑。在光学字符识别之前,如果有人想把一本书变成文字处理文件,每一页都必须逐字打印。

光学字符识别(OCR)是一种将打印材料转换成文本或文字处理文件的过程,这些文件可以方便地编辑和存储OCR技术需要硬件和软件两方面的支持。此外,复杂的OCR系统还需要在计算机中增加一块电路板来完成这一过程。光学扫描仪扫描页面上的文本,然后分解字体变成一系列的点叫做位图。软件可以读取最常见的字体并区分行的开始和结束位置。然后将此位图转换为计算机文本。而光学字符近年来,识别技术取得了巨大的进步,但在识别手写体或与手写体相似的字体方面,它的性能并不总是很好。银行业中有一些系统使用OCR技术来读取手写支票上的金额,配合计算机读取路由和账号要想了解OCR的威力,不妨看看现实世界中的一个例子。想象一下,一个警察局把所有的犯罪记录都存储在巨大的文件柜中。虽然扫描数百万页是一项昂贵而耗时的工作,但其好处是巨大的例如,一旦OCR系统将页面转换成计算机可读文本,侦探就可以在几秒钟内搜索整个历史记录。手动查找特定记录可能不太困难,但想象一下,一个侦探试图搜索所有在其上犯下的罪行在8:00和8:30之间的某个交叉点。这个例子只触及了可搜索文本功能的表面,这只是许多公司和机构花费数百万美元来OCR其遗留数据的原因之一。