汉字识别软件OCR的应用

汉字识别软件的任务是研究如何使计算机能够“识字”，该系统通常是采用光电转换装置将汉字或字箱转换成电信号，并送入计算机，由计算机自动辨认、阅读，因此称其为光学字符识别（optical character recognition，简称为ocr）。
ocr的发展简况
ocr的概念是在1929年由德国科学家tausheck最先提出来的，后来美国科学家handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是ibm公司的casey和nagy，1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。我国研究汉字识别的起步比较晚，20世纪70年代末才开始进行ocr的研究工作。早期的ocr软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高、运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用ocr软件。1986年以后我国的ocr研究有了很进展，在汉字建模和识别方法上都有所创新，在系统研制和开发应用中都取得了丰硕的成果，不少单位相继推出了中文ocr产品。进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了ocr技术的进一步发展，使ocr的识别正确率，识别速度满足了广大用户的要求。
目前，比较流行的ocr软件很多，英文ocr主要有omnipage，中文ocr主要清华紫光ocr、清华文通ocr、汉王ocr、中晶尚书ocr、丹青ocr、蒙恬ocr等。尽管汉字字量大、字形复杂，但ocr技术已经走向成熟。许多ocr软件不仅能识别黑白印刷体汉字，还能识别灰度和彩色印刷体汉字，识别速度很快，识别正确率达到了99%以上；可识别宋体、黑体、楷体等多种字体和简、繁体；可对多种字体、不同字号的混排进行识别；有些ocr软件还能识别图像、表格。与此同时，对于手写体汉字识别的研究也取得了很大进展，正确识别率已达到了70%以上。
ocr软件的应用
在扫描仪市场上，许多类型的办公和家用扫描仪均配有ocr软件，如紫光的扫描仪配备了紫光ocr，中晶的扫描仪配备了尚书ocr，mustek的扫描仪配备了丹青ocr等。扫描仪与ocr软件共同承担着从文稿的输入到文字识别的全过程。
文稿扫描在办公领域中经常用到，即将报纸、杂志等媒体上刊载的有关文稿通过扫描仪进行扫描，随后进行ocr识别，或存储成图像文件，留待以后进行ocr识别，将图像文件转换成文本文件或word文件进行存储。
此外，数字化信息的存储、传输，不仅成本低、效率高，而且能够适应排版、网络传输等不断不发展的需要。目前我国有很多历史遗留下来的大量图书、报刊、杂志等纸质珍品，急需将其转换成电子信息。如电子图书馆的建立，就需要将图书逐页扫描，加上ocr软件的识别，更替代了人工键入文字的工作，大大缩短了录入时间，减轻了劳动强度，节省了人力且降低了费用，提高了录入正确率，工作效率和现代办公自动化程度。
目前ocr软件与扫描仪的搭配已应用到信息化时代的多个领域，如数字化图书馆，各种报表的识别，以及银行、税务系统标据的识别等。随着网络化、信息化的发展与普及，其应用范围将越来越广泛。
ocr系统的组成
汉字识别软件ocr的功能是将各种录入汉字，印刷体或手写体中每个汉字的图形或图像通过计算机辨认出来，并标出汉字类别代码。因此，汉字识别归根结底是一个图像识别问题。由于汉字信息量很大，具有不同的字形、字体，而且结构复杂，因此汉字识别的过程极其复杂。ocr软件工作流程示意图，如下表：
文件资料→扫描输入→图象处理→版面划分→文字识别→文字编辑→文档存储
由于扫描仪的普及与广泛应用，ocr软件只需提供与扫描仪的接口，利用扫描仪驱动软件即可。因此，ocr软件主要是由图像处理模块、版面划分模块、文字识别模块和文字编辑模块等4部分组成。(待续)

汉字识别软件OCR的应用

VIP推荐