根据我的经验,操作时应注意以下几点:
1.扫描界面设置
应使用扫描仪twain扫描界面,这样操作起来比较直观方便。分辨率设置为200线/英寸或3o0线/英寸。亮度一般设置为自动选择。
2.twain扫描界设置
原稿类型应设置为线画稿,阈值应设置较大的数值,一般设置在40%~75%之间.如原稿较为清晰,应将阈值设置为40%一55%之间,如原稿质量较差,则可将阈值设置为60%~75%之间。
3.ocr识别时具体操作
文字扫描进入ocr软件后,首先要校正倾斜。校正分为自动校正和手前校正,一般都可用自动校正功能自动校正倾斜,特殊情况可用手动校正,方法是按住鼠标右键拖曳一条垂直于文本的直线。二是删除文本版面脏点和无需识别的多余部分(对于脏点和多余的部分,可以先圈选,然后删除)。三是版面分析,一般情况下,用自动版面分析即可获得较理想的效果,对于一些版面较为复杂的原稿,如既有横排又有竖排的原稿,则必须用手动版面分析,用框线画出版面上的横排和竖排部分,并分别注明为横排正文和竖排正文(注:本人使用ocr识别软件为清华th—ocr for hp)。
经过以上操作。就可以提高文本的识别率,基本保证文本识别率在95%以上,识别完毕后,修改可疑字或错别字。这样,整个工作基本完成。
