您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

怎样提高OCR识别软件的识别能力

2024/3/4 20:51:06发布17次查看
在文字录入过程中,我们经常碰到客户拿来打印稿件要求输入,虽然可以用五笔字型或其他输入法录入,但是如果有扫描仪,这时就可以用ocr文字识别软件快速识别录入了,既方便快捷,又省时省力。有的客户拿来的文稿质量较差(如复印稿或针式打印机打印稿),按照普通的操作,用ocr识别,其识别率极低,以至于一些录入人员宁可打字录入也不愿用ocr识别,但根据我平时总结出来的经验,只要ocr识别软件设置得当,其文本识别率还是很高的,基本可以达到95%以上。
根据我的经验,操作时应注意以下几点:
1.扫描界面设置
应使用扫描仪twain扫描界面,这样操作起来比较直观方便。分辨率设置为200线/英寸或3o0线/英寸。亮度一般设置为自动选择。
2.twain扫描界设置
原稿类型应设置为线画稿,阈值应设置较大的数值,一般设置在40%~75%之间.如原稿较为清晰,应将阈值设置为40%一55%之间,如原稿质量较差,则可将阈值设置为60%~75%之间。
3.ocr识别时具体操作
文字扫描进入ocr软件后,首先要校正倾斜。校正分为自动校正和手前校正,一般都可用自动校正功能自动校正倾斜,特殊情况可用手动校正,方法是按住鼠标右键拖曳一条垂直于文本的直线。二是删除文本版面脏点和无需识别的多余部分(对于脏点和多余的部分,可以先圈选,然后删除)。三是版面分析,一般情况下,用自动版面分析即可获得较理想的效果,对于一些版面较为复杂的原稿,如既有横排又有竖排的原稿,则必须用手动版面分析,用框线画出版面上的横排和竖排部分,并分别注明为横排正文和竖排正文(注:本人使用ocr识别软件为清华th—ocr for hp)。
经过以上操作。就可以提高文本的识别率,基本保证文本识别率在95%以上,识别完毕后,修改可疑字或错别字。这样,整个工作基本完成。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product