1、选择适当的分辨率
分辨率太高,会加长扫描所用时间,并且会因为一些非文字的细节被捕获反而造成识别不正确,分辨率太低,OCR软件因为信息量不足,也会造成识别率不高。一般大多普通五号印刷体选择黑白模式下300dpi进行扫描比较合适,当然,如果所扫描的字体较大或较小,则可相应降低或提高扫描分辨率。
2、选择适当的亮度
选择适当的亮度可使扫描原稿显得黑白分明,扫描亮度的设定以扫描所得图像中汉字的笔划较细但不断开为佳,如果扫描所得的汉字轮廓残缺较多,应该增加亮度,如果有一些黑点或黑斑,则应减小亮度。
3、放正欲扫描的原稿
虽然一些OCR软件允许文稿有一定的倾斜,还可以通过识别软件进行倾斜校正,但这种校正效果并不是很令人满意的。
4、做好版面分析
在版面分析中选择与原稿相符的版面类型,对一些复杂的版面,划分合理的块来进行识别,这样也能有效地提高识别正确率。
5、不断完善用户自定义库
对个别扫描效果清晰,但OCR却识别错误的字,可以加到用户自定义库中,这样下次就不会犯同样的错误,慢慢地识别正确率也会得到提高。
对扫描的图片,我们还可以通过PHOTOSHOP等图像处理软件进行处理,这样你就可以得到令自己满意的扫描图片了。