为了达到最佳的识别效果,确定合适的扫描参数非常重要。
一般OCR是原稿应扫描为“黑白二值”,扫描文字的亮度和对比
度对正确识别非常关键,可以通过“放大预览”对文稿中的几个
文字进行取样扫描,从而对图像的亮度进行更为细致的调节。
调节的T具是扫描仪工具内的“阈值”。对于分辨率,一般
300dpi是最佳的分辨率,超过和低于300dpi都不能得到最理想
的识别率。
此外,要求原稿字符清晰、完整,无笔画间断;字符边缘锯齿不
明显;文字摆放平行、水平。通常,识别扫描前对原稿进行预处理,
比如去除杂点和图像。如文稿中含有图像,OCR是不能识别的,如
果有图像存在,会影响OCR的文字切分,呵使用“图像的块擦拭”
丁具将文档中的图像去除,同时将一些杂点去除。其次,注意稿件
是横排还是竖排,可选择合适的编排格式按扭,以保持对应,