300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > Tesseract试用过程及结果分析

Tesseract试用过程及结果分析

时间:2018-07-25 02:25:57

相关推荐

Tesseract试用过程及结果分析

之前做数字自动识别的时候用了一下Tesseract OCR, 对于手写的数字,自己当时测试了一下,调试后准确率还是蛮高的,然而,对于八段管,经过训练后也只有83%,本文主要是对调试结果分析,以及调试过程中的一些问题进行总结。

首先插入参考文章,作者朝花夕拾的利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率,文章很详细,对过程阐述的很明白,还有github上关于Tesseract的讲解;

1. JRE安装jTessBoxEditor需要在JAVA 环境下运行,这是只需安装JRE即可,下载正确的版本,我的是64位,配置环境变量,Path:\bin; classpath :\lib; JavaHome:\Java;

cmd运行: java -version看安装是否成功;

2. 下载jTessBoxEditor,下载好压缩包后解压,在cmd命令中输入java可以看到文件的执行格式,进入jTessBoxEditor的目录下,运行java -jar jTessBoxEditor.jar ,打开文件。

3. shapeclustering 有未经处理的win32问题,联机解决;

Error:Assert failed: in file..\..\classify\training sampleset.cpp, line622

出现这个问题的原因主要是自己刚一开始的时候名字没有起对,对tif文件刚开始起名为num.tif,后来看到博主的名字要求后又半路改名,其实这个时候已经晚了,很多需要的文件已经生成,最好的办法是从一开始按照要求给tif文件起名字,如果已经出现问题,就把之前生成的文件全部删除,重新来一遍就好。

4. 在用boxeditor进行tif文件merge的时候,经常会出现如下错误:

Merge TIFF: 0070 and 0084 can not be merged.

主要原因是图片的格式问题,因为要处理大量图片,就用了网上说的那种批量修改后缀的方法,即新建.bat文件,但是运行.bat只是改变了后缀,在boxeditor里并没有认为其为.tif文件,所以,还是用画图一个个另存为比较靠谱。

琐碎的问题弄完后就是训练和识别,输入图像最好是二值化后的,噪音较少,如下图:

还有就是最好是联通的,这是八段管识别最大的问题,可以用闭运算尽量消除空隙:

这张图片就无法被tesseract识别,有时则会错误识别,将0识别成L和7,但是在将其连通后,却可以正确识别,具体分析大家可以参考我做的ppt文件;

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。