opencv+tesseract实现验证码识别的示例
作者:peng_wei_kang 发布时间:2021-02-21 04:20:44
一、需要识别的内容
需要识别的验证码内容如下 验证码下载下载地址。
二、直接调用tesseract来完成识别(识别率很差)
识别的图片内容为:
在window系统钟打开cmd命令窗口,执行识别命令如下:
tesseract.exe 01.png output.txt -l eng
识别结果为:519} 该识别准确率远远达不到预期
三、训练数据样本,提升识别率
1、下载10份样本(样本数量越多,识别率越高),然后通过jTessBoxEditor来进行样本数据矫正(该步骤耗时较长)。
2、打开 jTessBoxEditor,将所有的样本数据生成一个总的tif文件(tif就是所有图片的集合)。操作如下:
1)jTessBoxEditor->Tools->Merge TIFF
2 )全选所有的样本文件,之后生成的tif命名为 jtbnum.font.exp0.tif
3)进行数据识别调整,如下图:
四、生成样本库字体
将所有的样本识别内容都调整正确后(调整的参数保存在jtbnum.font.exp0.box文件钟),我们需要将我们生成的样本文件封装成我们的 jtbnum.traineddata 字体库,生成方式如下:
1)创建 font_properties 文件,内容为 font 0 0 0 0 0
2)在同级目录创建 run.bat 文件 内容如下
rem 执行改批处理前先要目录下创建font_properties文件
echo Run Tesseract for Training..
tesseract.exe jtbnum.font.exp0.tif jtbnum.font.exp0 nobatch box.train
echo Compute the Character Set..
unicharset_extractor.exe jtbnum.font.exp0.box
mftraining -F font_properties -U unicharset -O jtbnum.unicharset jtbnum.font.exp0.tr
echo Clustering..
cntraining.exe jtbnum.font.exp0.tr
echo Rename Files..
del jtbnum.normproto
rename normproto jtbnum.normproto
del jtbnum.inttemp
rename inttemp jtbnum.inttemp
del jtbnum.pffmtable
rename pffmtable jtbnum.pffmtable
del jtbnum.shapetable
rename shapetable jtbnum.shapetable
echo Create Tessdata..
combine_tessdata.exe jtbnum.
pause
3)双击执行 run.bat 文件,系统执行完成后,将会生成 jtbnum.traineddata 文件。
4)将 jtbnum.traineddata 拷贝到tesseract安装目录下的tessdata文件夹下。
5)测试识别率:
识别的图片内容为:
tesseract.exe 01.png output.txt -l jtbnum
识别结果为:51915 识别结果已经很准确率,但是验证码图片中的杂质没有清除,导致会识别出多余内容来。
五、通过Opencv清除图片的多余杂质(Java实现)
if(!hasLoad){
System.load(opencvPath+"/build/java/x64/opencv_java440.dll");
hasLoad = true;
}
byte [] bytes = Base64Utils.decodeFromString(base64);
String path = savePath+"/"+System.currentTimeMillis()+".png";
try {
OutputStream outputStream = new FileOutputStream(new File(path));
outputStream.write(bytes);
outputStream.flush();
outputStream.close();
} catch (Exception e) {
e.printStackTrace();
}
Mat image0 = Imgcodecs.imread(path);
Mat image1 = new Mat();
//灰度处理
Imgproc.cvtColor(image0, image1, Imgproc.COLOR_BGR2GRAY);
Imgproc.adaptiveThreshold(image1,image1,255,Imgproc.ADAPTIVE_THRESH_MEAN_C,Imgproc.THRESH_BINARY,11, 2);
Core.bitwise_not(image1,image1);
Mat kernel = Imgproc.getStructuringElement(Imgproc.MORPH_RECT, new Size(2, 2), new Point(-1, -1));
Mat temp = new Mat();
Imgproc.erode(image1, temp, kernel);
Imgproc.dilate(temp, temp, kernel);
String newPath = path.substring(0,path.lastIndexOf(".")) +"_1.png";
Imgcodecs.imwrite(newPath,temp);
图片处理结果如下(杂质已经清除):
5)测试识别率:
识别的图片内容为:
tesseract.exe 01.png output.txt -l jtbnum
识别结果为:5191 识别已经很精确
来源:https://blog.csdn.net/peng_wei_kang/article/details/125482305


猜你喜欢
- 一、背景最近学校校园网不知道是什么情况,总出现掉线的情况。每次掉线都需要我手动打开web浏览器重新进行账号密码输入,重新进行登录。系统的问题
- 墙上时钟与单调时钟墙上时钟墙上时钟也称为墙上时间。大多是1970年1月1日(UTC)以来的秒数和毫秒数。墙上时间可以和NTP(Network
- 本文实例为大家分享了javascript实现简易计算器的具体代码,供大家参考,具体内容如下编辑了几个小时研发了一个简易好理解的计算器。不停改
- 前言React核心的单向数据流、一切皆数据的state、不会改变的props,以及状态提升等等经常使用便不多总结,需要的看官方文档。JSXJ
- pycharm确实要比Spyder功能全面,但是anaconda的环境配置实在太方便了,所以想take both,其实很简单,利用pycha
- 一、InnoDB表级锁我们知道,InnoDB是支持行锁,但不是每次都获取行锁,如果不使用索引的,那还是获取的表锁。而且有的时候,我们希望直接
- 用两个文件.GLOBAL.ASA和online.asp下面分别给出两个文件的源代码.呵呵,我也是菜鸟,大家加油哟!<SCR
- 1.新建项目新建一个项目,fileànewàproject如下图:选择Java&agra
- wxml文件中: <!--倒计时 --> <view class="countDownTimeVie
- 引言本文讨论 ChatGTP 与 Node.js 的结合,由于最近在学 Remix, 考虑到 Remix 可以单独的作为 API 来使用,并
- Session StaticObjects 集合StaticObjects 集合包含 Session 对象范围中用 <OBJECT&g
- 一个动态载入asp树源码。把 node.htc, style.css 保存与 css 目录下. index.asp subtree.asp
- 前言在Python中元组是一个相较于其他语言比较特别的一个内置序列类型。有些python入门教程把元组成为“不可变的列表”,这种说法是不完备
- 前言本文主要给大家介绍了关于利用python 3.5检测路由器流量并写入txt的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看
- 有 N 个花园,按从 1 到 N 标记。在每个花园中,你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y
- 一.MYSQL的命令行模式的设置桌面->我的电脑->属性->环境变量->新建->PATH=“;path\mys
- Python字符编码目前计算机内存的字符编码都是Unicode,目前国内的windows操作系统采用的是gbk。python2默认的字符编码
- jquery获取img的src值实例介绍 https://www.jb51.net/article/154746.htm获取: $(&quo
- 在ASP中利用OWC(Office Web Components)控件可轻松实现各种图表功能,如饼图,簇状柱型图,折线图
- 如下所示:import threadingimport timesem=threading.Semaphore(4) #限制线程的最大数量为