Java使用Tesseract-Ocr识别数字
作者:gcdd1993 发布时间:2022-12-30 05:15:44
目录
前言
简介
在Java上使用
创建项目,并引入Jar包
导入traineddata
编写测试代码
训练工具
训练数据仓库
参考
前言
Tesseract-Ocr是我在编写爬虫项目中,用来识别图片(不是验证码)的本地解决方案(因为客户不想使用API识别,太贵),识别率目前达到了100%,可以说是相当了得,当然了,这取决于使用的traineddata。
简介
Tesseract最初是在1985年至1994年间在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co开发的,1996年进行了一些更改,移植到Windows,并且随着C++在1998年兴起。2005年Tesseract由惠普开源,然后从2006年至今,由谷歌继续开发。
Tesseract-Ocr并不是一个软件,它是一个软件包,包含了一个OCR引擎【libtesseract】和一个命令行程序 【tesseract】。Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于行级识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式来工作。
要启用与Tesseract 3的兼容性,你需要使用Legacy OCR Engine模式(--oem 0)。它还需要支持传统引擎的traineddata(训练好的数据文件),这些文件可以从tessdata存储库的文件获取。
Tesseract支持识别unicode(UTF-8),可以“开箱即用”识别100多种语言。
Tesseract支持多种输出格式:纯文本,hOCR(HTML),PDF,TSV。主分支还具有ALTO(XML)输出的实验支持。
⭐️⭐️⭐️ 具体介绍可以上tesseract-wiki查看。
在Java上使用
创建项目,并引入Jar包
Maven
<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
Gradle
compile 'net.sourceforge.tess4j:tess4j:4.3.1'
导入traineddata
traineddata是使用Tesseract-Ocr训练好的数据文件,可以直接使用。这些文件你可以去tessdata存储库查找,也可以去谷歌搜索,当然了,你也可以自己训练😂。
traineddata通常以*.traineddata命名,其中*指的是支持的语言类型。在这里你可以看到4.0.0版本支持的语言以及traineddata列表。
这次,我们选择eng.traineddata进行测试。下载eng.traineddata放入/resources/traineddata目录。
编写测试代码
初始化Tesseract引擎
public class TesseractTest {
private ITesseract tesseract;
@Before
public void init() {
tesseract = new Tesseract();
System.out.println("tesseract init done...");
}
}
实际上,上面的代码是无法正常运行的,因为找不到指定语言版本的traineddata文件。
net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好,在Tesseract构造函数中,没有提供可选参数的构造器。
public class Tesseract implements ITesseract {
// Tesseract使用的语言版本,用以选择traineddata
private String language = "eng";
// traineddata目录,里面放*.traineddata数据文件
private String datapath;
// 省略其他代码 ...
public Tesseract() {
try {
// 默认从系统环境变量获取traineddata目录
datapath = System.getenv("TESSDATA_PREFIX");
} catch (Exception e) {
// ignore
} finally {
if (datapath == null) {
datapath = "./";
}
}
}
/**
* Sets language for OCR.
*
* @param language the language code, which follows ISO 639-3 standard.
*/
@Override
public void setLanguage(String language) {
this.language = language;
}
/**
* Sets path to <code>tessdata</code>.
*
* @param datapath the tessdata path to set
*/
@Override
public void setDatapath(String datapath) {
this.datapath = datapath;
}
// 省略其他代码 ...
}
所以,我们可以选择设置环境变量TESSDATA_PREFIX为数据目录,或者通过Java编码的方式来设置。
tesseract.setLanguage("eng"); // 默认就是eng,你可以选择其他lang
tesseract.setDatapath(TesseractTest.class.getResource("/traineddata").getPath().substring(1));
OCR识别测试
tesseract提供了一系列doOcr方法的重载,我们可以方便的进行OCR识别。
String doOCR(File imageFile) throws TesseractException;
String doOCR(File imageFile, Rectangle rect) throws TesseractException;
String doOCR(BufferedImage bi) throws TesseractException;
String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;
String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;
String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;
String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;
String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;
可以看出,doOcr方法支持多种图片识别方式,如图片文件、多个图片文件、图片文件局部处理等等方式。
为了方便测试,我们选取最简单的图片文件方式测试。
图片是个URL链接,如下所示
@Test
public void testOcr() throws IOException, TesseractException {
BufferedImage image = ImageIO.read(new URL("http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png"));
String ocr = tesseract.doOCR(image);
System.out.println("ocr result : " + ocr);
}
控制台输出:
tesseract init done...
ocr result : 2710386495
识别准确率,主要在于你选择的训练数据文件,我使用的是数据文件是这个,对于数字的准确率基本上是100%。
异常
如果你遭遇Invalid memory access异常,这是由于找不到对应lang的*.traineddata文件,请修改language和datapath。
Invalid memory access
java.lang.Error: Invalid memory access
at com.sun.jna.Native.invokePointer(Native Method)
at com.sun.jna.Function.invokePointer(Function.java:470)
at com.sun.jna.Function.invoke(Function.java:404)
at com.sun.jna.Function.invoke(Function.java:315)
at com.sun.jna.Library$Handler.invoke(Library.java:212)
at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)
at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)
at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)
at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)
at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)
at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258)
...
训练工具
https://github.com/tesseract-ocr/tesseract/wiki/AddOns
训练数据仓库
tessdata_best:基于LSTM引擎的训练数据,最佳最准确的
tessdata_fast:基于LSTM引擎的训练数据,快速(精简)版本
tessdata:支持双引擎(LSTM和传统引擎),但LSTM训练数据不是最新的版本
推荐使用tessdata_best,虽然识别速度相对于tessdata_fast稍慢,但是准确率可以保证。
参考
tesseract-ocr-wiki
来源:https://www.cnblogs.com/gcdd1993/p/12292455.html


猜你喜欢
- 前言Android提供了很多种保存应用程序数据的方法。其中一种就是用SharedPreferences对象来保存我们私有的键值(key-va
- 前言本文是我之前写的这篇文章《Android图文混排-实现EditText图文混合插入上传》的升级版,除了在EditText实现了图片上传之
- 一、什么是单例模式?单例设计模式(Singleton Design Pattern)理解起来非常简单。一个类只允许创建一个对象(或者实例),
- 什么是BottomNavigationView底部菜单栏BottomNavigationView的简单用法需求:如上图所示。点击测试一菜单,
- 目录@CachePut设置的key值无法与@CacheValue的值匹配缓存注解key的基本数据类型要求必须要统一Spring-Cache
- 本文实例讲述了C#多线程学习之生产者和消费者用法。分享给大家供大家参考。具体实分析如下:前面的文章说过,每个线程都有自己的资源,但是代码区是
- 这篇文章主要介绍了如何使用Spring工具类动态匹配url,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要
- 接口直接返回图片数据起因最近在做涉及到分享推广的业务,需要由业务员分享二维码进入推广页面,由于是新项目,前期预算和用量都有限,没有搭建对象存
- 一、redis发布订阅简介Redis发布订阅(pub/sub)是一种消息通信模式:发送者(pub)发送消息,订阅者(sub)接收信息。可以参
- C#抓图服务首先抽象出抓图接口,然后对接口做基于公共操作的抽象类封装,之后针对不同的抓图方式做差异化处理,最后根据接口实现抓图服务。注意:W
- EhCache 是一个纯Java的进程内缓存框架,具有快速、精干等特点,是Hibernate中默认的CacheProvider。ehcach
- 最近使用到了maven的profile功能,发现这个功能的确很好用也很实用,这块的知识比较多也比较乱,其实真正理解了之后非常简单,为了巩固总
- PDF中的加数字签名是对文档权威性的有效证明。我们在向PDF文档添加签名时,需要准备可信任的签名证书。同时,对已有的签名,可验证签名是否有效
- 场景:PageHelper 的默认分页方案是 select count(0) from (你的sql) table_count由于查询数据比
- 在前面的文章中,我们分析了淘宝android客户端的一些界面实现和用户体验,今天这篇文章,主要介绍如何使用自定义控件,实现抢购倒计时的功能。
- 泛型概述我们都知道集合中是可以存放任意对象的,只要把对象存储集合后,那么这时他们都会被提升成Object类型。当我们在取出每一个对象,并且进
- 一、maven引入依赖,数据库驱动根据项目需求自行引入<!-- https://mvnrepository.com/artifact/
- 面试中可能会被问到为什么我们调用start()方法时会执行run()方法,为什么我们不能直接调用run()方法?Java 创建线程的方法实际
- 1.引入AOP依赖<dependency>
- Java 里的 * 是动态拦截 action 调用的对象,它提供了一种机制可以使开发者可以定义在一个 action 执行的前后执行的代码,也