Tess4J for Java

近期因工作安排,开始接触OCR。在macOS环境下使用Tess4J这个OCR库时,踩了很多坑。

需记录下来


Tess4J简介

Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选。而Tess4J则是Tesseract在Java PC上的应用。在英文和数字识别中性能还是不错的。

因为 tess4j.jar 中没有包含涉及到macOS的库,所以在项目中导入前,需要提前做一些配置。笔者没有试过在Windows或者Linux环境下使用Tess4J,所以暂时不知道其他系统上是否需要做相同的配置。

macOS的本地配置

首先需要通过 homebrew 安装 Tesseract 引擎。

More