admin 管理员组

文章数量: 887021


2024年1月6日发(作者:乱世三义达达兔)

Tesseract-ocr简介

Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、Linux和Mac OS 等主流平台。但作为一个引擎,它只提供命令行工具。

1. 官网地址:/p/tesseract-ocr/

2. 安装与运行(谷歌资源):/p/tesseract-ocr/wiki/ReadMe

3. 源码下载地址:/p/tesseract-ocr/downloads/detail?name=&can=2&q=

4. 安装文件():/p/tesseract-ocr/downloads/detail?name=&can=2&q=

5. 可执行文件:/p/tesseract-ocr/downloads/detail?name=&can=2&q=

6. VC2008和VC2010工程:/p/tesseract-ocr/downloads/detail?name=tesseract-3.01-win_&can=2&q=

7. 中文字库(简体):/p/tesseract-ocr/downloads/detail?name=chi_&can=2&q=

8. 中文字库(繁体):/p/tesseract-ocr/downloads/detail?name=chi_&can=2&q=

9. 可识别文件类型:”.tif”, ”.bmp” 如果要识别其他类型图片,需要借助ImageMagick来进行图片格式的转换。

10. 在Windows平台下调用“”测试:

1) 在google中下载和chi_中文

字库。

2) 安装完毕,将中文字库放入安装目录的tessdata中。

3) 在命令行中操作,进入安装目录,在该目录中事先放入要测试的图片,比如:;

执行识别图像的命令格式为:

tesseract .exe [-l lang]

Imagename: 需要识别的图片文件名

outputname: 输出结果txt文件名,用来存放识别出来的文字结果

lang: 使用的文字字库,根据要识别的文字类型来选择。

例如:输入命令: 6 –l chi_sim

11. 在VC2008平台下调用源码测试:

1) 将中文字库放入安装目录的tessdata中。

2) 配置环境变量TESSDATA_PREFIX = “C:Program FilesTesseract-OCR” 即

tessdata的目录,在源码中会到这个路径下查找相应的字库文件用来识别。

3) 将下载的VC2008工程文件夹放到源码文件夹目录下。打开sln工程,设置“tesseract”为启动工程。

4) 打开“”文件,配置参数

lang:选择的字库文件名

image:输入图片路径

output:输出结果文件路径

5) 外部文件调用tesseract是通过其API接口实现的,接口函数的调用如下:

11. JAVA环境下调用“”测试:/foamflower/article/details/6110211

12. API接口简介TessBaseAPI Class Reference:/

13. Linux下的安装://opensource/tesseract/

14. Linux下的开发:/opensource/tesseract/

15. 字库训练:


本文标签: 识别 目录 文字 源码