首页技术总结正文内容

Tesseract简介

技术总结

更新时间：2024-12-23 07:47:33 31

admin 管理员组

文章数量: 887021

2024年1月6日发(作者：乱世三义达达兔)

Tesseract-ocr简介

Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎，曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年，Google邀请Smith加盟，重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、Linux和Mac OS 等主流平台。但作为一个引擎，它只提供命令行工具。

1. 官网地址：/p/tesseract-ocr/

2. 安装与运行（谷歌资源）：/p/tesseract-ocr/wiki/ReadMe

3. 源码下载地址：/p/tesseract-ocr/downloads/detail?name=&can=2&q=

4. 安装文件（）：/p/tesseract-ocr/downloads/detail?name=&can=2&q=

5. 可执行文件：/p/tesseract-ocr/downloads/detail?name=&can=2&q=

6. VC2008和VC2010工程：/p/tesseract-ocr/downloads/detail?name=tesseract-3.01-win_&can=2&q=

7. 中文字库（简体）：/p/tesseract-ocr/downloads/detail?name=chi_&can=2&q=

8. 中文字库（繁体）：/p/tesseract-ocr/downloads/detail?name=chi_&can=2&q=

9. 可识别文件类型：”.tif”, ”.bmp” 如果要识别其他类型图片，需要借助ImageMagick来进行图片格式的转换。

10. 在Windows平台下调用“”测试：

1) 在google中下载和chi_中文

字库。

2) 安装完毕，将中文字库放入安装目录的tessdata中。

3) 在命令行中操作，进入安装目录，在该目录中事先放入要测试的图片，比如：；

执行识别图像的命令格式为：

tesseract .exe [-l lang]

Imagename: 需要识别的图片文件名

outputname: 输出结果txt文件名，用来存放识别出来的文字结果

lang: 使用的文字字库，根据要识别的文字类型来选择。

例如：输入命令： 6 –l chi_sim

11. 在VC2008平台下调用源码测试：

1) 将中文字库放入安装目录的tessdata中。

2) 配置环境变量TESSDATA_PREFIX = “C:Program FilesTesseract-OCR” 即

tessdata的目录，在源码中会到这个路径下查找相应的字库文件用来识别。

3) 将下载的VC2008工程文件夹放到源码文件夹目录下。打开sln工程，设置“tesseract”为启动工程。

4) 打开“”文件，配置参数

lang：选择的字库文件名

image：输入图片路径

output：输出结果文件路径

5) 外部文件调用tesseract是通过其API接口实现的，接口函数的调用如下：

11. JAVA环境下调用“”测试：/foamflower/article/details/6110211

12. API接口简介TessBaseAPI Class Reference：/

13. Linux下的安装：//opensource/tesseract/

14. Linux下的开发：/opensource/tesseract/

15. 字库训练：

本文标签：识别目录文字源码

版权声明：本文标题：Tesseract简介内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1704483862h461772.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。