admin 管理员组文章数量: 887021
2024年1月6日发(作者:乱世三义达达兔)
Tesseract-ocr简介
Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、Linux和Mac OS 等主流平台。但作为一个引擎,它只提供命令行工具。
1. 官网地址:/p/tesseract-ocr/
2. 安装与运行(谷歌资源):/p/tesseract-ocr/wiki/ReadMe
3. 源码下载地址:/p/tesseract-ocr/downloads/detail?name=&can=2&q=
4. 安装文件():/p/tesseract-ocr/downloads/detail?name=&can=2&q=
5. 可执行文件:/p/tesseract-ocr/downloads/detail?name=&can=2&q=
6. VC2008和VC2010工程:/p/tesseract-ocr/downloads/detail?name=tesseract-3.01-win_&can=2&q=
7. 中文字库(简体):/p/tesseract-ocr/downloads/detail?name=chi_&can=2&q=
8. 中文字库(繁体):/p/tesseract-ocr/downloads/detail?name=chi_&can=2&q=
9. 可识别文件类型:”.tif”, ”.bmp” 如果要识别其他类型图片,需要借助ImageMagick来进行图片格式的转换。
10. 在Windows平台下调用“”测试:
1) 在google中下载和chi_中文
字库。
2) 安装完毕,将中文字库放入安装目录的tessdata中。
3) 在命令行中操作,进入安装目录,在该目录中事先放入要测试的图片,比如:;
执行识别图像的命令格式为:
tesseract .exe
Imagename: 需要识别的图片文件名
outputname: 输出结果txt文件名,用来存放识别出来的文字结果
lang: 使用的文字字库,根据要识别的文字类型来选择。
例如:输入命令: 6 –l chi_sim
11. 在VC2008平台下调用源码测试:
1) 将中文字库放入安装目录的tessdata中。
2) 配置环境变量TESSDATA_PREFIX = “C:Program FilesTesseract-OCR” 即
tessdata的目录,在源码中会到这个路径下查找相应的字库文件用来识别。
3) 将下载的VC2008工程文件夹放到源码文件夹目录下。打开sln工程,设置“tesseract”为启动工程。
4) 打开“”文件,配置参数
lang:选择的字库文件名
image:输入图片路径
output:输出结果文件路径
5) 外部文件调用tesseract是通过其API接口实现的,接口函数的调用如下:
11. JAVA环境下调用“”测试:/foamflower/article/details/6110211
12. API接口简介TessBaseAPI Class Reference:/
13. Linux下的安装://opensource/tesseract/
14. Linux下的开发:/opensource/tesseract/
15. 字库训练:
版权声明:本文标题:Tesseract简介 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1704483862h461772.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论