Tesserocr-4.0及以上,编译完成之后,只支持命令行的形式进行OCR识别,下面介绍如何用python3调用tesserocr-4.0及以上的API接口,实现自己的应用程序

1、安装环境

前一篇文章,我们介绍了如何编译与运行tesserocr-4.0及以上程序,文章链接:CentOS 8 / RHEL 8 源码编译安装Tesseract-OCR 4.0及以上

我们的python运行在上面的环境之上的,我们建议在我们的用户目录下安装anaconda环境,如果你的Linux没有anaconda环境,可以参考我的博客链接:Linux下安装基于Python3.7的Anaconda环境

安装基于tesserocr-4.0及以上接口程序tesserocr模块,安装命令如下:

pip install tesserocr

2、测试程序

测试程序1:

# coding:utf-8
import tesserocr

print(tesserocr.tesseract_version())
print(tesserocr.get_languages())

# 从文件中读取文件,并识别成text文件, 语言为中文简体 LSTM模型 
output = tesserocr.file_to_text('test.jpg', lang='chi_sim', oem=1)
output = bytes(output, encoding = "utf8")

with open('output.txt', 'wb') as f:
    f.write(output)

测试程序2(同时识别多张):

from tesserocr import PyTessBaseAPI

images = ['test.jpg', 'test1.jpg']

with PyTessBaseAPI(lang='chi_sim') as api:
    for img in images:
        api.SetImageFile(img)
        print(api.GetUTF8Text())
        print(api.AllWordConfidences())
0
Posted in 努力扣代码, 学习

Leave a Comment:

电子邮件地址不会被公开。