醋醋百科网

Good Luck To You!

一个识别率较高的OCR识别库_什么是一个识别并引进最佳实践以提高绩效的过程

最近在做图片识别时发现,python有好多方法可以做到,像pytesseract、paddle等,最后感觉pytesseract的速度比较快,但是中文特别是非印刷体的图片识别准确率较低,EasyOCR的准确率就较高,不过速度会慢一些(如果有牛逼的显卡还是很快的)。这里要介绍的是EasyOCR。

EasyOCR 是一个由 Jaided AI 开发的开源光学字符识别(OCR)库,基于 PyTorch 实现。它支持 80 多种语言 的文本识别,使用起来简单、易上手,适合快速集成到 Python 项目中。

主要特点

多语言支持:支持中文、英文、日文、韩文、阿拉伯语等 80+ 语言。

无需复杂预处理:可直接读取图像并输出文本结果。

深度学习驱动:基于 CNN + LSTM + CTC 的模型,准确率较高。

支持手写、打印体识别:兼容多种字体和图像质量。

安装方式

bash复制编辑pip install easyocr

简单使用示例

reader = easyocr.Reader(['ch_sim', 'en']) # 支持中文简体和英文

results = reader.readtext('example.jpg')

for bbox, text, confidence in results:

print(f"识别内容: {text}, 置信度: {confidence:.2f}")

# 或直接print(results[0][1])

在 EasyOCR 中,还可以通过 allowlist 参数来自定义识别时允许出现的字符集,从而提高精度、减少干扰。这在识别特定格式(如数字、车牌、验证码)时非常有用。

示例:仅允许识别数字和英文字母

python复制编辑import easyocr

reader = easyocr.Reader(['en']) # 语言可以是任意支持的results = reader.readtext(

'example.jpg',
allowlist='0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ'

)

for bbox, text, confidence in results:

print(text, confidence)

示例:仅允许识别中文和数字

python复制编辑reader = easyocr.Reader(['ch_sim'])

results = reader.readtext(

'test.jpg',
allowlist='的一是在了不1234567890'

)

注意事项:

allowlist 是字符级别的过滤,不是词级别(不支持整词限制)。

它会在模型输出后做字符过滤,对模型识别本身无影响,但可提升后处理结果质量。

如果你还想屏蔽掉某些字符(如不要“/”等),也可以用 blocklist。

示例:配合 blocklist 使用

python复制编辑reader.readtext(

'img.jpg',
allowlist='ABC1234',
blocklist='0OQ' # 排除容易误识别的字符

)

依赖

torch(PyTorch)

opencv-python

numpy

scikit-image

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言