Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

基于pytorch的ocr算法库,包括 psenet, pan, dbnet, sast , crnn

NotificationsYou must be signed in to change notification settings

BADBADBADBOY/pytorchOCR

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

81 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

这里会有这个项目的代码详解和我的一些ocr经验和心得,我会慢慢更新,有兴趣可以看看,希望可以帮到新接触ocr的童鞋CSDN博客


最近跟新:

  • 2021.05.19 更新基于DBnet的多语种文本检测。
  • 2021.05.01 更新CRNN 训练,解决了多gpu训练问题,更换成lmdb训练,需要将图片先转成lmdb(在script文件夹中有多进程将图片转成lmdb的代码),做了一些训练优化,模型结构更改(训练时使用名字中带lmdb的yaml文件),实际训练效果如下表。
  • 2021.03.26 更新CRNN 训练效果,代码整理后上传
  • 2021.03.06 更新CRNN backbone resnet 和 mobilev3 以及配置文件
  • 2020.12.22 更新CRNN+CTCLoss+CenterLoss训练
  • 2020.09.18 更新文本检测说明文档
  • 2020.09.12 更新DB,pse,pan,sast,crnn训练测试代码和预训练模型

目前已完成:


接下来计划:

  • 模型转onnx及调用测试
  • 模型压缩(剪枝)
  • 模型压缩(量化)
  • 模型蒸馏
  • tensorrt部署
  • 训练通用化ocr模型
  • 结合chinese_lite进行部署
  • 手机端部署

crnn模型效果(实验中)

使用 MJSynth(MJ) 和 SynthText(ST) 训练,以batchsize=512训练,在以下数据集上测试:

模型迭代次数CUTE80IC03_867IC13_1015IC13_857IC15_1811IC15_2077IIIT5k_3000SVTSVTPmean
resnet34+lstm+ctc12000082.9891.9290.9391.5973.1067.9890.1685.1678.2983.56
mobilev3_large+lstm+ctc21000073.6192.5090.3491.5974.8268.8987.5683.4677.2082.21
mobilev3_small+lstm+ctc21000066.3190.7788.7691.1373.6669.5288.8084.5472.2480.64

检测模型效果(实验中)

训练只在ICDAR2015文本检测公开数据集上,算法效果如下:

模型骨干网络precisionrecallHmean下载链接
DBResNet50_7*785.88%79.10%82.35%下载链接(code:fxw6)
DBResNet50_3*386.51%80.59%83.44%下载链接(code:fxw6)
DBMobileNetV382.89%75.83%79.20%下载链接(code:fxw6)
SASTResNet50_7*785.72%78.38%81.89%下载链接(code:fxw6)
SASTResNet50_3*386.67%76.74%81.40%下载链接(code:fxw6)
PSEResNet50_7*784.10%80.01%82.01%下载链接(code:fxw6)
PSEResNet50_3*382.56%78.91%80.69%下载链接(code:fxw6)
PANResNet18_7*781.80%77.08%79.37%下载链接(code:fxw6)
PANResNet18_3*383.78%75.15%79.23%下载链接(code:fxw6)

模型压缩剪枝效果

这里使用mobilev3作为backbone,在icdar2015上测试结果,未压缩模型初始大小为2.4M.

  1. 对backbone进行压缩
模型pruned methodratiomodel size(M)precisionrecallHmean
DBno02.484.04%75.34%79.46%
DBbackbone0.51.983.74%73.18%78.10%
DBbackbone0.61.5884.46%69.90%76.50%
  1. 对整个模型进行压缩
模型pruned methodratiomodel size(M)precisionrecallHmean
DBno02.485.70%74.77%79.86%
DBtotal0.61.4282.97%75.10%78.84%
DBtotal0.651.1585.14%72.84%78.51%

模型蒸馏

模型teacherstudentmodel size(M)precisionrecallHmeanimprove(%)
DBnomobilev32.485.70%74.77%79.86%-
DBresnet50mobilev32.486.37%77.22%81.54%1.68
DBnomobilev31.4282.97%75.10%78.84%-
DBresnet50mobilev31.4285.88%76.16%80.73%1.89
DBnomobilev31.1585.14%72.84%78.51%-
DBresnet50mobilev31.1585.60%74.72%79.79%1.28

文档教程


文本检测效果


Dbnet多语种文本检测效果

生成数据集:

公开数据集:


有问题及交流加微信

微信号:-fxwispig-


参考

About

基于pytorch的ocr算法库,包括 psenet, pan, dbnet, sast , crnn

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

[8]ページ先頭

©2009-2025 Movatter.jp