ocr_extractor

票据识别主工程

处理流程

实现功能

ocr通用后处理，可视化结构化数据提取器

1.支持labelme进行需要提取字段的可视化标注

2.支持定义各字段的合法范围，并自动生成mask，对ocr结果点乘遮罩

3.实现原理为编辑距离的相似度和各字段相对位置投票，使用状态机控制

4.自动文本框切分，有效解决相近字段文本框在文本定位时框在一起的情况

5.支持配置转行等特殊处理

6.支持配置输出字段的特定样式化

使用方式

作为子项目导入ocr主项目：from app.extractor.information_extraction import DataHandle

将ocr的所有文本框及识别结果传入DataHandle一键食用：

state, predict = DataHandle(ocr_score, box, score_, invoice_type, invoice_direction_filter, True).extract()

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
__init__.py		__init__.py
direction_filter_generator.py		direction_filter_generator.py
example.py		example.py
information_extraction.py		information_extraction.py
invoice_config.py		invoice_config.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ocr_extractor

票据识别主工程

处理流程

实现功能

使用方式

About

Uh oh!

Releases

Packages

Languages

verarong/CommonOcrExtractor

Folders and files

Latest commit

History

Repository files navigation

ocr_extractor

票据识别主工程

处理流程

实现功能

使用方式

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages