火眼OCR是由北京邮电大学计算机学院熊永平老师团队研发的一套丰富实用的OCR桌面端工具,旨在提高PDF和图像文档的数据处理效率,也便于学生团队研发验证文档图像模型。该系统完全独立开发,并未基于PaddleOCR等开源框架,功能覆盖文档去噪、文字检测、文字识别、表格识别、公式识别、分栏识别等,支持国产化平台,也支持以单机模式运行。
对我们团队感兴趣欢迎联系ypxiong@bupt.edu.cn
点击链接下载体验和吐槽:
Windows
Mac
目前所有后端服务都是运行在实验室服务器上,通过隧道提供互联网服务,由于实验室资源有限,每位用户每天限制免费使用10页,也欢迎有意愿赞助服务器资源的土豪和我们联系。
功能特性
复杂线框表格识别
复杂线框表格识别,自动识别由线段构成的表格,支持手动添加表格内部横线框和内部竖线框,实现单元格行、列的分割调整,并还原出excel结构。
查看效果
分栏识别
在各类报告和科研文献中,通常存在分栏,可以准确识别期刊、论文等文档中的分栏格式,并将文档按照分栏格式自动识别转换到Word文档中。
查看效果
去除印章
自动识别文档图像中的印章并分离去除,自动去除水印的功能也即将上线。
查看效果
数学公式识别
自动识别文档中的数学公式,包括文档中和表格中的公式,并转换成可编辑模式。
查看效果