OCR 2.0来了! 开源模型 GOT-OCR-2.0 正式发布,标志着新一代 AI OCR 技术的到来。
作为一款强大的端到端 OCR 模型,GOT-OCR-2.0
不仅支持传统的场景文本和文档识别,还能处理乐谱、图表、甚至复杂的数学公式!
这个全新的模型设计采用了一个集成的 vision encoder
和 decoder
,能够同时处理多种类型的 OCR 输入,从而极大提高了信息传递的效率。
尤其是在高分辨率图像处理方面,GOT-OCR-2.0 采用了 local attention 机制,以避免全局注意力机制在高分辨率图像中的内存消耗问题。
截屏文本识别/文档识别/乐谱识别/图表识别
OCR2.0评测:
模型大小仅为 1.43GB,相较于其他AI模型其实算是小的了。而如此紧凑的模型却具备极强的性能,非常值得开发者和研究人员尝试。
尤其是对于那些需要处理高复杂度 OCR 任务的用户,这款模型无疑是一个革命性的工具。
GOT-OCR-2.0 作为 AI 2.0 时代的产品,它凭借端到端的设计、一体化架构和对多场景复杂内容的识别能力,提供了更加精准和高效的 OCR 解决方案。
可以快快感受这款无敌的 OCR 2.0 工具带来的高效工作流程!
项目地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0
模型下载: https://huggingface.co/ucaslcl/GOT-OCR2_0