前不久,我们推出了腾讯云大模型知识引擎,最快只需5分钟,客户就能轻松搭建企业专属知识服务助手。作为一个知识引擎,首先就得看懂,且理解「海量知识」——特别是复杂多样的PDF、图片、表格等格式文件!
对传统OCR技术来说,看懂海量文档材料,特别是复杂版面文档确实是个大问题;但腾讯云大模型知识引擎,有一项引领行业的硬核能力——大模型知识引擎文档解析!
在读懂大模型知识引擎文档解析之前,我们先了解传统文档识别的不足和难点。
回顾下,你有过以下经历吗?
a.海量合同、报告等需要手工录入系统; b.模型训练繁琐的文档整理与数据格式转换; c.讲座卡卡拍了一大堆PPT,却难以整理编辑; d.横七竖八的表格投喂OCR输出结果顺序混乱; e.心心念念找到的PDF文档识别复制粘贴后乱码。 ......
曾几何时,这些场景和过程让人倍感无力。
事实上,从个人到企业,每天都要处理大量的文档材料,包括合同、报告、论文、试卷、说明书、广告物料、PPT、表格等等;这些文档往往以图片或PDF格式存在,难以直接进行编辑、分析与电子化归档。
传统OCR技术虽然能够很好的识别结构化信息,但其局限性也很明显。
从技术层面来看,传统 OCR 对复杂场景的适应能力及上下文语义理解极为有限。对于存在多样化表格、混排内容、背景干扰、分辨率低等情况的图像难以准确地识别、分离出字符区域,导致识别错误率升高。
另一方面,在识别能力上,传统 OCR 缺乏灵活性,难以应对多样化的输入。不同的行业存在不同格式的文档和图像,而传统 OCR 往往难以快速适应这些变化,需要进行大量的调整和优化,进一步增加了使用成本和时间成本。
特别是大模型热潮催生了海量的数据需求,数据的泛化性和质量直接影响模型的训练效果与效率;而模型训练企业更依赖于结构化的数据源,但传统的数据准备工作繁琐且耗时,这也导致收集可用数据成本偏高。
如何将复杂版面、非结构化的文档精准识别并转化为可操作、可用性强的结构化数据,成为企业亟待解决的问题,这也是传统OCR工具平台能力进化的关键命题。
传统OCR与大模型文档解析,谁更胜一筹,不同场景应该是各有千秋。
大模型文档解析凭借大规模数据训练和强大深度学习能力,具有更为强大的适应性和准确率,能应对各种复杂场景,良好的扩展性也便于与其他技术集成。
致力于推动文档处理领域的“效能变革”,为用户带来更加高效、便捷、精准的文档处理体验,一直是大模型知识引擎在文档解析方面的追求目标。
为了便于大家清晰理解,我们将腾讯云大模型知识引擎文档解析的核心要点进行了提炼:
1)独创多模态文档解析大模型:在算法上,基于腾讯优图实验室自研新一代多模态文档解析大模型,通过粗粒度生成元素的位置及顺序,并辅以内容生成赋予上下文的语义感知,可以解决各种复杂排版的问题,并在图文表混排的场景下更具优势。
2)智能版面分析:与传统的OCR文字识别不同,文档解析产品能够快速抽取文档的关键属性,支持对多栏、内容混排等复杂版式的文档进行精准解析,如论文、报告、书籍等文档中的标题、段落、图片、表格、公式、页眉、页脚等多种版面元素,并按照阅读顺序提取内容。
3)表格结构识别:针对传统表格识别难题,全新的表格结构识别模型在常规、有线、无线、少线、多表格、跨页表格等复杂场景下能对表格精准检测和内容识别,并做结构化复原。
4)高精度文本识别:能够准确识别中英文、繁体字、生僻字等多种类字体,即使是不可解析的图片和PDF文档,也能够进行高精度识别。
5)Markdown格式输出:支持将图片、PDF文档转换为Markdown格式,这种轻量级的标记语言易于阅读和编写,非常适合大型模型训练和文档电子化。
简言之,大模型知识引擎文档解析综合了版面分析、文字识别、表格识别、公式识别、子图识别等多种算法能力。基于多模态大模型能力,能够智能理解、解析图片和PDF文件中的版式元素,将非结构化数据转换为结构化的Json代码和Markdown格式文件,极大地提高了文档处理的效率和准确性。
为了方便大家使用和集成文档解析能力,我们将其封装为标准化的API服务,开箱即用。
从业务视角来看,选择哪一种技术,取决于具体的应用场景和需求。
对于一些文档格式相对固定、图像质量较好的特定场景,传统 OCR 在成本、计算资源等方面依然具有优势。得益于深度学习技术突破,传统OCR领域也在迎来新的变革,以腾讯云文字识别为例,持续深耕OCR领域,打造了通用文字、卡证类、票据类以及智能结构化识别等数十项丰富能力,积累了丰富的场景实践经验,支持API接入,开箱即用。
而在需要处理非结构化、多样化表格或图文混排等复杂文档情况下,多模态文档解析大模型则具有更大的优势。腾讯云大模型知识引擎文档解析产品基于腾讯优图实验室自研新一代多模态文档解析大模型,在算法能力、模型准确率、适应性、应用场景、灵活接入等方面都具备行业领先优势。
在实际场景应用方面,以模型训练为例,通过将PDF文件转换为Markdown格式可将非结构化数据纳入模型训练流程,大模型服务商可以获得更广泛、可用性强的数据覆盖范围,提高模型的泛化能力和适应性,为模型提供更具挑战性的训练数据,帮助模型更好地理解和处理复杂的产品、技术、行业报告等文档。
国内某头部大模型公司,核心产品是一款支持长文本处理的AI大模型。在模型训练环节,月均离线处理千万级PDF、Word文档;模型推理方面,实时处理上传文档,每分钟接近千份,其中60%PDF文档包含公式内容,延迟要求3-5秒返回30页文档识别结果。
剖析业务诉求,有几个突出的痛点:
1)以科研Chat场景为例,用户上传的文档包含大量的数学公式和表达式,公式符号复杂多样,且布局不规则,极大的增加了文档内容的识别难度; 2)许多数学符号和字符在形态上非常相似,如“零”和“字母O”,“一”和“减号”等,容易导致识别错误,从而给大模型传达错误的文章含义; 3)即使识别出了数学公式,将其准确地转化为LaTeX代码仍然是一个挑战,尤其是对于包含多层嵌套和自定义命令的公式,不完整的转化极大增加后期手动校对和修正时间。
在接入腾讯云大模型知识引擎文档解析能力后:
1)模型首先定位版面元素的位置、类型、顺序,接下来识别不同类型元素的内容(子图内容、公式、表格等),最后将各元素识别结果整合为Markdown。通过理解数学公式和技术表达式的上下文,更准确地进行识别和翻译。 2)对比业界主流文档识别供应商,文档解析在各阶段准确率靠前,复杂公式准确率高达90%以上,识别后的Markdown结果内容完整,便于进一步的编辑、分析和使用。
此外,大模型知识引擎文档解析也在企业微信、QQ浏览器、腾讯文档、腾讯会议、腾讯元宝、腾讯元器等众多腾讯内部产品业务中陆续接入,服务于内外众多用户。
随着技术迭代提速,多模态文档解析大模型应用范围也会进一步扩大。
目前,除了赋能大模型企业训练提质增效外,大模型知识引擎文档解析也在文档电子化,C端泛互工具,特别是某些特定领域(如医疗、金融、物流、教育、编辑出版等),也发挥着独特价值。
从小工具的实用到大系统的集成,不难看出,传统OCR技术进化到多模态大模型能力,正“下沉”为一项基本的硬核能力,为上层不同的业务应用提供底层技术支撑。
工欲善其事,必先利其器。一款好用的文档解析工具,不仅是助力企业提质增效,对职场人士、学生党来说,也是一大福音。