首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >技术引领场景革新|合合信息PRCV论坛聚焦多模态文本智能前沿实践

技术引领场景革新|合合信息PRCV论坛聚焦多模态文本智能前沿实践

原创
作者头像
摘星.
发布2025-10-24 10:42:40
发布2025-10-24 10:42:40
110
举报
文章被收录于专栏:AI人工智能AI人工智能

技术引领场景革新|合合信息PRCV论坛聚焦多模态文本智能前沿实践

1. 引言

在2025年第八届中国模式识别与计算机视觉学术会议(PRCV 2025)期间,合合信息成功承办“多模态文本智能大模型前沿技术与应用”主题论坛,联合来自学术界与工业界的顶尖专家,围绕产学研协同创新,为行业树立了技术演进与场景融合的新标杆。

本次论坛汇聚了哈尔滨工业大学车万翔教授、南开大学周宇教授、小红书hi lab燕青工程师、华中科技大学刘禹良教授等多位权威学者,与合合信息图像算法研发总监郭丰俊博士同台分享。郭丰俊博士在报告《文本智能前沿技术与创新应用》中系统展示了合合信息在文本图像智能处理、通用文档解析(xParse系统)及AI鉴伪技术等方面的硬核成果,凸显了其“从感知到决策”的多模态文本智能技术闭环。这些实践不仅解决了大模型知识库构建中高质量结构化数据稀缺的痛点,也为金融、政务、医疗等高敏感场景提供了可信、可溯源、可验证的AI基础设施。

合合信息不仅推出了“多模态文本智能技术”概念——即通过融合文本、图像等多模态信息,实现对文档语义的立体化理解与自主决策能力,更重新定义了“文本”在AGI进程中的核心枢纽作用。

2. 多模态文本智能技术

在人工智能迈向通用智能的征途中,多模态文本智能技术正扮演着至关重要的角色。它打破了传统AI模型仅能处理单一数据类型的壁垒,让机器能够像人类一样,综合理解多维度的信息。

2.1. 定义

多模态文本智能技术核心目标并非简单地将不同模态的数据并列处理,而是通过深度融合,建立起模态间的语义关联,从而实现对信息的“立体化、综合化理解”。例如,系统能够分析上下文,理解版面布局的逻辑,进而梳理出图文之间的内在关联,最终洞悉内容背后的深层意图。

2.2. 功能

多模态文本智能技术赋予了AI系统一系列强大的功能,远超传统单模态模型的局限。首先是跨模态理解,系统不仅能识别单一模态的内容,更能建立模态间的深层语义关联。例如,它能理解一张产品图片与其用户评论文本之间的情感一致性,或从一张财务报表截图中精准提取并关联表格结构与周边说明文字。更重要的是,该技术实现了多模态推理能力,将认知从简单的感知层面提升至类人推理与自主决策的高度。系统可以综合分析合同中的文字条款、签名图像以及印章位置,判断其法律有效性;或在自动驾驶场景中,同步解读实时路况图像、交通标志文本及导航语音指令,做出安全、合规的驾驶决策。这种从“感知”到“认知”再到“决策”的完整技术路径,标志着AI正朝着更通用、更智能的方向演进。

2.3. 应用

以合合信息的 TextIn 智能文档处理平台为例,其多模态能力已在多个垂直场景中落地:

  1. 金融投研智能摘要:在金融行业,分析师每天需处理大量PDF格式的财报、研报,其中包含复杂的表格、图表与文字混排内容。TextIn 利用多模态文本智能技术,不仅能高精度识别文字,还能理解图表与周边说明文字的语义关联,自动抽取关键财务指标并生成结构化数据,大幅提升投研效率。
  2. 教育知识库构建:合合信息与赛尔教育合作,将 TextIn 应用于教育大模型的知识库建设。系统能够准确解析教材、试卷等复杂版式文档,按照人类阅读顺序智能划分标题、段落、公式和插图,并理解图文间的逻辑关系,为大模型提供高质量、结构化的训练数据。
  3. 法律合同智能审查:在法律场景中,合同往往包含签名、印章、手写批注与正式条款文本。TextIn 的多模态技术可综合分析这些异构信息,不仅识别文本内容,还能验证签名与印章的位置、完整性,并结合上下文判断合同条款的有效性与风险点,实现“立体化综合化理解”。

3. 合合信息

合合信息(INTSIG)致力于成为全球多模态大模型文本智能技术的领先者,以“文本”为核心枢纽,推动人工智能从感知走向认知与决策。公司不仅拥有扫描全能王、启信宝、TextIn等覆盖个人、企业与垂直行业的知名产品矩阵,更通过持续深耕底层技术,构建起支撑AGI(通用人工智能)发展的三大核心平台,全面赋能多模态智能时代的应用创新。

这三大技术平台构成了合合信息的核心竞争力:全球分布式算力与存储平台(2011年启动)为200余个国家和地区的数亿用户提供高效、稳定、安全的AI服务底座;文本智能技术平台(2017年启动)突破传统OCR局限,赋予机器真正的文本“阅读理解”能力,实现对文档版面、语义与逻辑的深度解析;AGI技术平台(2021年启动)则聚焦多模态大模型、AI Agent与类人推理等前沿方向,推动系统从“被动工具”向“主动伙伴”进化,具备自主决策与执行能力。

依托这一坚实的技术体系,合合信息已实现从工具型产品到智能基础设施的跃迁。无论是TextIn的xParse通用文档解析引擎,还是扫描全能王的智能高清滤镜,亦或是AI鉴伪与商业风控系统,均体现出其“以多模态文本智能驱动真实场景价值”的技术理念。面向AGI时代,合合信息正以文本为锚点,持续拓展AI理解世界、服务人类的能力边界

4. 报告亮点:《文本智能前沿技术与创新应用》核心内容拆解

在PRCV 2025论坛上,郭丰俊博士以《文本智能前沿技术与创新应用》为题,系统展示了合合信息在多模态文本智能领域的硬核实力,彰显其“学术引领、产业驱动”的双重权威地位。

4.1. 文本图像前沿技术与应用

在《文本智能前沿技术与创新应用》报告中,郭丰俊博士重点展示了合合信息的智能文档技术:底层视觉处理、翻页自动拍、通用文档解析、xParse应用等等,我会从博主以及AI使用者的角度去解析郭丰俊博士提到的各种案例对我们的影响。郭丰俊博士向我们展示了几组案例:

4.1.1. 底层视觉处理-文字图像质量提升

案例一:文字图像质量提升

依托于合合信息的文本图像智能处理技术,在文字图像的质量提升方面效果十分显著,从案例中可以看到,当输入一份模糊且含有手指的文档,逐步的通过手指去除、文档方向矫正、添加黑白滤镜等方式,将原先的纸质的模糊的文档形式,转换为清晰可见的电子档形式,可谓是一大突破。

4.1.2. 底层视觉处理-摩尔纹去除

案例二:摩尔纹去除

在平常的办公作业环境中,有时候网站的限制、环境的约束,因为种种原因,导致不得不采用手机去拍摄屏幕画面,由于奈奎斯特采样定理就会出现摩尔纹等等,导致模糊不清,那么针对扫描或拍摄文档中常见的摩尔纹、阴影、模糊等问题,系统可智能识别干扰类型并动态调用最优算法进行高清还原,极大的提升了办公体验。

4.1.3. 底层视觉处理-手写擦除|TextIn

案例三:底层视觉处理03 – 手写擦除|TextIn

在多模态文本智能技术里,合合信息自己研发的底层视觉处理能力,不只是让图像更清晰,更重要的是能聪明地“清理”各种干扰内容。比如TextIn的手写擦除功能,就能准确识别试卷、练习册、教辅材料上的手写字迹,然后干净利落地把它去掉,真正做到“一键擦除,不留痕迹”。

这个技术厉害的地方在于,它不仅能分清哪些是印刷字、哪些是手写内容,还能在擦掉手写部分后,智能地把被盖住的背景内容补回来,让页面看起来干净又完整。再加上自家研发的色彩滤镜,处理后的图像不仅看起来更舒服,还能原原本本地保留原来的颜色——不管是彩色图表、多色标注的几何题,还是各种学科里排版复杂的题目,都能还原得清清楚楚、细节到位。

现在,这项能力已经深度整合进TextIn文档智能平台,广泛用在教育、出版和知识库建设等场景里,为后续生成高质量的结构化数据打下了扎实的基础。

4.1.4. 翻页自动拍

案例四:翻页自动拍

在把纸质文档变成电子版的过程中,如果靠人工一页一页去拍,不仅慢,还容易出错——尤其是面对成堆的资料时,这个问题特别让人头疼。为了解决这个难题,合合信息推出了“翻页自动拍”技术。

这项技术基于他们自研算法,能实时“看懂”你什么时候翻页、什么时候页面静止了,然后自动在最合适的瞬间拍照,真正做到“一翻就拍,拍完就清晰”,整个过程完全不用手动干预。

系统还结合了高精度的文档区域识别、动态模糊抑制和自动调节光线的能力,哪怕是在光线不好或者翻页比较快的情况下,也能稳定输出清晰、端正、高质量的图像,大大提升了文档数字化的效率和体验。

4.2. 通用文档解析

4.2.1. TextIn多模态文本智能处理平台

郭丰俊博士展示了合合信息核心技术架构——TextIn多模态文本智能处理平台,构建了从底层支撑到上层应用的完整技术闭环。该架构分为三大层级:云服务层、技术产品层与综合应用层,为金融、政务、教育等行业提供可信赖、可溯源、可决策的多模态文本智能基础设施。

4.2.2. 通用文档解析系统xParse技术架构

郭丰俊博士展示了合合信息详细展示了其“大模型加速器”的核心组件——通用文档解析系统 xParse 的完整技术架构。该系统构建了一条从原始文档到智能应用的标准化ETL(Extract-Transform-Load)数据流水线,全面支撑多模态文本智能技术的落地。在提取(Extract)阶段,xParse兼容PDF、Word、Excel、PPT、TXT等多种常见文档格式,通过文档加载器、智能文本分块与向量化技术,将原始内容转化为可计算的文本块与初始向量。进入转换(Transform)阶段,系统依托自研的“ETLToolbox”对数据进行深度加工:不仅完成表格、标题、段落等版面结构的精准提取和Schema映射,还结合大模型实现数据清洗、关键实体识别与语义增强,并生成高质量Embedding,配合索引优化提升后续检索效率。最终在加载(Load)阶段,结构化数据被分别写入SDB(如MySQL、MongoDB)和VDB(如Pinecone、Milvus)等数据库,直接赋能智能问答、语义搜索、RAG应用及数据导出等高阶场景。xParse的价值不仅在于多格式兼容与高精度解析,更在于其将传统文档处理升级为“语义驱动、结构可溯、应用就绪”的工程化闭环,真正实现了从“看得见文字”到“读得懂逻辑”再到“用得上知识”的跨越,为大模型时代的企业知识库建设与可信AI应用提供了坚实的数据底座。

4.2.3. 通用文档解析器

基于上方的TextIn多模态文本智能处理平台以及通用文档解析系统xParse技术架构,合合信息实现了将任意格式、版式的文档(包括图片、PDF、Doc/Docx等)高效、精准地转换为结构清晰、机器友好的Markdown格式。这一能力是“多模态文本智能技术”的关键落地环节,旨在打通从非结构化文档到大模型可理解数据的“最后一公里”,整个的流程如下:首先处理电子档与扫描件,确保各类输入源均可接入;继而通过文档图像预处理提升图像质量;在此基础上进行物理版面分析,识别标题、正文、表格、图片等区域的视觉位置与类型;随后开展逻辑版面分析,深入理解段落归属、表格结构、列表层级等语义关系,形成“逻辑骨架”;最后通过高精度文字识别提取内容,确保文本准确性。输出的Markdown格式结构规范、语义明确,天然适配大语言模型的输入需求,可直接用于RAG、智能问答、知识库构建等场景。该技术标志着文档处理从“看得见文字”迈向“读得懂逻辑”,为AI真正理解并利用人类知识提供了标准化、可扩展的数据桥梁。

4.2.4. xParse应用案例

传统OCR在RAG(检索增强生成)场景中的致命缺陷:若文档解析不精准,将导致模型答非所问、生成幻觉或引用错误数据。针对这些问题,xParse提出对应解决方案——通过目录层级识别与段落完整性保障相关性;借助表格/图片与标题关联、跨页元素合并确保信息完整;依托高精度表格识别、阅读顺序还原与坐标精准定位提升可信度。更重要的是,xParse的能力远超传统OCR:它能将任意复杂版式文档按语义拆解为连贯段落,精准识别合并单元格、跨页表格、手写体、公式、印章等非结构化元素,并还原其逻辑关系。这些能力使得大模型接收到的不再是碎片化字符,而是具备完整语义结构与上下文关联的高质量输入。右侧示意图直观呈现了xParse对混杂标题、表格、图像、手写批注的原始文档进行智能标注与结构化解析的过程,充分体现了其“读懂文档”而非“仅看见文字”的核心优势,为后续大模型实现精准问答奠定坚实基础。

并且展示了真实的RAG应用案例,通过左右对比实验,模拟用户提问“表2.1讲了什么?”,清晰展现使用与未使用xParse的差异。在未使用TextIn文档解析的一侧,AI仅能泛泛回应“老年人希望通过活动找到归属感”,回避具体数据,答案空洞且疑似基于正文描述而非表格本身,暴露了传统方法无法解析表格结构的短板。而在使用TextIn文档解析引擎的一侧,AI不仅准确识别出表格标题为“老年人对人际交往的态度”,还清晰说明其数据来源、列结构含义,并精准引用“27.4%”等具体数值,最终给出结构化、有依据、带总结的深度解读。这一对比完美印证了xParse在三大维度的价值:相关性上精准锚定“表2.1”;完整性上完整提取表格所有行列与数据;可信度上确保数字与逻辑无误。该案例有力证明,xParse并非简单转换工具,而是通过深度结构化解析,将原始文档转化为大模型可理解、可推理、可引用的“智能知识单元”,从而显著抑制幻觉、提升回答的专业性与可靠性,真正释放RAG在企业知识管理、智能客服等高价值场景中的潜力。

4.3. AI安全

4.3.1. 危害案例-伪造图像

郭丰俊博士通过两个实际发生的事件,深入剖析了图像内容被不当篡改所引发的社会风险。

第一个案例发生在2024年的山东淄博,有人通过技术手段制作了看似正式的机关单位文件,使接收方误以为内容真实,最终导致较大金额的资金损失。第二个案例则出现在同年香港,不法分子借助先进的生成式技术,模拟企业负责人的音视频形象,在线上会议中发出指令,造成巨额资金被错误划转。

这两个事件分别体现了传统文档被仿制与新兴生成技术被滥用的典型场景。前者影响了公众对正式文件的信任基础,后者则因高度拟真的视听效果,具备更强的迷惑性和潜在危害。它们共同揭示了一个亟待应对的挑战:在图文音视频等多模态信息广泛传播的当下,如何高效判断内容是否经过人为干预,保障身份与信息的可靠性?

在此背景下,合合信息推出的多模态智能识别方案展现出重要价值。该系统能够有效识别经过合成或篡改的图像、视频、票据及证件类内容,并可与身份验证、动态行为检测等能力协同工作,在金融、政务、司法等对信息真实性要求较高的领域,提供有力的技术支撑。这不仅是一次技术层面的创新,更是对数字时代信息可信度的一种积极维护。

4.3.2. FidOK智能鉴伪-产品概述

面对AI伪造技术越来越泛滥带来的安全风险,合合信息推出了自己的核心安全产品——“FidOK图像智能鉴伪系统”,专门用来帮金融、政务、企业这些对安全性要求极高的场景守住内容真实这条底线。

FidOK能精准识别身份证、发票、合同、短信截图等几十种常见凭证有没有被篡改过。它不只是简单告诉你“真”或“假”,还能把伪造的地方直接圈出来、高亮显示,真正做到“看得见、说得清”,让鉴伪结果一目了然。

在性能上,FidOK也相当能打:单张图片的分析只要几百毫秒,响应快;真伪判断准确率高达99.6%,召回率(也就是抓出假图的能力)达到98%,而误报率控制在2%以内,既准又稳。

部署方式也很灵活——支持公有云API调用,也能私有化部署,还适配国产化环境。不管是NVIDIA、海光还是华为的硬件平台,甚至纯CPU环境,都能跑得起来,轻松对接各类IT架构,满足信创和数据安全合规的各种要求。

这套系统的技术实力也已经通过了权威验证:获得了中国信息通信研究院泰尔实验室“文档图像篡改检测平台能力完备性”认证,并在银行、保险、汽车金融等多个行业实现规模化应用。

说到底,FidOK不只是一个工具,更是抵御AI伪造风险的第一道防线。它用实实在在的数据和落地案例,展现了合合信息在多模态文本智能和AI安全领域的硬核实力。

4.3.3. FidOK智能鉴伪-伪造检测

在实际演示中可以看到,合合信息推出的FidOK图像智能识别方案,构建了一套面向多种内容篡改场景的综合检测能力,包含三大核心模块:

一是针对文档类图像的异常识别功能,可有效发现身份证、合同、票据等材料中关键字段(如姓名、金额等)是否存在人为修改或合成痕迹;二是面向人脸内容的异常分析能力,能够识别图像中是否存在拼接、替换或高度仿真的合成操作,从而提升身份验证环节的可靠性;三是面向生成式内容的风险识别模块,专注于检测由人工智能技术生成的高仿真图像,在内容溯源、版权管理及真实性评估等场景中提供支持。

这三个模块分别回应了金融业务中的风险防控、身份核验中的安全保障,以及数字内容生态中的真实性管理等实际需求,体现了FidOK从传统图像篡改到新型生成内容的全链条识别能力,为用户提供专业、精准且可实际部署的图像可信性解决方案。

FidOK图像智能鉴伪在“文本图像伪造检测”这个细分领域,已经跑到了国际前列,不仅技术扎实,实战效果也经得起考验。

背后的研发团队凭借多年积累,接连拿下两个重量级国际冠军:2023年ICDAR“文本图像篡改检测”竞赛第一名,以及2024年全球AI攻防挑战赛“金融凭证篡改检测”赛道冠军。这两个奖项一个代表学术前沿,一个贴近真实攻防场景,双双夺冠,充分证明了FidOK的算法既“能打理论”,也“扛得住实战”。

在实际应用中,FidOK也已经落地开花。比如,它已为某知名银行提供服务,专门解决线上业务中长期存在的难题——传统系统很难识别翻拍照、复印件,更别提PS篡改了。FidOK则给出了一套完整的智能核验方案,把身份证识别、图像质量检测和PS篡改分析“三合一”,从源头堵住欺诈漏洞,让远程身份核验更安全、更可靠。

在人脸内容真实性识别这一技术挑战较高的方向上,FidOK图像智能识别方案展现了扎实的研发积累和良好的实际应用效果。

在计算机视觉领域国际会议CVPR 2024举办的ChaLearn相关技术评测中,FidOK团队在“统一物理-数字人脸异常检测”任务中取得了全球第三的成绩。该任务主要评估系统在面对多种复杂图像来源(如合成图像、屏幕重显、立体模型模拟等)时的综合判别能力,结果反映出其在贴近真实使用环境下的技术可靠性。

目前,相关能力已在某大型国有银行的移动端APP及小程序的身份验证流程中得到应用。系统创新性地结合了“人脸内容一致性分析”与“背景环境匹配检测”两项技术,在不增加用户操作负担的前提下,显著提升了对异常图像的识别效率——相比原有方案,识别敏感内容的能力提升近8倍,有效支持了业务流程的安全性。

这一落地案例不仅体现了技术的实用性,也说明内容真实性识别能力正在从学术研究逐步走向对信息可靠性要求较高的金融应用场景。

合合信息在人脸视频内容真实性识别方向,已形成一套成熟、稳定且易于集成的技术方案。

针对当前多样化的图像与视频生成方式(如人脸合成、静态图像重显、视频重放、立体模型模拟等),团队基于大量真实与合成样本,构建了一套多维度融合的智能分析体系:既关注像素层面的细微不一致,也结合频域特征进行判断,同时还对视频帧间的动态连续性进行建模。通过多角度协同分析,显著提升了对异常内容的识别能力。

该方案已实际应用于包括建设银行在内的多家大型金融机构,在其身份验证流程中提供关键支持。同时,相关能力也通过TextIn平台以云服务形式开放,帮助各类企业快速获得高可靠的人脸内容核验能力,无需重复投入底层研发。

值得一提的是,合合信息还引入了Grad-CAM等可解释性技术,使模型的判断依据更加清晰。系统会以热力图形式直观呈现图像中可能存在异常的区域——例如边缘过渡不自然、局部纹理异常或光照逻辑不一致等线索。这种“可追溯”的分析方式,不仅有助于提升审核效率,也让人工复核更有依据、更加精准。

5. 结语:合合信息在AI+文档智能领域的持续引领

在人工智能迈向通用智能(AGI)的关键阶段,文本作为人类知识的核心载体,正从“被识别的对象”跃升为“智能理解的枢纽”。合合信息以“多模态文本智能”为战略支点,通过xParse通用文档解析、FidOK智能鉴伪等硬核技术,不仅突破了传统OCR的感知边界,更构建起从视觉处理、语义理解到内容安全的全栈能力体系。

面向未来,合合信息将持续深化“技术+场景”双轮驱动,推动多模态文本智能在金融、政务、医疗、教育等高价值领域规模化落地,助力AI真正“读得懂逻辑、做得对决策、守得住安全”,以文本为锚,驶向AGI时代的新蓝海。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 技术引领场景革新|合合信息PRCV论坛聚焦多模态文本智能前沿实践
    • 1. 引言
    • 2. 多模态文本智能技术
      • 2.1. 定义
      • 2.2. 功能
      • 2.3. 应用
    • 3. 合合信息
    • 4. 报告亮点:《文本智能前沿技术与创新应用》核心内容拆解
      • 4.1. 文本图像前沿技术与应用
      • 4.2. 通用文档解析
      • 4.3. AI安全
    • 5. 结语:合合信息在AI+文档智能领域的持续引领
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档