Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >多模态及图像安全的探索与思考

多模态及图像安全的探索与思考

原创
作者头像
Yan-英杰
发布于 2023-10-18 01:08:47
发布于 2023-10-18 01:08:47
4130
举报
文章被收录于专栏:英杰英杰

前言

第六届中国模式识别与计算机视觉大会(The 6th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2023)已于昨日在厦门成功举办。通过参加本次会议,使我有机会接触到许多来自国内外的模式识别和计算机视觉领域的研究者和工业界同行,了解了目前我国模式识别与计算机视觉领域的最新理论和技术成果。其中对我触动最大的就属上海合合信息的郭丰俊博士讲解的“文档图像前沿技术探索—多模态及图像安全”专题部分了。

合合信息

在讲解多模态及图像安全之前,我们先对合合信息科技做一个简单的介绍吧。

上海合合信息科技股份有限公司致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。

它开发的深受全球用户喜爱的C端产品全球累计用户下载超23亿,累计月活约 1.3亿。其中名片全能王扫描全能王免费版在App Store排行榜上名列前茅。

文档图像分析识别与理解

技术难题

大会上,郭博士对目前文档图像分析识别与理解的技术难题做了阐述,主要体现在以下几个方面:

l 当文档图像质量退化时,会导致文档图像变得模糊不清。这种质量问题与文档图像扫描技术密切相关;

l 根据以下图片案例来看,文字的排布版面非常的复杂,这就给版面分析、文字检测带来了巨大的挑战;

l 在文字识别领域,由于书写的潦草、包括识别的种类非常的多,除了文字、公式还有一些特殊的符号;

探索

基于以上的问题和难题,合合信息将文档图像分析识别与理解的研究主题分成了以下六个模块:

l 文档图像分析与预处理:主要解决的是文档图像的质量问题,比如一张人眼都无法看清的文档图像在经过切边增强、去摩尔纹、弯曲矫正、图片压缩、PS检测等技术的处理之后变成非常清晰的质量非常高的图像。

l 文档解析与识别:经过文档图像分析与预处理之后的文档图像会接着来到文档解析与识别模块。我们通过文字识别、表格识别、电子档解析等技术获取到文字信息。

l 版面分析与还原:我们会把上个步骤拿到的文字信息进行处理,使用元素检测、元素识别、版面还原等技术来识别文档的标题、段落、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。

l 文档信息抽取与理解:通过计算机技术,从文档中自动提取出有用信息并进行理解、分类和归纳。文档信息抽取与理解可以帮助人们更加有效地管理和利用大量文档数据,提高工作效率和决策质量。它在数字化档案管理、企业知识管理、搜索引擎、自动化客服等领域具有广泛的应用前景。

l AI安全:在文档图像分析识别与理解过程中,通过篡改分类、篡改检测、合成检测、AI生成检测等技术来保证用户的数据隐私和文档图像安全性。

l 知识化&存储检索和管理:将信息和知识进行有效的组织、存储、检索和管理,在大量的数据和信息中提取有用的知识,并使其易于访问和利用,对于提高工作效率、决策质量和创新能力具有重要意义。

多模态模型进展与探索

去年随着ChatGPT的横空出世,大家对多模态模型是否能快速融入到自己的工作场景产生了浓厚的兴趣。我们接下来讲一下多模态大模型对文档图像处理方面将会产生怎样的影响。

文档图像多模态属性

多模态大模型是指能够同时处理多种类型数据(例如图像、文本、语音等)的强大神经网络模型。它将多个模态的输入数据整合在一起,并通过共享的模型结构进行联合训练和推理。

多模态大模型的核心思想是将不同模态的数据进行融合和交互,以实现更全面、准确的任务处理。例如,在图像与文档生成任务中,模型可以同时接受图像和文档输入,并根据两者之间的关联生成相应的输出。由此可见文档图像具有天然的多模态属性

多模态大模型在文档图像处理中的应用

l GPT-4:多模态大模型如GPT-4已经取得了显著的进展,可以同时处理文本和图像数据,从而提高了文档图像识别与理解的性能。这使得处理多种类型的信息更加容易,包括文字、图像和其它媒体。

l Google Bard:Google Bard是另一个多模态大模型,同样在文档图像领域表现出色。这种竞争推动了领域内的技术进步,有望带来更多创新。

l 文档图像大模型:文档图像处理领域出现了一系列专有大模型,如LayoutLM系列、LiLT INTSIG、UDOP和Donut。这些模型使用了多模态Transformer编码器,可以应用于不同的文档图像处理任务,包括文本、表格、版面结构和多语言支持。

l 多模态大模型的局限性:尽管多模态大模型在处理文本和图像方面表现出色,但它们仍然存在一些局限性,特别是对于细粒度文本的处理表现较差。这为未来的研究提供了挑战和机会,以进一步提高这些模型的性能。

LLM时代文档图像处理技术趋势

随着大模型领域技术的突飞猛进,领域专家对LLM时代文档图像处理技术的趋势做出了预测。普遍认为输入端应该是多模态的方法,架构应该是Transformer Encoder / Decoder的架构,而数据层面应该是海量/高质量的数据。只有具备了以上三个条件,才能得到一个比较好的文档图像大模型的效果。

ChatGPT4出来以后,之前的做OCR的方法还适用嘛?答案是肯定的,OCR仍然是多模态大模型中的一项重要技术,因为要想训练一个很好的大模型,都依赖于高质量的大数据,而OCR本身就是一个提供高质量数据的工具。OCR可以支持大模型高效的录入数据,而且支持不同格式的信息提取。

文档图像处理知名系统

通过对比实验分析,当前大模型的系统测评的系统性能还有待提高,跟监督学习的结果相比还是差点意思。究其原因,可能跟视觉编码器的分辨率和训练数据限制有关。

文档图像大模型的探索

以下是合合信息与华南理工联合实验室对文档图像大模型的探索,以SPTS架构为例:

l 将端到端检测识别定义为图片到序列的预测任务;

l 采用单点标注指示文本位置,极大地降低了标注成本;

l 无需RoI采样和复杂的后处理操作,真正将检测识别融为一体;

l 将检测识别解耦为自回归的单点检测和并行的文本识别。

在SPTS v2的研究中,企业和高校重点关注速度优化的问题。

依旧是针对场景文字,将检测识别解耦为自回归的单点检测和并行的文本识别。IAD根据视觉编码器特征自回归地得到每个文本的单点坐标。PRD根据IAD的单点特征,并行地得到各个文本的识别结果。

SPTS v3目前主要关注以下任务:端到端检测识别、表格结构识别、手写数学公式识别。

场景文本端到端检测识别效果展示

表格结构识别和手写数学公式识别效果展示:

图像安全

随着生成式人工智能的快速发展,现在在图像领域,越来越多的系统能够生成图像质量非常高的生成式图像,图像的真伪、图像的安全问题变得越来越重要。AI换脸、证照篡改等会对银行、保险、金融行业的人脸认证产生很大的问题:

中国信通院携手合合信息开启《文档图像篡改检测标准》制定工作,为文档图像内容安全提供可靠保障,助力新时代AI安全体系建立。主要体现在图像篡改检测、AIGC判别两个方面。

篡改种类

图像篡改分为四种类型:复制移动、拼接、擦除、重打印。

系统架构

解决的方法主要是通过以下分割模型来解决的,Backbone使用ConvNeXt作为编码器,使用LightHam和EANet两个网络并行作为解码器来达到更好的判断效果。

技术挑战

对于文档图像和证件照篡改的主要技术挑战主要体现在它的泛化性。通过大量数据的构建和整个训练策略的不断调优来达到泛化问题的改善。

合合信息在今年获得ICDAR2023 文档图像篡改检测的冠军。

人脸鉴别

通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度。

鉴别结果展示

展望

合合信息的研究成果为各行业提供了实用的解决方案。智能图像处理作为其中的一个重要领域,合合信息开发出了高效、准确的图像处理算法和工具,为各种应用场景提供了优化的解决方案。这些成果广泛应用于医疗影像诊断、智能交通、安防监控等领域,极大地提升了效率和精度,并为各行业的发展带来了实际效益。希望合合信息能够持续进行深入的研究探索和技术创新,不断取得更多突破,推动人工智能技术的应用和智能产业的发展。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果
近期,中国模式识别与计算机视觉大会在厦门举办,是国内顶级的模式识别和计算机视觉领域学术盛会。大会汇聚了国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,分享我国模式识别与计算机视觉领域的最新理论和技术成果。通过此次会议,进一步加强本领域的同行与东南沿海地区的学者和企业进行学术交流和技术碰撞,从而促进模式识别与计算机视觉领域的协同合作与融合创新。
can4hou6joeng4
2023/11/29
4990
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。
中杯可乐多加冰
2024/01/05
8890
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
多模态大模型「卷」向智能文档,只为解放打工人的双手
文档是重要的信息存储载体之一,人们每天接触和使用文档的频率也越来越高。相对应地,用户对文档处理和图像内容的安全要求逐渐提升,智能文档技术面临的挑战也更大。
AI科技评论
2023/08/08
8160
多模态大模型「卷」向智能文档,只为解放打工人的双手
CIIS 2023丨聚焦文档图像处理前沿领域,合合信息AI助力图像处理与内容安全保障
近日,2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌顺利举行。大会由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办,南昌市科学技术局、中国工程科技发展战略江西研究院承办。本次大会重点关注AI大模型、生成式AI、无人系统、智能制造、数字安全等领域,汇集了来自中国工程院、国际欧亚科学院、国际核能院等多个学术机构的院士进行主题报告演讲、专题论坛研讨。近200位人工智能领域专家学者同场交流分享,吸引了线上线下超千万人次观会。
合合技术团队
2023/09/21
2890
CIIS 2023丨聚焦文档图像处理前沿领域,合合信息AI助力图像处理与内容安全保障
大模型时代下智能文档处理核心技术大揭秘
随着人工智能技术的发展,智能图像处理成为了一种风靡全球的热门技术。智能图像处理可以帮助我们从大量的图像数据中提取最有价值的信息,为医疗、军事、安防等领域带来了重大的贡献。然而,图像处理的难点也随之而来,下面我们来简单介绍一下图像处理的难点以及解决方式的比对。
机器学习AI算法工程
2023/11/22
6480
大模型时代下智能文档处理核心技术大揭秘
合合信息CCIG2022技术分享:文档图像质量增强是OCR进阶的重要研究方向
近期,2022中国图象图形大会(CCIG 2022)在成都圆满落幕。本次大会由中国科学技术协会指导,中国图象图形学学会主办,四川大学承办,电子科技大学协办,汇聚了潘云鹤院士、郑南宁院士、高文院士、戴琼海院士、王耀南院士、乔红院士等百余位国内知名学者,以及来自百度、华为、OPPO、合合信息等企业的技术专家,共话图像图形学术研究与技术创新趋势,共谋行业新发展,参会人数突破1500人。
合合技术团队
2022/08/24
7720
合合信息CCIG2022技术分享:文档图像质量增强是OCR进阶的重要研究方向
AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?
如今,智慧办公是企业办公领域数字化转型的题中之义。作为国内最早开发的软件办公系统之一,金山办公如何应用深度学习实现复杂场景文档图像识别和技术理解?本文将从复杂场景文档的识别与转化、非文本元素检测与文字识别、文本识别中的技术难点等多个方面进行深度解析。 作者 | 金山办公CV技术团队 出品 | 新程序员 在办公场景中,文档类型图像被广泛使用,比如证件、发票、合同、保险单、扫描书籍、拍摄的表格等,这类图像包含了大量的纯文本信息,还包含有表格、图片、印章、手写、公式等复杂的版面布局和结构信息。早前这些信息均采用
AI科技大本营
2023/04/10
2.4K0
AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?
PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术
近期,2023年中国模式识别与计算机视觉大会(PRCV)在厦门成功举行。大会由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,多媒体可信感知与高效计算教育部重点实验室、厦门大学人工智能研究院、厦门大学信息学院承办,是国内模式识别和计算机视觉领域的学术盛会。
合合技术团队
2023/10/17
4440
PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术
合合信息高评级通过中国信通院智能文档处理系统评估,助力可信AI发展
数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势。智能文档处理(IDP)技术能够高效地从多格式文档中捕捉、提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本。近期,合合信息智能文字识别产品通过中国信息通信研究院(以下简称“中国信通院”)“可信AI—智能文档处理系统”评估工作,并获得“5级”评定。据悉,“5级”为该模块最高评定等级。
合合技术团队
2023/06/21
2960
合合信息高评级通过中国信通院智能文档处理系统评估,助力可信AI发展
CSIG企业行-走进合合信息成功举行,聚焦生成式人工智能、智能文档处理前沿热点
3月18日,由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行”系列活动成功举办。此次活动以“图文智能处理与多场景应用技术展望”为主题,特邀来自上海交大、厦门大学、复旦大学、中科大的知名学府的学者与合合信息技术团队一道,面向行内研究者分享图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等研究及实践成果。
合合技术团队
2023/03/22
4400
CSIG企业行-走进合合信息成功举行,聚焦生成式人工智能、智能文档处理前沿热点
合合信息AI图像内容安全新技术亮相WAIC2023,防范“生成式造假”
开年以来,多个图像生成软件在全球迅速蹿红,其作画逼真程度“技惊四座”。AI一路“狂飙”,让生成、篡改等多形式的图片伪造的门槛变得更低,由此引发的隐患也令人忧虑。
合合技术团队
2023/07/07
3410
合合信息AI图像内容安全新技术亮相WAIC2023,防范“生成式造假”
如何提升智能文档处理识别精度?合合信息“版面分析”实现新突破
春季是繁忙的播种季,学生党迎来了开学季和紧张的研究生复试,职场人士也需要处理新签业务带来的大量不同类型的文件,比如合同、发票、档案等。这些文件在被拍照、扫描成电子文档的过程中,时常存在漏字、错位现象。究其原因,有个看似“冷门”却关键的技术点极大地影响了文字识别效果,这个技术便是“版面分析”。
合合技术团队
2023/04/14
1.5K0
如何提升智能文档处理识别精度?合合信息“版面分析”实现新突破
亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题
近日,2024中国图象图形大会在古都西安盛大开幕。本届大会由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。
合合技术团队
2024/05/29
1530
亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题
合合信息扫描全能王发布“黑科技”,让AI替人“思考”图像处理问题
现阶段,手机扫描正越来越多地进入到人们的生活中。随着扫描应用场景的不断拓宽,诸多细节的问题逐渐显露,比如使用者在拍照扫描文档时,手指不小心“入镜”了,只能重拍;拍电脑屏幕时,画面上有一些彩色条纹,既不美观也影响内容识别;拍完照片后发现文档很杂乱,扫描时需要手动叠加好几种图片处理方案,才能获得理想的效果……这些“糟心事”,如今被一个滤镜轻松解决了。
合合技术团队
2023/08/16
4460
合合信息扫描全能王发布“黑科技”,让AI替人“思考”图像处理问题
AI智能识别如何助力PDF,轻松实现文档处理?
随着科技的不断发展,人工智能(AI)在各个领域都发挥着重要的作用。其中,文档智能( Document AI )在金融、医疗、教育、保险、能源、物流等多个行业均有不同类型的应用,为PDF文档处理带来了极大的便利和效率提升。
ComPDFKit
2023/11/01
2K0
AI智能识别如何助力PDF,轻松实现文档处理?
击败全球上千参赛队伍,合合信息获ICDAR“文本篡改检测”赛道冠军
AI技术的快速发展激发了人们对于美好未来的畅享,也带来了潜在的危机,数据泄露、电信诈骗等系列风险与隐患开始浮出水面。利用科技手段构建可信的技术发展环境,保护使用者的信息及财产安全,正在成为行业共识。
合合技术团队
2023/07/21
4670
击败全球上千参赛队伍,合合信息获ICDAR“文本篡改检测”赛道冠军
深度学习助力版面分析技术,图像“还原”有方
近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与文档还原技术实现上的新突破。
码农飞哥
2023/09/03
9080
深度学习助力版面分析技术,图像“还原”有方
嵌入式图像处理:算法、应用与性能优化
嵌入式系统在现代科技中扮演着重要的角色,广泛应用于医疗设备、汽车、工业控制、智能家居等领域。嵌入式图像处理作为其中的一个关键组成部分,为许多应用提供了视觉感知能力。本文将介绍嵌入式图像处理的算法、应用以及性能优化方法,并提供相关的代码示例。
一键难忘
2023/12/09
6100
加速文档解析与向量化技术:实现多模态大模型训练与应用
本文介绍了当前大型模型文档解析面临的问题,包括版面检测、阅读顺序还原、表格还原和公式识别等技术挑战。针对这些问题,介绍了TextIn文档解析技术和文字向量化技术的应用,以及TextIn平台的产品和服务。
默 语
2024/11/20
2550
加速文档解析与向量化技术:实现多模态大模型训练与应用
看 AI 如何抢救破烂文档
非结构化数据是指没有固定格式和规则的数据,例如文本、图片、视频、音频等。随着信息技术的迅速发展,非结构化数据越来越多,越来越重要,主要原因如下:
不吃西红柿
2023/10/16
2590
看 AI 如何抢救破烂文档
推荐阅读
中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果
4990
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
8890
多模态大模型「卷」向智能文档,只为解放打工人的双手
8160
CIIS 2023丨聚焦文档图像处理前沿领域,合合信息AI助力图像处理与内容安全保障
2890
大模型时代下智能文档处理核心技术大揭秘
6480
合合信息CCIG2022技术分享:文档图像质量增强是OCR进阶的重要研究方向
7720
AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?
2.4K0
PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术
4440
合合信息高评级通过中国信通院智能文档处理系统评估,助力可信AI发展
2960
CSIG企业行-走进合合信息成功举行,聚焦生成式人工智能、智能文档处理前沿热点
4400
合合信息AI图像内容安全新技术亮相WAIC2023,防范“生成式造假”
3410
如何提升智能文档处理识别精度?合合信息“版面分析”实现新突破
1.5K0
亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题
1530
合合信息扫描全能王发布“黑科技”,让AI替人“思考”图像处理问题
4460
AI智能识别如何助力PDF,轻松实现文档处理?
2K0
击败全球上千参赛队伍,合合信息获ICDAR“文本篡改检测”赛道冠军
4670
深度学习助力版面分析技术,图像“还原”有方
9080
嵌入式图像处理:算法、应用与性能优化
6100
加速文档解析与向量化技术:实现多模态大模型训练与应用
2550
看 AI 如何抢救破烂文档
2590
相关推荐
中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果
更多 >
LV.1
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档