首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

最新图文识别技术综述

作者参考了 77 篇较有影响力和最新的论文,详尽地综述了图像文本检测与识别的系统、算法、数据、性能比较,相信对从事相关研究开发的朋友有帮助。....niu@changhong.com 文章较长,有删节,建议收藏再阅读 图文识别技术综述 牛小明 (1....不少人将OCR技术定义为广义的所有图像文字检测和识别技术 (简称图文识别技术), 即包括传统的OCR识别技术,又包括自然场景文字识别技术。...图文识别技术涉及计算机视觉处理和自然语言处理两个领域的技术[2];它既需要借用图像处理方法来提取图像文字区域的位置、并将局部区域图像块识别成文字,同时又需要借助自然语言处理技术将识别出的文字进行结构化的输出...1 图文识别预处理技术及流程 1.1 图文识别预处理技术 图文识别预处理技术包含图像分割技术、图像旋转校正技术、线检测技术、图像匹配技术、文字轮廓提取及局部分割技术等。

2.6K30

最新综述文章

本期橙子邀请到淘系技术部算法同学分别就「NLP领域」、「图神经网络」、「推荐领域」三个技术模块,结合行业技术发展与研究,重新整理历史经典综述文献与最新文献,去其糟粕,取其精华,最终沉淀出2020年值得推荐阅读的综述性文章...Transformer相关研究的最新进展。...佛阅读地址: https://arxiv.org/abs/1703.09902 机器翻译的最新进展可以关注下谷歌AI和谷歌翻译2020的总结 : ?...阅读地址: http://www.statmt.org/wmt20/ 每年国内外知名科研机构和工业界都有团队参加,贡献的技术报告也可以了解到当前实用的提升翻译性能的机器翻译技术。...此外从应用的角度,有一些综述的论文值得一读: ?

84441
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    综述 | 最新视觉-语言预训练综述

    每天给你送来NLP技术干货!...最后,我们讨论了 VLP 的新领域。据我们所知,这是VLP 领域的第一个综述。我们希望这个综述能够为 VLP 领域的未来研究提供启示。...然而,由于相关技术的限制,往往需要在大量的标注数据上进行训练,以获得更好、更有能力的模型。最近出现的基于 Transformer 结构的预训练模型缓解了这个问题。...据我们所知,这是VLP领域的第一篇综述。我们希望我们的综述能够帮助研究人员更好地了解这一领域,并激发他们设计出更好的模型。...我们从特征提取、模型架构、预训练目标、预训练数据集和下游任务五个方面回顾了它的最新进展,并详细总结了具体的 SOTA VLP 模型。

    1.3K40

    「图隐私攻击与防御技术」最新2022研究综述

    来源:专知本文约7000字,建议阅读14分钟人大最新关于图数据隐私攻击与防御技术综述论文。 摘要 如今,图数据已经被广泛地应用于现实生活与科学研究当中,有巨大的使用和研究价值....传统的k-匿名技术、 l-多样性技术、t-接近技术等虽然可以直接应用于图数据发布时,结点上语义信息的保护,但是无法同时保护结点间特殊的链接关系,以及结点所在的特殊子 图结构等隐私信息。...4. 1 隐私防御技术  目前,针对图数据发布与收集的隐私防御技术主要可以分为简单匿名技术、图修改技术、聚类技术 以及差分隐私技术四类。下面将依次介绍上述隐私 防御技术及其实现机制.。...目前,还没有相关工作将隐私放大相关的理论与技术应用于图隐私保护相关的应用场景下,该技术的应用可能给未来图上隐私保护技术的发展带来新的突破。...与此同时,图数据中也存在极高的隐私风险。而图数据上丰富的信息,数据之间关联性强,给图数据上的隐私保护带来了巨大的挑战。本文分析了图的发布与收集中的隐私风险,综述了目前针对图数据 隐私攻防的各类方案。

    82210

    扩散模型最新综述!

    1 介绍 本文综述了深度生成模型,特别是扩散模型(Diffusion model),如何赋予机器类似人类的想象力。...为了提供一个系统性的概述,我们将这些进展分为四个主要领域:采样加速、扩散过程设计、似然优化和连接分布。此外,本综述将全面考察扩散模型在不同领域中的各种应用,包括计算机视觉、自然语言处理、医疗保健等。...本文介绍了四种增强扩散模型的最新发展:(1)采样加速技术,用于加快标准的ODE/SDE模拟;(2)新的前向过程,用于改进像素空间中的布朗运动;(3)似然优化技术,用于增强扩散ODE似然;(4)桥梁分布技术...这些技术有助于提高扩散模型的性能和效率。 3.1 采样加速 尽管扩散模型具有高保真度生成的能力,但其实际应用仍受制于其较慢的采样速度。...本部分简要概述了四种提高采样速度的先进技术:蒸馏、训练计划优化、免训练加速以及合并扩散和其他生成模型。

    1.2K10

    图对比学习的最新综述

    受这些成功的对比学习模型的启发,近年来大量研究者尝试将其拓展到图数据上,这为推动图对比学习的发展提供 了坚实的基础。...该领域现有的综述主要关注于传统的图自监督学习任务,而缺少对图对比学习方法的梳理和归 纳。...为了更好地帮助该领域的发展,已有研究者梳 理了近些年来关于图自监督学习的相关工作,并且 形成综述[5,7,9-10]。...但这些综述主要关注传统的图上 自监督任务,并没有针对图对比学习的方法进行详 细的梳理和分类。本文主要关注图对比学习模型, 收集整理了近些年图对比学习的工作。...但在实际的场景中,图的规模 往往非常的巨大。因此大量的负样本需要巨大的内 存和计算代价。

    1.6K10

    「实时视频流分析的边缘计算技术」最新2022研究综述

    清华大学最新《面向实时视频流分析的边缘计算技术》综述 实时视频流分析在智能监控、智慧城市、自动驾驶等场景中具有重要价值....此后, 许多针对实时视 频分析的边缘计算系统和研究开始涌现, 并且逐渐被部署到真实世界的各种应用中. 目前已经存在许 多针对实时视频流分析的边缘计算研究工作, 但仍然缺乏系统性的综述工作....因此, 本文希望对基于边 缘计算的实时视频流分析领域的最新进展和未来方向进行讨论....涉及任务的卸载方式 和设备间的协作机制, 在复杂网络条件下综合考虑分析准确度、延迟和能耗, 确保整个视频分析系统 的端到端表现. • 边缘/云层次: 应用于算力较强边缘和云服务器的技术....结论 实时视频流分析是边缘计算最成功的应用场景; 边缘计算范式也是实时视频分析能成功部署的重 要支撑. 本文对近年来针对实时视频流分析的边缘计算系统进行了归纳和综述.

    1.7K40

    同济大学发布最新检索增强(RAG)的LLM生成技术综述

    此外,论文还讨论了如何评估RAG模型的有效性,介绍了两种评估RAG的方法,强调了评估的关键指标和能力,并提出了最新的自动评估框架。...保持信息的时效性和准确性:与传统只依赖训练数据的语言模型相比,RAG可以识别最新信息,保持响应的时效性和准确性。 透明度:RAG通过引用来源提高答案的透明度,增加用户对模型输出的信任。...结果的可信度:RAG从最新数据中选择确定性结果,而微调模型在处理动态数据时可能出现幻觉和不准确性,缺乏透明度和可信度。...此外,最新的评估框架,如RAGAS[Es et al., 2023]和ARES[Saad-Falcon et al., 2023],也涉及RAG评估指标。...技术栈的发展与RAG相互增强。新技术对现有技术栈提出了更高的要求,而技术栈功能的优化进一步促进了RAG技术的发展。

    16.8K46

    【综述专栏】最新视觉-语言预训练综述

    当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。...为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。...最后,我们讨论了 VLP 的新领域。据我们所知,这是VLP 领域的第一个综述。我们希望这个综述能够为 VLP 领域的未来研究提供启示。...然而,由于相关技术的限制,往往需要在大量的标注数据上进行训练,以获得更好、更有能力的模型。最近出现的基于 Transformer 结构的预训练模型缓解了这个问题。...据我们所知,这是VLP领域的第一篇综述。我们希望我们的综述能够帮助研究人员更好地了解这一领域,并激发他们设计出更好的模型。

    58811

    小样本学习最新综述

    来自港科大和第四范式的这篇综述论文提供了解答。 数据是机器学习领域的重要资源,在数据缺少的情况下如何训练模型呢?小样本学习是其中一个解决方案。...来自香港科技大学和第四范式的研究人员综述了该领域的研究发展,并提出了未来的研究方向。...这篇综述论文已被 ACM Computing Surveys 接收,作者还建立了 GitHub repo,用于更新该领域的发展。...最后,这篇文章提出了 FSL 的未来研究方向:FSL 问题设置、技术、应用和理论。 论文概览 该综述论文所覆盖的主题见下图: ? 我们选取介绍了该综述论文中的部分内容,详情参见原论文。...算法 根据先验知识对搜索策略的影响,此类方法可分为三个类别: ? 文章最后从问题设置、技术、应用和理论四个层面探讨了小样本学习领域的未来发展方向。 END

    1.3K32

    时间序列损失函数的最新综述!

    过去时间序列预测方法以线性方法为主,然而在许多最新的应用中已经尝试使用机器学习、深度学习、高斯过程和人工神经网络等技术来进行时间序列预测。...问题背景 回归是一种常见的预测建模技术,用于估计两个或多个变量之间的关系。它是一种监督学习技术,可以定义为用于对相关实数变量之间的关系建模的统计技术和自变量。...每个机器学习模型的基本目标都是改进模型的选定指标并减少与之相关的损失。用于时间序列预测的机器学习或深度学习模型的一个重要组成部分是损失函数,模型的性能是根据损失函数来衡量的,促使了模型参数的更新。...添加对数减少了 MSLE 对实际值和预测值之间的百分比差异以及两者之间的相对差异的关注。MSLE 将粗略地处理小的实际值和预期值之间的微小差异以及大的真实值和预测值之间的巨大差异。...它的功能类似于 MSE,但不受重大预测误差的影响。鉴于它使用线性和二次评分技术,它非常接近 Huber 损失。

    82240

    最新最全 | 视觉 Transformer 综述

    中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务(分类、检测和分割)的一百多种不同的视觉 Transformer,最新模型截止至今年8月!...从上图右图所示,在过去的一年中,针对不同的领域提出了数百种基于 Transformer 的视觉模型。 这篇综述和以往综述有什么区别? 图2....最近对 Transformer 的综述是 Lin 等人介绍的,提供了对 Transformer 各种变体的系统综述,并粗略地提到了它在视觉上的应用。...)的最新改进。...然而,该技术太不成熟,无法颠覆卷积在 CV 领域的主导地位。基于 7.2 中的分析,作者指出了视觉 Transformer 的一些有前途的未来方向,以进一步进行整体串联。

    1K11

    vSLAM技术综述

    图 10 DSO效果示意图[14] 基于深度学习的SLAM 传统的视觉SLAM在环境的适应性方面依然存在瓶颈,深度学习有望在这方面发挥较大的作用。...该文的主要贡献包括以下几点: 1.通过空间和时间几何约束,用无监督的方式恢复了单目视觉里程计的绝对尺度; 2.利用训练过程中的双目图像对,不仅估计了姿态还估计了稠密的带有绝对尺度的深度图; 3.在KITTI...当前的 SLAM 算法在复杂的机器人运动和环境中很容易失效 (例如:机器人的快速运动, 高度动态性的环境),通常不能面对严格的性能要求,例如,用于快速闭环控制的高速率估计。...北京: 电子工业出版社, 2017. [6] 赵洋等. ” 基于深度学习的视觉 SLAM 综述.”...基于视觉的即时定位与地图重建(V-SLAM)综述[J]. 中国战略新兴产业, 2017(4). [17] Tateno K, Tombari F, Laina I, et al.

    1.3K20

    vSLAM技术综述

    图 10 DSO效果示意图[14] 基于深度学习的SLAM 传统的视觉SLAM在环境的适应性方面依然存在瓶颈,深度学习有望在这方面发挥较大的作用。...该文的主要贡献包括以下几点: 1.通过空间和时间几何约束,用无监督的方式恢复了单目视觉里程计的绝对尺度; 2.利用训练过程中的双目图像对,不仅估计了姿态还估计了稠密的带有绝对尺度的深度图; 3.在KITTI...当前的 SLAM 算法在复杂的机器人运动和环境中很容易失效 (例如:机器人的快速运动, 高度动态性的环境),通常不能面对严格的性能要求,例如,用于快速闭环控制的高速率估计。...北京: 电子工业出版社, 2017. [6] 赵洋等. ” 基于深度学习的视觉 SLAM 综述.”...基于视觉的即时定位与地图重建(V-SLAM)综述[J]. 中国战略新兴产业, 2017(4). [17] Tateno K, Tombari F, Laina I, et al.

    3.6K30

    OCR技术综述

    最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解。 什么是OCR?...它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。...其实我们自己也能感受到,OCR技术确实也在改变着我们的生活:比如一个手机APP就能帮忙扫描名片、身份证,并识别出里面的信息;汽车进入停车场、收费站都不需要人工登记了,都是用车牌识别技术;我们看书时看到不懂的题...那现在对这流程中最为重要的字符识别技术做一个总结。 识别方法 现在我们只想单纯地想对字符进行识别,那方法会有哪些呢?...最近我也在百度开放平台上调用OCR的API做一些识别的工作,说实话,在汉字的识别上,我们中国公司的技术还是顶尖的,在汉字识别的准确率上已经让人很满意了。

    14.1K92

    RAG 技术综述

    RAG 和微调并不是对立的,它们可以互相补充,在一起使用时可能会带来最好的效果。 编码器微调 关于编码器微调方法,持保留态度,因为最新的为搜索优化的 Transformer 编码器已经相当高效。...技术上,它将信息检索与微调、强化学习等技术相结合。从流程上看,RAG 的各个模块被精心设计和调配,形成了多种RAG模式。 但模块化 RAG 并非一蹴而就;它是在前两个范式基础上逐步演化而来的。...发展前景 我们可以预见大模型和RAG技术将会共同进步,并可能融合发展。大模型可能会内置更加高效的检索机制,而RAG技术也会不断优化,使得检索过程更加精准、生成过程更加自然。...在某些特定领域,大模型可能会逐渐减少对外部检索的依赖;但在需要处理最新信息或特定领域知识的任务中,RAG仍将是不可或缺的。...目前,包括推荐系统、信息提取和报告生成在内的多种任务已经开始受益于 RAG 技术的应用。 同时,RAG 技术栈也在迅速壮大。

    1.6K11

    综述 | 知识图谱技术综述(下)

    题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术是人工智能技术的重要组成部分,其建立的具有语义处理能力与开放互联能力的知识库,可在智能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值...该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的知识抽取、知识表示、知识融合、知识推理四大核心技术的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。...5.知识图谱的挑战 知识图谱技术是对语义网标准与技术的一次扬弃与升华。...知识图谱构建技术综述[J]. 计 算机研究与发展, 2016, 53(3): 582-600. LIU Qiao, LI yang, YANG Duan-hong, et al....命名实体识别研究进展综述[J]. 现代图 书情报技术, 2010(6): 42-47. SUN Zhen, WANG Hui-lin.

    1.2K41

    【技术综述】人脸颜值研究综述

    今天带来一篇人脸识别中的颜值打分技术,所谓“颜值”,基于什么标准来评判高低呢?既然是个“数值”,那到底能不能“测量”一下?...01概述 近年来随着人脸识别技术的发展,颜值打分也受到了广泛的关注与研究。可即使人来打分,大家也口味各异,御姐萝莉各有所爱。计算机又岂能判断人的美丑呢?...3.2 表观特征提取 表观特征表征的是人脸的整体外貌和人脸的皮肤状况等信息。可以反映出如纹理信息、人脸皮肤的状态、颜色深浅面部信息等。表观特征选择比较成熟的LBP特征。...04深度学习方法研究思路 基于深度学习的方法,由于已经没有了手设特征的一步,所以就只剩下优化目标的选择和网络的选择。更强大的网络,通常都有更好的性能,我们看看文【2】训练的结果。 ?...实验结果表明符合我们的预测,网络最强大的ResNext-50取得最优性能,同时,所有的网络都优于最好的传统方法。基于深度学习的方法没有太多可以说的地方,怼数据就是正确答案。

    1.5K32

    综述 | 知识图谱技术综述(上)

    来自:程序媛驿站 题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术是人工智能技术的重要组成部分,其建立的具有语义处理能力与开放互联能力的知识库,可在智能搜索、智能问答...该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的知识抽取、知识表示、知识融合、知识推理四大核心技术的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。...随后掀起了一场语义网研究的热潮,知识图谱技术的出现正是基于以上相关研究,是对语义网标准与技术的一次扬弃与升华。...,详细阐述知识获取、知识表示、知识融合、知识推理技术中的相关研究以及若干技术细节; 第四部分将介绍知识图谱在智能搜索、深度问答、社交网络以及垂直行业中的典型应用; 第五部分将介绍知识图谱所面临的一些困难与挑战...ConceptNet 5[27]是基于ConceptNet的一个开源项目,主要通过GPLv3协议进行开源。 3.知识图谱的关键技术 大规模知识库的构建与应用需要多种智能信息处理技术的支持。

    2.7K21
    领券