Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >IEEE TIP 2022 | 基于食材区域发现及区域间关系建模的食品图像识别和食材预测

IEEE TIP 2022 | 基于食材区域发现及区域间关系建模的食品图像识别和食材预测

作者头像
一点人工一点智能
发布于 2022-12-27 02:27:00
发布于 2022-12-27 02:27:00
1.3K0
举报

00 导语

本期分享我们和美团视觉智能部视觉内容理解组合作发表于IEEE TIP2022的研究工作“Ingredient-Guided Region Discovery and Relationship Modeling for Food Category-Ingredient Prediction” (Wang Zhiling, Min Weiqing, Li Zhuo, Kang Liping, Wei Xiaoming, Wei Xiaolin, Jiang Shuqiang) 。IEEE TIP的全称为IEEE Transactions on Image Processing,是计算机视觉图像处理领域的主流国际期刊,当前影响因子为11.041。

由于食品在人们生活中的基础性地位,来自物联网、社交网、互联网等各种网络产生的海量多媒体食品数据在食品工业和餐饮服务业等诸多领域,及食品营养和疾病健康等社会生活的诸多方面蕴含着广阔应用前景和社会价值,逐渐形成了“食品计算”[1]这一新兴方向。食品图像类别识别及食材预测作为食品计算的基本任务,在营养评估和食品推荐等应用中发挥重要的支撑作用。食品是由复杂多变的食材组成,挖掘食材视觉区域可以更好地帮助我们识别其类别。此外,食材间关系也很重要,如食材间的共现关系和互斥关系等。基于此,我们提出了一种多任务食品联合学习方法同时进行食品类别识别和食材预测。该方法主要由食材视觉区域发现和食材关系学习两部分组成。针对食材视觉区域发现,通过预先构建好的食材字典将2D特征图分组为具体的食材区域,并采用U形先验正则化食材的出现频率,提高食材区域的发现能力。在食材关系学习中,构建了面向食材的语义-视觉图,并通过图卷积网络学习食材间的关系。该方法采用多任务学习优化整个网络,同时进行食品类别识别和食材预测。本方法在三个基准数据集(ETH Food-101、Vireo Food-172和ISIA Food-200)上进行评估,验证了所提方法的有效性。

论文链接:

https://ieeexplore.ieee.org/document/9846887

课题组主页:

http://123.57.42.89/FoodComputing__Home.html

01 引言

食品图像分析作为食品计算[1]的一项基本任务,在营养评估、食品卡路里估计和食品推荐等食品相关应用中发挥至关重要的作用。食品图像分析主要包括食品类别识别和食材预测。食品类别识别属于细粒度识别,需要对图像内容进行视觉分析后获知其对应的食品类别,因此挖掘细微的判别性区域(如食材相关的区域)非常重要。食材预测通常比食品类别识别更有挑战性,因为食材的视觉模式变化多样且经常相互混合。而食材之间复杂的关系进一步加剧了食材预测的挑战。

为了充分利用食品信息,本文主要考虑以下三个因素:1) 一道菜中包含各种食材,这些食材常以不同的比例出现在图像的不同位置。视角、光照条件、烹饪和切割方式等因素也会导致食材的大小、形状和颜色等出现很大的视觉差异。因此,发现并提取多样化的食材区域十分关键。2)同一食品类别中食材组成及其关系十分复杂,大多数食品通常由混合在一起的各种食材组成,而不是完全分开。此外某些特定组合的食材总是频繁地同时出现,而某些食材对是互相排斥的。因此如何有效建模食材间的关联关系也是提升食材预测性能的重要因素。3)多任务学习[2-5]可以帮助挖掘食品类别和食材之间的相互关系,同时改进这两个任务的性能。例如食材预测可以帮助获取食品类别的食材构成,进一步提升食品类别识别的性能;反过来,食品类别识别可以引导网络预测类别对应的食材组成,找到类别-食材间映射关系,提高食材预测的准确率。

针对上述问题,本文提出了一种面向食材的多任务食品联合学习方法,同时进行食品类别识别和食材预测。该方法主要由食材视觉区域提取和食材关系建模学习构成。食材视觉区域提取通过构建一个食材字典来捕获食品图像中的多样化食材区域并获得相应的食材分配图,进而用于发现并提取相应的食材特征;对于食材关系建模,利用食材视觉表征作为节点,食材词嵌入间的语义相似度作为边,构建面向食材的语义-视觉图,并通过图卷积网络对食材间的关系进行建模和学习。为了验证方法的有效性,本文在三个基准数据集(ETH Food-101[6]、 Vireo Food-172[7]和 ISIA Food-200[8])上进行了大量实验,并进一步通过食材分配图和食材注意力图的可视化展示了所提方法的优越性。

02 方法介绍

本文所提出的多任务食品联合学习框架如图1所示,主要由两部分组成:食材视觉区域提取(Ingredient-oriented Visual Region Discovery,IVRD)和食材图关系建模学习(Ingredient-oriented Graph Relationship Learning,IGRL)。

图1 多任务食品类别-食材联合学习框架

2.1 食材视觉区域提取

对于每个食品类别,本文设计一个食材字典 ,其中每个向量 表示相应食品类别的食材概念, 是该类别的食材总数。根据对食材的统计数据构建 并对其随机初始化,将最后一个卷积层的特征图 联合食材字典 一起学习具体的食材区域特征,其中分别是特征图的通道数、高度和宽度。具体为通过比较特征图 和食材字典 以生成食材分配图 。其中 的计算公式如下:

其中 表示 的可学习因子。

在此过程中,对每种食材采用U形分布作为先验来控制食材出现的概率, 提高食材区域的发现能力。具体为,在获得食材分配图 之后,利用高斯核和最大池化操作作为食材检测器 检测每个食材的出现概率,其中 是高斯核,*表示卷积操作, 。将此食材检测器应用在每个食材分配图 上以确定每种食材的出现概率,并将 个食材检测器的所有输出融合成一个向量 。假设 表示食材 在 中出现的条件概率,通过将所有向量 融合成一个矩阵 ,计算该经验分布 。同时,假设已知的概率分布 ,即U形分布,然后使用Earth Mover Distance[9]将与对齐:

其中 是经验分布和先验分布的累积分布函数, 。

基于食材分配图 和食材字典 对食材特征图进行池化以进一步获得食材区域特征,并利用 来反向更新食材字典 中的向量值。最后,通过区域注意力对食材区域特征重新加权,得到最终的食材区域特征 。

2.2 食材关系建模学习

挖掘不同食材之间的关系有助于提高食品类别识别和食材预测的性能,因此本文提出构建一个面向食材的语义-视觉图,学习食材间的相互关系,其中食材图的节点表示不同食材的视觉表征,食材图的边表示食材词之间的语义关系。

对于食材图中的视觉节点,使用所有食材对应的视觉表征。具体来说,本文使用食材分类器中全连接层的权重与最后一个特征图 相乘,并将每个食材乘积后得到的视觉表征进行池化,得到每个食材的视觉嵌入,作为食材图中的节点:

其中 是特征图 中位置 对应值, 是第 个食材在全连接层中的权重。

对于食材图中的语义边,本文对每个食材词使用Word2vec[10]获得对应的语义嵌入 v,然后计算两个食材语义嵌入之间的余弦相似度:

其中 表示两个食材语义嵌入之间的余弦相似度。利用这些相似度构建图的邻接矩阵,并进一步将其作为食材图的边。

将食材图输入到图卷积网络(Graph Convolutional Network,GCN)中学习食材之间的关系。最后, 从图卷积网络获得输出 ,并使用全局平均池化 获得最终输出特征:

在食材图学习过程中,同时考虑了视觉和语义嵌入,并利用GCN使食材语义嵌入和视觉嵌入相互交互,以学习更全面的表征。

2.3 多任务学习

在获得食材特征 和 后,将二者融合在一起并将它们输入两个分类器。对于食品类别识别,使用交叉熵损失函数:

对于食材预测,使用二元交叉熵函数:

总损失函数如下:

其中 是平衡因子。

2.4 模型推理

本文提出的模型为每个食品类别学习不同的食材字典 ,并在经过端到端训练后获得相应决策函数 ,其中 使用特征图 和对应的食材字典 来预测食品类别及其食材成分, 为参数。在推理过程中,模型利用所学到的字典对测试图像的特征图进行分配并获得对应食材区域特征,然后使用注意力向量重新加权这些特征。同时,模型使用食材分类器中全连接层的训练权重乘以来自最后一个卷积层的特征图获得视觉嵌入作为节点,使用食材词的语义相似度作为边构建食材图,并将其送入图卷积网络。最后,模型将两个分支的输出特征融合并输入两个分类器,分别得到食品类别识别和食材预测的结果。

03 实验

3.1 实验数据

本文所采用的三个基准数据集是ETH Food-101[6]、Vireo Food-172[7]和ISIA Food-200[8]。它们均包含食品类别和食材标注。ETH Food-101是一个经典的西餐数据集,包含来自101类的101,000 张图像;Vireo Food-172 是一个中餐食品数据集,包含来自172类的110,241张食品图像,食材总数为353。ISIA Food-200是一个混合的食品数据集,包含197,323张图像,共计200个食品类别和399种食材。

3.2 实验设置

本文使用在 ImageNet 上预训练的 ResNet-101 作为基础网络。对于实验性能评估,使用Top-1准确率(Top-1)和Top-5准确率(Top-5)对单标签食品类别识别进行评估。食材预测使用 Micro-F1 和 Macro-F1 作为评估指标,该指标可以同时考虑食材预测的准确率和召回率。

3.3 实验结果与分析

3.3.1 消融实验

表1 食品类别识别消融实验(%)

表2 食材预测消融实验(%)

本文在消融实验中,对于三个数据集首先验证了多任务学习框架的性能,然后对食品类别识别和食材预测进行了单个任务消融研究,实验结果如表1和表2所示。其中,本文将基础网络用于食品类别识别(Food Category Recognition,FCR)和食材预测(Ingredient Prediction,IP),然后以联合学习方式(Joint Learning,JL)进行相同的实验。从表中可以看出,JL的性能超过了单个任务,意味着这两个任务共同学习,相互促进;当将食材区域分配策略(Ingredient Region Assignment,IRA)引入到网络中,Top-1准确率和Macro-F1值均有所提高;当引入食材注意力机制(Ingredient Attention,IA)来增强区域特征时,实验性能获得进一步提升;当将食材关系学习(Ingredient-oriented Graph Relationship Learning,IGRL)引入到网络中后,两个任务的性能均进一步提高,意味着食材关系挖掘的重要性。

3.3.2 ETH Food-101 实验结果分析

本文进一步在食品类别识别和食材预测两个任务上分别与当前主流方法进行了性能比较,实验结果如表3和表4所示。对于食品类别识别,本文的方法超越了其他所有方法,相较于MSMVFA[11]有1.77%的性能提升,表明探索不同食材的组合方式和建模其关系的优越性。本文的方法比忽略了区域间关系建模的PAR-Net[12]高出3.06%,证明使用 GCN 建模食材关系带来了较高的性能提升。

对于食材预测,本文的方法优于其他所有方法,F1指标超过SENet154[13]近10%,超过 DSDL[14]接近3%,表明发现特定的食材区域可以帮助识别相应的食材类型。

表3 在 ETH Food-101 上的食品类别识别性能比较(%)

表4 在 ETH Food-101 上的食材预测性能比较(%)

3.4 实验定性结果与可视化分析

图2 方法中获取的部分样本的食材分配图和注意力图

图3 食材分配图中对应的具体食材区域

本文进一步在图2和图3中对食材分配图和食材注意力图进行可视化。图2可视化了本文方法中的食材分配图和食材注意力图。以类别“Bread pudding”为例,本方法可以将面包和鸡蛋等一些食材进行定位,并在注意力图中发现了最具辨别力的区域。图3显示了本文方法对应的详细食材区域。定性实验结果表明,本文的方法能够发现有意义的食材区域,并能够提取关键性区域进行识别。

图4 一些测试样本的实验结果

图4展示了一些测试样本的实验结果。真阳性、假阳性和假阴性预测食材分别被赋予绿色、红色和橙色, GT 表示对应的真实标签。结果显示图中的食材预测结果并不总是正确的,其可能的原因是混合食材区域没有明确划分以及食材空间结构的变化等。此外,本文所提的方法在部分情况下也可能无法正确识别食品类别。例如对于“Greek salad”和“Caesar salad”,模型对“Greek salad”做出了错误的预测,可能的原因是这两种食品的视觉模式非常相似,并且它们有较多共同食材,如生菜和大蒜等。

参考文献

[1] W. Min, S. Jiang, L. Liu, Y. Rui, and R. Jain, “A survey on food computing,” ACM Computing Surveys, vol. 52, no. 5, pp. 1–36, 2019.

[2] J. Chen and C. Ngo, “Deep-based ingredient recognition for cooking recipe retrieval,” in Proceedings of the ACM on Multimedia Conference, 2016, pp. 32–41.

[3] X.-J. Zhang, Y.-F. Lu, and S.-H. Zhang, “Multi-task learning for food identification and analysis with deep convolutional neural networks,” Journal of Computer Science and Technology, vol. 31, no. 3, pp. 489–500, 2016.

[4] C. Liu, Y. Liang, Y. Xue, X. Qian, and J. Fu, “Food and ingredient joint learning for fine-grained recognition,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 31, no. 6, pp. 2480–2493, 2021.

[5] Q. Thames, A. Karpur, W. Norris, F. Xia, L. Panait, T. Weyand, and J. Sim, “Nutrition5k: Towards automatic nutritional understanding of generic food,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2021, pp. 8903–8911.

[6] L. Bossard, M. Guillaumin, and L. Van Gool, “Food-101–mining discriminative components with random forests,” in Proceedings of the European Conference on Computer Vision, 2014, pp. 446–461.

[7] J. Chen and C. Ngo, “Deep-based ingredient recognition for cooking recipe retrieval,” in Proceedings of the ACM on Multimedia Conference, 2016, pp. 32–41.

[8] W. Min, L. Liu, Z. Luo, and S. Jiang, “Ingredient-guided cascaded multiattention network for food recognition,” in Proceedings of the ACM International Conference on Multimedia, 2019, pp. 1331–1339.

[9] A. Andoni, P. Indyk, and R. Krauthgamer, “Earth mover distance over high-dimensional spaces.” in SODA, vol. 8, 2008, pp. 343–352.

[10] Q. Le and T. Mikolov, “Distributed representations of sentences and documents,” in Proceedings of the International Conference on Machine Learning, 2014, pp. 1188–1196.

[11] S. Jiang, W. Min, L. Liu, and Z. Luo, “Multi-scale multi-view deep feature aggregation for food recognition,” IEEE Transactions on Image Processing, vol. 29, no. 1, pp. 265–276, 2020.

[12] J. Qiu, F. P. W. Lo, Y. Sun, S. Wang, and B. Lo, “Mining discriminative food regions for accurate food recognition,” in Proceedings of the British Machine Vision Conference, 2019.

[13] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018, pp. 7132–7141.

[14] F. Zhou, S. Huang, and Y. Xing, “Deep semantic dictionary learning for multi-label image classification,” in Proceedings of the AAAI Conference on Artificial Intelligence, 2020.

[15] E. Ben-Baruch, T. Ridnik, N. Zamir, A. Noy, I. Friedman, M. Protter, and L. Zelnik-Manor, “Asymmetric loss for multi-label classification,” arXiv preprint arXiv:2009.14119, 2020.

[16] K. Yanai and Y. Kawano, “Food image recognition using deep convolutional network with pre-training and fine-tuning,” in Proceedings of the IEEE International Conference on Multimedia and Expo Workshops, 2015, pp. 1–6.

[17] N. Martinel, C. Piciarelli, and C. Micheloni, “A supervised extreme learning committee for food recognition,” in Computer Vision and Image Understanding, vol. 148, 2016, pp. 67–86.

[18] P. McAllister, H. Zheng, R. Bond, and A. Moorhead, “Combining deep residual neural network features with supervised machine learning algorithms to classify diverse food image datasets,” in Computers in Biology and Medicine, vol. 95, 2018, pp. 217–233.

[19] C. Liu, Y. Cao, Y. Luo, G. Chen, V. Vokkarane, and Y. Ma, “Deepfood: Deep learning-based food image recognition for computer-aided dietary assessment,” in Proceedings of the International Conference on Smart Homes and Health Telematics, 2016, pp. 37–48.

[20] H. Wu, M. Merler, R. Uceda-Sosa, and J. R. Smith, “Learning to make better mistakes: Semantics-aware visual food recognition,” in Proceedings of the ACM Multimedia Conference, 2016, pp. 172–176.

[21] P. Pandey, A. Deepthi, B. Mandal, and N. B. Puhan, “FoodNet: Recognizing foods using ensemble of deep networks,” in IEEE Signal Processing Letters, vol. 24, no. 12, 2017, pp. 1758–1762.

[22] S. Ao and C. X. Ling, “Adapting new categories for food recognition with deep representation,” in Proceedings of the IEEE International Conference on Data Mining Workshop, 2015, pp. 1196–1203.

[23] M. Bolanos and P. Radeva, “Simultaneous food localization and recognition,” in Proceedings of the International Conference on Pattern Recognition, 2017, pp. 3140–3145.

[24] P. R. L´opez, D. V. Dorta, G. C. Preixens, J. M. Gonfaus, and J. G. Sabat´e, “Pay attention to the activations: a modular attention mechanism for fine-grained image recognition,” in IEEE Transactions on Multimedia, vol. 22, no. 2, 2020, pp. 502–514.

[25] E. Aguilar, M. Bola˜nos, and P. Radeva, “Food recognition using fusion of classifiers based on cnns,” in Proceedings of the International Conference on Image Analysis and Processing, 2017, pp. 213–224.

[26] H. Hassannejad, G. Matrella, P. Ciampolini, I. D. Munari, M. Mordonini, and S. Cagnoni, “Food image recognition using very deep convolutional networks,” in Proceedings of the International Workshop on Multimedia Assisted Dietary Management, 2016, pp. 41–49.

[27] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018, pp. 7132–7141.

[28] S. Kornblith, J. Shlens, and Q. Le, “Do better ImageNet models transfer better?” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2019, pp. 2661–2671.

[29] F. Yu, D. Wang, E. Shelhamer, and T. Darrell, “Deep layer aggregation,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018, pp. 2403–2412.

[30] N. Martinel, G. L. Foresti, and C. Micheloni, “Wide-slice residual networks for food recognition,” in IEEE Winter Conference on Applications of Computer Vision, 2018, pp. 567–576.

[31] Q. Le and T. Mikolov, “Distributed representations of sentences and documents,” in Proceedings of the International Conference on Machine Learning, 2014, pp. 1188–1196.

[32] C. Yin, S. Yang, S. Chen, H. Andrew, and B. Serge, “Large scale fine-grained categorization and domain-specific transfer learning,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018, pp. 4109–4118.

[33] W. Min, L. Liu, Z. Wang, Z. Luo, X. Wei, X. Wei, and S. Jiang, “ISIA food-500: A dataset for large-scale food recognition via stacked globallocal attention network,” in Proceedings of the 28th ACM International Conference on Multimedia, 2020, pp. 393–401.

[34] D. Han, S. Yun, B. Heo, and Y. Yoo, “Rethinking channel dimensions for efficient model design,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2021, pp. 732–741.

[35] M. Bola˜nos, A. Ferr`a, and P. Radeva, “Food ingredients recognition through multi-label learning,” in Proceedings of the International Conference on Image Analysis and Processing. Springer, 2017, pp. 394–402

[36] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016, pp. 770–778.

[37] Z.-M. Chen, X.-S. Wei, P. Wang, and Y. Guo, “Multi-Label Image Recognition with Graph Convolutional Networks,” in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2019.

[38] X.-S. Vu, D.-T. Le, C. Edlund, L. Jiang, and H. D. Nguyen, “Privacypreserving visual content tagging using graph transformer networks,” in Proceedings of the ACM International Conference on Multimedia, 2020.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大规模食品图像识别:T-PAMI 2023论文解读
美团基础研发平台视觉智能部与中科院计算所展开科研课题合作,共同构建大规模数据集Food2K,并提出渐进式区域增强网络用于食品图像识别,相关研究成果已发表于T-PAMI 2023。
美团技术团队
2023/02/28
1.1K0
大规模食品图像识别:T-PAMI 2023论文解读
基于多模态信息抽取的菜品知识图谱构建
菜品作为到店餐饮各相关业务的基石,提供了更细粒度的视角理解餐饮供给,为到餐精细化运营提供了抓手。
美团技术团队
2024/05/22
6160
基于多模态信息抽取的菜品知识图谱构建
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文对最近被 TPAMI 接收的一篇综述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同数据模态的人类动作识别综述)进行解读。 原综述文章地址:https:arxiv.org/pdf/2012.11866.pdf 1 概述 人类动作识别(Human Action Recognition, HAR)旨在理解人类的行为,并为每个行为分配一个标签。多
OpenCV学堂
2022/09/19
1.6K0
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
三维点云分割综述(中)
在上篇文章中,我们介绍了关于点云的获取方式上的区别,点云的密度,以及各种场景下应用的区别,本篇文章将更加具体的介绍点云分割相关技术。
点云PCL博主
2020/08/10
3.5K0
三维点云分割综述(中)
从安全视角对机器学习的部分思考
近几年,机器学习的大规模应用,以及算法的大幅度提升,吸引了学术界、工业界以及国防部门的大量关注。然而,对于机器学习算法本身的局限性,由于其快速的发展也不断的暴露了出来。因此,不论是人工智能领域的学者,还是安全领域的学者,都希望能够从不同的角度提高模型的泛化能力,自此之后,就拉开了一场在机器学习领域的军备竞赛。在不断的“攻”与“防”的竞争下,目前的针对机器学习模型的安全问题,也取得了不错的进展。所以,在本文中,首先对机器学习模型中可能出现安全隐患的部分进行了总览。然后针对不同的场景,进行了不同场景可能出现安全隐患的描述。最后,针对不同阶段的脆弱点,综述了当前的工作情况,并以此延伸出之后的工作可行的研究点。
SIGAI学习与实践平台
2019/01/23
9240
从安全视角对机器学习的部分思考
一种快速准确的人脸检测、识别和验证系统
即将迎来了2019世界人工智能大会,相信这个会议又一次推动人工智能的发展,有兴趣的同学可以去参加感受一下人工智能的热度,绝不会低于这个夏天的高温。
计算机视觉研究院
2019/08/26
1.2K0
一种快速准确的人脸检测、识别和验证系统
【学习】Deep Learning for Deepfakes Creation and Detection[通俗易懂]
论文题目:Deep Learning for Deepfakes Creation and Detection 翻译:基于深度学习的Deepfake创建与检测
全栈程序员站长
2022/08/24
1.3K0
【学习】Deep Learning for Deepfakes Creation and Detection[通俗易懂]
[ECCV 2022] Levenshtein OCR(已开源)
本文简要介绍ECCV 2022录用论文“Levenshtein OCR”的主要工作,该论文提出一个新的场景文本识别模型LevOCR。相比于过去的方法,LevOCR主要有两个创新点,分别为利用Vision-Language Transformer作为backbone来更好地聚合视觉特征和文本特征,和利用了Levenshtein Transformer的解码策略,从而可以同时实现并行解码和动态长度变化,并且具有更好的可解释性。LevOCR在场景文本识别的标准benchmark上实现了SOTA效果。本文的代码将会开源。
AI算法与图像处理
2022/12/11
1.6K0
[ECCV 2022] Levenshtein OCR(已开源)
全面支持激光雷达语义分割!MMDetection3D 新特性抢先看
上周 MMDetection3D v1.1.1 正式发布!在新版本 1.1 中我们相继支持了 3 个 LiDAR Segmentation 方法与 2 个最新的数据增强方法。本次更新,基于上一版本支持的方法,我们在 SemanticKITTI 数据集上构建了一个全面的 LiDAR Semantic Segmentation Benchmark,为社区提供强力的 Baseline 并分享相关经验供大家进一步深入研究!
OpenMMLab 官方账号
2023/08/21
1.2K0
全面支持激光雷达语义分割!MMDetection3D 新特性抢先看
干货 | 视频显著性目标检测(文末附有完整源码)
显著性检测近年来引起了广泛的研究兴趣。这种日益流行的原因在于在各种视觉任务(如图像分割、目标检测、视频摘要和压缩等)中有效地使用了这些模型。显著性模型大致可分为两类:人眼注视预测和显著目标检测。根据输入类型,可进一步分为静态显著性模型和动态显著性模型。
计算机视觉研究院
2019/05/13
4.4K0
干货 | 视频显著性目标检测(文末附有完整源码)
[译] Every Filter Extracts A Specific Texture In Convolutional Neural Networks
题目:卷积神经网络中的每一个过滤器提取一个特定的特征 文章地址:《Every Filter Extracts A Specific Texture In Convolutional Neural
zhwhong
2018/05/16
8080
ICDAR 2019表格识别论文与竞赛综述(下)
在表格识别领域,数据集规模一直是一个有待解决的问题。此前在表格识别或版面分析领域中,规模较大的数据集包括Marmot和ICDAR2017 POD竞赛数据集,也仅仅包含数千张文档页面图像而已,这对于数据驱动的深度学习方法来说是不够的,导致训练出的模型并没有有足够说服力的泛化能力和鲁棒性。所以在最近的工作中,也有不少学者针对表格识别领域发布了一些数据集,此次ICDAR2019会议中也不例外。
AI算法与图像处理
2019/11/29
4.2K0
自动驾驶中车辆的如何使用点云定位?
标题:Review on 3D Lidar Localization for Autonomous Driving Cars
点云PCL博主
2020/08/20
3.2K0
自动驾驶中车辆的如何使用点云定位?
目标检测二十年间的那些事儿——从传统方法到深度学习
本文主要参考自文献[1]:Zhengxia Zou, Zhenwei Shi, Member, IEEE, Yuhong Guo, and Jieping Ye, Object Detection in 20 Years: A Survey Senior Member, IEEE
公众号机器学习与AI生成创作
2020/09/14
1.4K0
目标检测二十年间的那些事儿——从传统方法到深度学习
训练AI要“什么自行车” 只用了1万辆小破车 | ICCV2021 VIPriors
对数据集进行标注会消耗大量的人力和资源,此外,只有少数几家科技巨头拥有数十亿的数据点和数以千计的昂贵的深度学习硬件GPU可供使用。
AI科技评论
2021/11/05
4550
训练AI要“什么自行车”   只用了1万辆小破车 | ICCV2021 VIPriors
图片相似性匹配中的特征提取方法综述
stevenmiao(苗捷),2016年7月博士毕业于华南理工大学,应届毕业加入TEG信息安全部。八年计算机视觉算法经验,博士期间主要研究面向视频的特征提取和内容识别算法。入职以来主要负责部门内基于大规模图像和视频检索、匹配的恶意内容过滤算法。 一、引言 图片相似性匹配,即对比两张图片的相似程度,可以用于图片搜索、聚类、版权保护、恶意图片过滤等应用。本文主要介绍用于图片相似性匹配的特征各类特征提取方法。对于图片的相似性匹配,可根据匹配的形式分为四个层次,分别概括如下: 1.像素级别相似:两张图片每个对应
TEG云端专业号
2018/03/14
5.7K0
图片相似性匹配中的特征提取方法综述
CVPR 2022上人脸识别相关的论文分类整理
人脸识别是AI研究的一个重要的方向,CVPR 2022也有很多相关的论文,本篇文章将针对不同的应用分类进行整理,希望对你有帮助
deephub
2022/11/11
1.2K0
CVPR 2022上人脸识别相关的论文分类整理
AutoML for Mobile Compression and Acceleration on Mobile Devices
第五期飞跃计划还有两个名额,联系小编,获取你的专属算法工程师学习计划(联系小编SIGAI_NO2)
SIGAI学习与实践平台
2019/05/07
2.5K0
AutoML for Mobile Compression and Acceleration on Mobile Devices
【推荐系统教程】当机器学习遇到推荐系统,悉尼科技大学Liang Hu博士最新分享
【导读】第32届AAAI大会-AAAI 2018将于2月2号-7号在美国新奥尔良召开,悉尼科技大学Liang Hu博士即将在大会作报告“When Advanced Machine Learning Meets Intelligent Recommender Systems” ,主要教读者如何用最前沿的机器学习算法实现智能推荐系统。主要内容包括但不局限于:推荐系统的发展进程、如何用机器学习方法建模异构数据、在推荐系统中使用前沿的机器学习算法、构建先进的推荐系统等。文章对推荐算法的总结较为全面,并介绍最新的技术
WZEARW
2018/04/13
2.1K0
【推荐系统教程】当机器学习遇到推荐系统,悉尼科技大学Liang Hu博士最新分享
transformers的近期工作成果综述
基于 transformer 的双向编码器表示(BERT)和微软的图灵自然语言生成(T-NLG)等模型已经在机器学习世界中广泛的用于自然语言处理(NLP)任务,如机器翻译、文本摘要、问题回答、蛋白质折叠预测,甚至图像处理任务。
deephub
2022/11/11
4440
transformers的近期工作成果综述
推荐阅读
相关推荐
大规模食品图像识别:T-PAMI 2023论文解读
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档