首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM

机器之心专栏 作者:蚂蚁集团-大安全-机器智能 来自蚂蚁集团 - 大安全 - 机器智能和上海交通大学的研究者提出了一种多模态文档理解新模型 XYLayoutLM。 近年来,多模态文档理解在各类场景得到了广泛的应用。它要求我们结合图像,文本和布局信息对扫描件或者 pdf 文件进行理解。在常见的表单理解的任务中,多模态数据如图 1 所示。 图 1:多模态文档理解数据示例(来自 XFUN 数据集) 除此之外,多模态的模型还被应用于文档自动处理,文本关系提取和网页分类定性等等一系列应用。然而,需要强调的是,这个问

03
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    深度学习 VS 深度克隆,谁才是解决聊天机器人的最佳方法?

    对话式 AI (聊天机器人)涉及到三个维度的问题:(1)语言技能(2)知识获取(3)对话行为。 这三者虽然强相关,但人类大脑通过单独的实验,在不同的时间段内,可能使用不同的神经区域来获得这些优点。 因此,开发整个过程的计算机模型也需要一些单独的处理和分布式方法。 深度学习提供了一个看上去可行的模型。 但是,它会在一个单一的模式下将所有数据都集成到大量的数据需求中。 这也与我们如何通过阅读学习相矛盾。和深度学习不同,我们每次阅读新文章时,显然不会重新学习语言技能。语言和知识能否分开处理,使后者的成长不需要与前

    05

    腾讯网新闻底层页无障碍代码细节

    本文主要介绍了腾讯网新闻底层页无障碍阅读功能,该功能主要针对于盲人用户使用屏幕阅读器进行阅读而设计。主要优化了以下六个方面:1. 添加无障碍说明,使代码做为body的第一个元素,使用css样式代码控制此代码中的内容在视觉上不显示,只有使用屏幕阅读器才可以听到这个链接;2. 为页面中指向网站首页的链接添加title和accesskey属性,使按alt+1快捷键时可以阅读该title和链接地址;3. 为页面中的主导航所在代码区域添加accesskey和tabindex属性,使按alt+2快捷键时可以阅读该区域的内容;4. 为文字的正文区域添加title和accesskey属性,使按alt+3快捷键时可以阅读该区域的内容;5. 为评论的出入框添加accesskey属性,使按alt+4快捷键时可以阅读该区域的内容;6. 在鼠标在某个拥有title属性的区域时候,会出现悬停的小菜单提示,使用javascript脚本实现。该功能默认此区域的title值为空,当按下某快捷键的时候,对该快捷键绑定的区域进行动态的赋予title的值。

    01
    领券