首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >每日学术速递8.5

每日学术速递8.5

作者头像
AiCharm
发布2023-09-06 16:16:19
发布2023-09-06 16:16:19
3070
举报
文章被收录于专栏:AiCharmAiCharm

1.The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World

标题:全视项目:实现全景视觉识别和对开放世界的理解

作者:Weiyun Wang, Min Shi, Qingyun Li, Wenhai Wang, Zhenhang Huang, Linjie Xing, Zhe Chen, Hao Li, Xizhou Zhu, Zhiguo Cao, Yushi Chen, Tong Lu, Jifeng Dai, Yu Qiao

文章链接:https://arxiv.org/abs/2308.01907

项目代码:https://github.com/OpenGVLab/All-Seeing

摘要:

我们提出了 All-Seeing (AS) 项目:用于识别和理解开放世界中的一切的大规模数据和模型。使用在循环中融入人类反馈和高效模型的可扩展数据引擎,我们创建了一个新数据集 (AS-1B),其中包含超过 10 亿个区域,并用语义标签、问答对和详细标题进行注释。它广泛涵盖了现实世界中 350 万个常见和罕见的概念,并拥有 1322 亿个描述概念及其属性的代币。利用这个新的数据集,我们开发了全视模型(ASM),这是一个用于全景视觉识别和理解的统一框架。该模型使用开放式语言提示和位置进行训练,这使其能够以出色的零样本性能推广到各种视觉和语言任务,包括区域文本检索、区域识别、字幕和问答。我们希望这个项目能够成为视觉语言人工智能研究的基础。模型和数据集将在此 https URL 发布,演示可在此 https URL 观看。

2.Computational Long Exposure Mobile Photography

标题:计算长曝光移动摄影

作者:Eric Tabellion, Nikhil Karnad, Noa Glaser, Ben Weiss, David E. Jacobs, Yael Pritch

文章链接:https://arxiv.org/abs/2308.01379

项目代码:https://motion-mode.github.io/

摘要:

视频长时间曝光摄影可以产生令人惊叹的图像,以运动模糊的方式呈现场景中的移动元素。它通常以两种方式使用,产生前景或背景模糊效果。传统上,前景模糊图像是通过安装在三脚架上的相机拍摄的,并在完美锐利的背景景观上描绘模糊的移动前景元素,例如丝滑的水或光迹。背景模糊图像,也称为平移摄影,是在相机跟踪移动主体时捕获的,以在因相对运动而模糊的背景上产生清晰主体的图像。这两种技术都极具挑战性,需要额外的设备和先进的技能。在本文中,我们描述了一种计算连拍摄影系统,该系统在手持式智能手机相机应用程序中运行,只需轻按快门按钮即可完全自动实现这些效果。我们的方法首先检测并分割显着的主题。我们跟踪多个帧上的场景运动并对齐图像,以保持所需的清晰度并产生美观的运动条纹。我们捕获曝光不足的突发并选择输入帧的子集,该子集将产生受控长度的模糊轨迹,而不管场景或相机运动速度如何。我们预测帧间运动并合成运动模糊以填充输入帧之间的时间间隙。最后,我们将模糊图像与清晰的常规曝光进行合成,以保护几乎没有移动的场景中的面部或区域的清晰度,并生成最终的高分辨率和高动态范围(HDR)照片。我们的系统使以前保留给专业人士的功能变得大众化,并使大多数休闲摄影师都可以使用这种创意风格。

Subjects: cs.CL

3.Learning to Model the World with Language

标题:学习用语言模拟世界

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://dynalang.github.io/

摘要:

为了与世界上的人类互动,智能体需要理解人们使用的不同类型的语言,将它们与视觉世界联系起来,并根据它们采取行动。虽然当前的智能体通过任务奖励学习执行简单的语言指令,但我们的目标是构建利用多种语言来传达常识、描述世界状态、提供交互式反馈等的智能体。我们的关键想法是,语言可以帮助智能体预测未来:将观察到什么,世界将如何表现,以及哪些情况将得到奖励。这种观点将语言理解与未来预测结合起来,作为一个强大的自我监督学习目标。我们提出了 Dynalang,这是一种学习多模态世界模型的代理,该模型可以预测未来的文本和图像表示,并学习从想象的模型展示中采取行动。与仅使用语言来预测动作的传统代理不同,Dynalang 通过使用过去的语言来预测未来的语言、视频和奖励,从而获得丰富的语言理解。除了从环境中的在线交互中学习之外,Dynalang 还可以在文本、视频或两者的数据集上进行预训练,而无需操作或奖励。从在网格世界中使用语言提示到导航房屋的逼真扫描,Dynalang 利用不同类型的语言来提高任务性能,包括环境描述、游戏规则和说明。

推荐阅读

KDD 2023 | GPT时代医学AI:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA

2023-08-04

每日学术速递8.4

2023-08-04

大疆&腾讯 | CVPR 2023单目深度估计挑战赛冠军方案分享

2023-08-03

每日学术速递8.3

2023-08-03

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档