前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >WalkVLM:如何通过VLM来辅助盲人行走?

WalkVLM:如何通过VLM来辅助盲人行走?

作者头像
一点人工一点智能
发布于 2025-01-03 12:35:11
发布于 2025-01-03 12:35:11
1880
举报

论文地址:https://arxiv.org/pdf/2412.20903

项目地址:https://walkvlm2024.github.io/

这篇论文主要研究了如何利用视觉语言模型(Vision-Language Models,简称VLMs)来帮助视障人士行走。目前全球有大约两亿人患有不同程度的视力障碍,因此开发AI技术提供行走辅助变得尤为重要。

虽然VLMs在自然语言处理领域取得了显著进展,但大多数现有方法都是基于自建问答数据集进行研究,缺乏统一的训练和测试基准。此外,在盲人行走任务中,需要实时解析视频流并生成简明而信息丰富的提醒,这对VLMs来说是一个巨大的挑战,因为它们容易产生冗余的回答和低效率的推理。

为了解决这些问题,作者首先发布了一个包含来自欧洲和亚洲的12,000个视频-手动注释对的多样化、广泛且无偏见的行走意识数据集,以提供一个公平的训练和测试基准。然后,他们提出了WalkVLM模型,该模型采用连锁思维进行分层规划以生成简明但信息丰富的提醒,并使用时序感知的自适应预测来减少提醒中的时间冗余。最后,他们建立了针对盲人行走任务的可靠基准,并验证了WalkVLM相对于其他VLMs在流式视频处理方面的优势。

论文方法

1.1 方法描述

该论文提出了一种名为WalkVLM的模型,旨在通过视觉语言模型来增强盲人行走任务的能力。WalkVLM采用了Chain of Thought(CoT)架构,将视频流输入到一个视觉编码器中,并与大型语言模型(LLM)相结合,以便更全面地理解环境信息并生成简洁有效的提醒。

WalkVLM将过程分为三个层次:感知、理解和决策。在感知层,模型提取静态视觉属性,如位置类型、天气条件和交通流量评级等;在理解层,模型整合所有来自感知层的输出,将局部检测结果和碎片化场景信息合并为全局摘要;在决策层,模型专注于训练WalkVLM以实现视觉问答和提醒功能。

1.2 方法改进

为了提高WalkVLM的效果,研究人员提出了以下改进措施:

1)使用Chain of Thought(CoT)架构逐步将信息从三个层次输入到视觉语言模型(VLM),并在测试时让模型预测上述属性并生成相应的响应。

2)在感知层引入了Prior-Object Location Module(POLM),它使用通用对象检测器来识别和定位场景中的物体,并根据大小和置信度分数过滤出反映道路状况和潜在危险的重要物品。

3)引入了Temporal-Aware Adaptive Prediction(TAP)模块,利用历史信息预估是否需要触发VLM,从而减少硬件计算压力。

1.3 解决的问题

该研究的主要目标是通过视觉语言模型改善盲人行走任务。具体来说,他们试图解决以下问题:

1)提高盲人在行走过程中获得的信息质量,使其能够更好地了解周围环境和路线规划。

2)减少冗余信息,提供简洁有效的提醒,以优化用户体验。

3)降低计算压力,使系统能够在实时环境中高效运行。

论文实验

本文主要介绍了WalkVLM模型在视频场景下的语言生成任务中的实验结果和分析。作者通过定量和定性的方法对多个指标进行了评估,并与其他流行的多模态模型进行了比较。具体来说,作者使用了ROUGE、TF-IDF相似度、GPT分数和TRF四个指标来评估模型的性能。同时,作者还进行了用户调查和可视化比较,以进一步验证模型的效果。

在定量方面,作者首先比较了不同模型在提醒任务和问答任务上的ROUGE得分。结果显示,WalkVLM在两个任务中都取得了最佳效果,说明其输出与真实结果最接近。其次,作者比较了不同模型在TF-IDF相似度和GPT分数上的表现。在提醒任务中,WalkVML在TF-IDF相似度上表现最好,说明其能够生成更简洁准确的结果。而在问答任务中,WalkVLM在GPT分数上表现更好,说明其能够更好地解释问题并提供详细的答案。最后,作者比较了不同模型在TRF上的表现。结果显示,WalkVLM在这方面也表现最好,说明其能够减少冗余的信息生成。

在定性方面,作者进行了视觉比较和用户调查。在视觉比较中,WalkVLM被证明可以生成更简洁和信息丰富的响应,从而为用户提供更好的体验。在用户调查中,WalkVLM在语言简洁性和语义相似性方面的得分最高,表明其能够在这些方面提供更好的用户体验。

总的来说,本文通过对多个指标的评估和多种方法的比较,证明了WalkVLM模型在视频场景下的语言生成任务中具有优异的表现。

未来展望

随着更多数据的收集和应用,WAD数据集有望成为该领域的标准基准数据集,为更多的研究工作提供有力的支持。

可以考虑将WalkVLM与其他技术相结合,如语音识别和导航系统等,以提供更为全面的盲人行走辅助服务。

在未来的研究中,可以探索如何利用深度学习等技术进一步优化WalkVLM模型,以提高其性能和适用范围。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
大语言模型(LLMs)的快速发展推动了视频理解研究范式的转变,从传统的以视觉为中心的方法转向利用跨模态对齐能力的基于LLM的框架。这种由LLM驱动的革命体现在两种主要架构中:在视频-文本对齐数据上预训练的视频LLMs[3, 16, 23]和以图像-文本对齐[19, 25]为核心的视觉语言模型(VLMs)。
AIGC 先锋科技
2025/05/14
840
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
​多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力!
在他们的真实描述中提供了广泛的概述。特别是,它们在生成细粒度描述方面的效力受到其固有的简洁性、简单性和多目标关注性的显著限制。此外,传统的评估指标如BLEU 和 SPICE(Brocker等人,2016)不适合评估细粒度描述,因为它们过于依赖这些粗略的真实描述,缺乏必要的粒度。
AIGC 先锋科技
2024/07/08
2360
​多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力!
每日论文速递 | 苹果发文:VLMs离视觉演绎推理还有多远
摘要:最近,GPT-4V 等视觉语言模型(VLM)在各种视觉语言任务中取得了令人难以置信的进步。我们深入研究了基于视觉的演绎推理这一更为复杂但探索较少的领域,并发现了当前 SOTA 视觉语言模型中尚未暴露的盲点。具体来说,我们利用Raven's Progressive Matrices(RPM)来评估 VLM 仅依靠视觉线索进行多跳multi-hop关系和演绎推理的能力。我们在三个不同的数据集(包括 Mensa IQ 测试、IntelligenceTest 和 RAVEN)上对几种流行的 VLM 进行了全面评估,这些 VLM 采用了标准策略,如上下文学习、自我一致性(SC)和思维链(CoT)。结果表明,尽管 LLM 在文本推理方面的能力令人印象深刻,但我们在视觉演绎推理方面仍远未达到可比的熟练程度。我们发现,某些在 LLMs 中有效的标准策略并不能完美地应对视觉推理任务带来的挑战。此外,详细的分析表明,VLMs 在解决这些任务时之所以举步维艰,主要是因为他们无法感知和理解 RPM 示例中多种混淆的抽象模式。
zenRRan
2024/03/25
1610
每日论文速递 | 苹果发文:VLMs离视觉演绎推理还有多远
每日学术速递3.26 (New! 一图速览)
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/03/27
1040
每日学术速递3.26 (New! 一图速览)
每日学术速递12.27
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2024/12/27
1250
每日学术速递12.27
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
在遥感和(RS)社区中,早期的视觉定位任务[26, 37]特指在卫星图像和相关文本 Query 的基础上,给出特定物体的水平边界框(HBBs)的位置。随着RS数据集[12, 25, 34]的日益丰富,研究行人开始使用定向边界框(OBBs)[9]或分割 Mask [36]来更准确地描绘所指物体。RS视觉定位使得人类能够以更直观的方式与计算机进行互动,这在提高智能RS解释系统的效率方面具有巨大的潜力[29]。
AIGC 先锋科技
2025/01/07
2060
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
大型语言模型(LLMs)彻底改变了人工智能领域,使得机器能够以惊人的表现感知和生成人类般的文本。随着这一进步,基于LLM的视觉语言模型(VLMs)正在迅速发展,并在视觉和语言的跨领域内。最近的一些VLMs,如,在多个视觉语言任务上表现出色,包括视觉问答(VQA)和指代表达理解(REC)。通常,这些基于LLM的VLMs采用类似的建模设计:一个预训练的视觉编码器来提取视觉特征,一个映射模块将这些特征与语言空间对齐,以及一个LLM进行推理。
AIGC 先锋科技
2024/08/13
3010
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
每日学术速递1.9
1.Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
AiCharm
2025/01/09
800
每日学术速递1.9
每日学术速递2.25
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/02/26
851
每日学术速递2.25
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。
机器之心
2024/06/17
7210
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
加利福尼亚大学提出 EM-VLM4AD | 轻量级、多帧的视觉-语言模型,减少10倍的内存和浮点运算!
视觉-语言模型(VLMs)已经成为一种强大的工具,它们具备整体知识,能够解决视觉和语言交叉领域的问题。这使得它们在自动驾驶(AD)中具有巨大的潜力,允许驾驶员与VLM互动,VLM能够提供各种驾驶安全任务的易于理解的语言表示。此外,VLM可以作为端到端的自动驾驶系统,消除了在自动驾驶特定子任务(如感知和轨迹规划)的单独模型之间的集成和传播错误。这些潜在的好处推动了许多为自动驾驶应用量身定制的视觉-语言模型和多模态语言模型的发展。这些模型涵盖了自动驾驶的各个方面,包括闭环控制、感知任务和交通代理行为分析。
AIGC 先锋科技
2024/07/08
3250
加利福尼亚大学提出 EM-VLM4AD | 轻量级、多帧的视觉-语言模型,减少10倍的内存和浮点运算!
每日学术速递2.20
1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
AiCharm
2025/02/21
1280
每日学术速递2.20
ContextVLM 使用视觉-语言模型实现自动驾驶车辆的环境和驾驶上下文识别 !
自动驾驶(AV)在现实生活中部署需要详细规定和应用操作设计域(ODDs)。ODDs是指自动驾驶车辆在广泛测试和预计安全操作的地理位置的道路和环境条件。核心自动驾驶功能(如感知、规划、行为和定位)的性能很大程度上取决于操作环境。特别是,基于传感器的感知可能受到雪、雾、雨和低光照条件的影响。运动规划器生成的路径和速度轨迹也可以从操作域知识中受益,如道路是上坡还是下坡、是否铺砌、鹅卵石或未经铺设。在周围区域的工作区知识有重大的安全意义[1]。此外,AV在乡村地区、城市峡谷、隧道或公路上的驾驶对定位性能有显著影响[2],例如,因为全球导航卫星系统(GNSS)精度的变化。然而,现有的研究通常忽略了可以喂养和影响自动驾驶堆叠的通用的上下文识别需求。
AIGC 先锋科技
2024/09/20
1540
ContextVLM  使用视觉-语言模型实现自动驾驶车辆的环境和驾驶上下文识别 !
SARChat-2M:首个SAR图像多模态对话数据集,验证VLMs能力,项目即将开源!
在人工智能(AI)研究领域,随着技术的不断进步和应用领域的拓展,研究者们对AI的认知和期望也在不断提升。本文旨在对当前AI技术的发展现状、挑战及其在各个领域的应用进行综述,以期为AI领域的进一步研究和发展提供参考。
未来先知
2025/03/24
2910
SARChat-2M:首个SAR图像多模态对话数据集,验证VLMs能力,项目即将开源!
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细粒度差异——一个人工编写的标题和自动生成的硬负例2标题,其中硬负例标题与原标题仅在目标、属性或两个目标之间的关系上有所不同。虽然可以通过基于规则的方法合成标题的硬负例,但为图像合成这样的硬负例则非常具有挑战性。
AIGC 先锋科技
2024/07/31
3280
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
MIT 提出 Bend-VLM ,超越传统去偏,在检索、分类和图像描述中的性能突出 !
预训练的基础视觉语言模型(VLMs),如CLIP [33],BLIP [22],以及LLaVA [25],已在诸如图像检索 [21],零和少样本分类 [33; 4],文本引导图像生成 [32],以及人脸识别 [58]等领域得到广泛应用。然而,VL模型也编码了社会偏见 。随着越来越多的系统依赖CLIP,编码的表示性危害 [12; 3; 15; 52]可能导致分配性危害,例如计算机视觉系统将黑人个体错误分类为非人类类别的可能性是普通人的三倍 [1]。
AIGC 先锋科技
2024/12/03
1520
MIT 提出 Bend-VLM ,超越传统去偏,在检索、分类和图像描述中的性能突出 !
每日学术速递12.19
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2024/12/19
1440
每日学术速递12.19
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
嵌入模型对于实现各种下游任务如语义相似度、信息检索和聚类等至关重要。近年来,开发通用文本嵌入模型以实现跨任务泛化(例如MTEB)引起了广泛关注。
未来先知
2025/01/10
4630
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024/07/31
5130
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
LLM-包装 黑盒语义感知视图语言基础模型的适应 !
视觉语言模型(VLMs)是 [3] 类基础模型,在大量多样化的任务和数据集 上进行了训练,表现出解决各种开放词汇任务的能力,例如图像描述生成 [18, 39],视觉问答或文本图像检索 的出色能力。最近的研究也取得了成功,在各种目标本地化问题上取得了成功,包括目标检测和语义分割 [9, 38, 39]。
AIGC 先锋科技
2024/10/22
1300
LLM-包装 黑盒语义感知视图语言基础模型的适应 !
推荐阅读
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
840
​多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力!
2360
每日论文速递 | 苹果发文:VLMs离视觉演绎推理还有多远
1610
每日学术速递3.26 (New! 一图速览)
1040
每日学术速递12.27
1250
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
2060
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
3010
每日学术速递1.9
800
每日学术速递2.25
851
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
7210
加利福尼亚大学提出 EM-VLM4AD | 轻量级、多帧的视觉-语言模型,减少10倍的内存和浮点运算!
3250
每日学术速递2.20
1280
ContextVLM 使用视觉-语言模型实现自动驾驶车辆的环境和驾驶上下文识别 !
1540
SARChat-2M:首个SAR图像多模态对话数据集,验证VLMs能力,项目即将开源!
2910
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
3280
MIT 提出 Bend-VLM ,超越传统去偏,在检索、分类和图像描述中的性能突出 !
1520
每日学术速递12.19
1440
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
4630
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
5130
LLM-包装 黑盒语义感知视图语言基础模型的适应 !
1300
相关推荐
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档