Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!

RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!

作者头像
ShuYini
发布于 2024-05-28 08:31:14
发布于 2024-05-28 08:31:14
1.5K0
举报

引言

手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Prompt2Sign,并以此训练了手语生成大模型:SignLLM,该模型可并行生成多种手语,同时理解复杂自然语言输入。实验结果表明,SignLLM在8种手语的SLP任务上达到了最先进的性能,展示了其在多语种手语生成上的强大实力。

https://arxiv.org/pdf/2405.10718v1

背景介绍

手语生成(Sign Language Production,SLP)旨在从文本输入生成类似人类的手语化身(avatar)。基于深度学习的SLP方法通常包括从文本到词汇(即表示手势或姿势的文本词汇)、从词汇到姿势,以及最终将姿势渲染成更具吸引力的类似人类的手语化身。这些过程复杂且难以简化,使得手语数据的获取和处理变得越来越困难,这也严重降低了研究人员的热情

同时,在过去的十几年中,该领域的研究主要依赖德国手语数据集(PHOENIX14T)进行手语生成、识别和翻译任务(SLP, SLR和SLT),此外不同研究者使用不同标准的工具也增加了研究的复杂性。尽管主流数据集在推动手语生成领域发展方面发挥了重要的作用,但当面对新兴挑战时仍然存在问题,例如:

  • 1.「格式复杂」 现有数据集文件格式复杂,缺乏直接用于训练的信息;
  • 2.「劳动密集」手动注释词汇耗时、耗力,需要付出大量的人工本文;
  • 3.「扩展困难」手语视频数据集通常需要从专业人士那里获取并重新处理,这使得数据集的扩展变得困难。

以上这些问题限制了手语大模型的发展。为此,本文作者提出了一个多语种手语数据集Prompt2Sign,旨在解决现有手语数据集的局限性,并推动手语生成(SLP)、识别(SLR)和翻译(SLT)任务的研究进展,另外作者还训练了一个多语种手语生成大模型:SignLLM,生成8种语言手语骨架姿势,且都达到了SOTA水平。

Prompt2Sign

Prompt2Sign数据集源于互联网公开手语数据集和视频,涵盖了包括美国手语(ASL)在内的8种不同的手语,这使得它成为首个综合了多语种手语的数据集。下图为数据集概览,它包含了文本、提示词、视频帧以及关键点数据。

该数据集制作过程如下:

  • 首先使用OpenPose对视频进行处理,将视频帧中的姿势信息标准化为我们预定义的格式,从而减少冗余并便于使用seq2seq和text2text对模型进行训练;
  • 通过自动创建提示词来减少对手动注释的依赖,提高成本效益。
  • 最后,提高了工具的自动化处理水平,使工具高效且轻量,无需额外加载模型即可提高数据处理能力,解决了手动预处理和数据收集的难题。

尽管Prompt2Sign数据集为手语生成领域带来了新的机遇,但同时也需要对现有模型进行改进。因为先前模型在使用新数据集时会面临一些新的挑战:

  • 不同国家的手语差异导致不同手语数据不能同时训练,这限制了模型的多语言能力。
  • 处理更多语言和更大数据集会导致训练过程缓慢,下载、存储和数据加载方面也存在困难,因此需要探索高速训练方法。
  • 现有模型结构无法掌握更多语言,也难以理解更复杂、更自然的人类对话输入,需要增强模型的泛化能力和对提示的理解能力。

为克服以上问题,作者提出了SignLLM,这是第一个基于Prompt2Sign数据集开发的大规模多语言手语生成 (SLP) 模型,它可以根据文本提示生成8种语言的手语骨架姿势。

SignLLM

SignLLM 有两种不同的模式:多语言切换框架(MLSF)和Prompt2LangGloss,旨在实现高效的多语种SLP,同时避免语义混淆,并增强模型对复杂自然语言输入的理解能力。

上图展示了本文模型的输入和输出,Text是模式1的输入,Prompt是模式2的输入。两种模式处理不同的用例,具体如下:

  • 「模式1」多语言切换框架 (MLSF),它通过动态添加编解码器组并行生成多种手语。
  • 「模式2」Prompt2LangGloss,能够让 SignLLM 支持静态单组编解码器生成,旨在理解更复杂的自然语言输入。

为了减少训练时间成本,以加速模型在更多语言、更大数据集上的训练过程,作者将RL的概念应用于手语生成模型的训练过程中。

具体来说,具体来说,模型的输入序列被视为状态,输出序列被视为动作,而预测与实际结果的接近程度决定了奖励值。通过最大化期望累积奖励,传统的最小化均方误差(MSE)损失问题被重新表述,从而将RL策略应用于手语生成任务。

为了进一步提升训练效率,文中引入了优先学习通道(Priority Learning Channel, PLC)。PLC基于奖励转换为采样概率,选择更有价值(即奖励更高)的数据样本进行学习。这一策略使得模型能够根据其不断积累的知识,将注意力转移到最有价值的样本上,加速学习过程。

实验结果

下表展示了SignLLM与基线在ASL数据集上的Text to Pose任务的比较结果,可以发现SignLLM均优于基线方法。

下表展示了SignLLM在不同手语数据集上的MSLP任务的性能,SignLLM同样展现出了优秀的性能。

下表展示了SignLLM在德国手语(GSL)数据集上,与当前最先进的方法比较结果。可以发现SignLLM能够媲美或好于当前SOTA模型的性能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法
小华同学ai
2025/04/30
970
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
每周AI论文速递(250303-250307)
语言模型的预训练需要在广泛的语料库上进行训练,其中数据质量起着关键作用。在这项工作中,我们的目标是直接估计预训练期间数据的贡献,并以高效的方式选择预训练数据。具体来说,我们借鉴了最近的发现,这些发现表明,当文本领域与下游基准匹配时,多样化模型在某些文本上的压缩效率(即归一化损失)与其下游性能密切相关(Huang et al., 2024)。基于这一观察,我们假设模型损失能够预测下游能力的数据对学习有显著贡献。为了利用这一见解,我们引入了基于数据预测强度(Preselect)的数据选择方法,这是一种轻量级且高效的数据选择方法,仅需训练和部署一个基于 fastText 的评分器。通过对 1B 和 3B 参数模型的广泛实验,我们证明了使用 PreSelect 选择的 30B token 训练的模型性能超过了在 300B token 上训练的普通基线模型,使计算需求减少了 10 倍。此外,PreSelect 在 3B 模型上使用 100B token 进行训练时,显著优于其他竞争性数据选择基线,如 DCLM 和 FineWeb-Edu。我们在 https://github.com/hkust-nlp/PreSelect 上公开了我们训练的数据选择评分器以及精选的数据集。
叶子的技术碎碎念
2025/04/08
820
每周AI论文速递(250303-250307)
​基于 YOLOv8 和计算机视觉 CV 的实时识别系统!
在当今技术创新的背景下,各领域的进步已经改变了人类的存在方式,从教育(Abulibdeh等人,2024年)和医疗保健(Younis等人,2024年)到娱乐(Takale等人,2024年)和通信(Gholami和Al Abdwani,2024年)。尽管这些变革性的进步已经发生,但某些社区仍然面临阻碍他们获得基本特权的障碍。
AIGC 先锋科技
2024/07/08
5700
​基于 YOLOv8 和计算机视觉 CV 的实时识别系统!
跨越语言障碍!哈工大联合MSRA提出多任务、多模态、多语言的统一预训练模型M3P (CVPR 2021)
在本文中,作者提出了M3P,一个多任务、多语言、多模态预训练模型 ,通过多任务预训练目标将多语言预训练和多模态预训练结合到一个统一的框架中。M3P的目标是学习通用的表示,可以将以不同方式出现的对象或以不同语言表达的文本映射到一个公共语义空间。
CV君
2022/03/23
7700
跨越语言障碍!哈工大联合MSRA提出多任务、多模态、多语言的统一预训练模型M3P (CVPR 2021)
Facebook增强版LASER开源:零样本迁移学习,支持93种语言
【导语】为了加速自然语言处理 (NLP) 在更多语言上实现零样本迁移学习 (zero-shot transfer learning),Facebook 研究者扩展并增强了 LASER (Language-Agnostic Sentence Representations) 工具包,并在近期开源了这个项目。
AI科技大本营
2019/05/06
1K0
Facebook增强版LASER开源:零样本迁移学习,支持93种语言
自然语言预训练模型大总结​
先来一张图。 本文主要援引复旦大学邱锡鹏教授的论文:NLP预训练模型综述,对预训练模型进行了一些梳理
机器学习之禅
2022/07/11
8400
自然语言预训练模型大总结​
William Wang:语言与视觉研究的未来—多语种与真实环境下的导航与推理
本文报告主要介绍语言与视觉领域的探索以及未来,主要是真实环境下的导航与推理以及多语种任务,包括了视觉与语言在深度结合时的难点问题和目前的研究进展,以及研究团队在这些问题上的研究工作,以及对于语言与视觉跟机器交互等多模态融合方面未来研究趋势的展望。
马上科普尚尚
2020/05/13
8870
William Wang:语言与视觉研究的未来—多语种与真实环境下的导航与推理
AAAI 2018 | 中科大提出新型连续手语识别框架LS-HAN,帮助「听」懂听障人士
选自arXiv 作者:Jie Huang、 Wengang Zhou、Qilin Zhang、Houqiang Li、Weiping Li 机器之心编译 参与:路雪、李亚洲 中科大一篇关于手语识别的论文被 AAAI 2018 接收。该论文提出一种新型连续手语识别框架 LS-HAN,无需时间分割。LS-HAN 由三部分构成:用于视频特征表示生成的双流卷积神经网络、用于缩小语义差距的潜在空间和基于识别的潜在空间分层注意力网络。实验结果表明该框架有效。 手语识别(SLR)面临的一个重要挑战是设计能够捕捉人体动作
机器之心
2018/05/10
1.8K0
CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式
图1:手语识别旨在将手语视频(sign language videos)转换为手语词汇(sign language glosses)
集智书童公众号
2023/09/04
1.4K0
CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
在人工智能(AI)的快速发展中,本论文旨在探讨该领域的最新进展和未来趋势。通过综合分析现有研究,本文将为读者提供一个全面的理解,包括AI技术的关键概念、应用领域以及所面临的挑战。随着研究的深入,作者将进一步阐述如何通过技术创新推动AI的发展,以及如何确保其应用的安全性和公正性。
AIGC 先锋科技
2025/02/20
1130
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
单语言表征如何迁移到多语言去?
论文:On the Cross-lingualTransferability of Monolingual Representations
AI科技评论
2019/11/26
5450
2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
deephub
2024/07/01
6360
2024年6月上半月30篇大语言模型的论文推荐
专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
近期,我们邀请了上海大学的方昱春教授,这位在计算机视觉和手语研究领域深耕多年的资深专家,与我们分享了她如何将计算机视觉技术与手语研究相融合,开辟出一片新的研究天地。
AI科技评论
2024/03/18
5500
专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
最近,来自马里兰大学、OpenAI、斯坦福、微软等12所机构的30多名研究者,首次对LLM的提示技术进行了大规模的系统研究,并发布了一份长达75页的详尽报告。
新智元
2024/06/17
1060
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
基于yolov11的手语检测 | 附数据集+代码
YOLO11是Ultralytics YOLO系列实时目标检测器的最新迭代,它重新定义了尖端精度、速度和效率的可能性。在以往YOLO版本的令人印象深刻的进步基础上,YOLO11在架构和训练方法上引入了重大改进,使其成为广泛计算机视觉任务的多功能选择。
小白学视觉
2024/12/09
5720
基于yolov11的手语检测 | 附数据集+代码
谷歌研究员 Sebastian Ruber:线下参加 ACL 2022,我可太开心了!
作者 | Sebastian Ruder 编译 | Antonio 编辑 | 陈彩娴 今年 ACL 线下召开,谷歌研究员Sebastian Ruber也到现场参会了! ACL 2022的举办地点是都柏林,Sebastian Ruber位于谷歌伦敦,过去不远。ACL之行结束后,他兴致冲冲地写下了他的参会感受,分享了他对几个学术动态的关注,包括:1)语言多样性和多模态;2)提示学习;3)AI 的下一个热点;4)他在大会中最喜欢的文章;5)语言和智能的黑物质;6)混合式个人体验。 以下AI科技评论对他的分享做了不
AI科技评论
2022/06/16
2320
谷歌研究员 Sebastian Ruber:线下参加 ACL 2022,我可太开心了!
SMU/NUS/复旦/南洋理工提出简单而有趣的解决方案 , LLM 大型语言模型中的逆向建模 !
近年来,许多自然语言处理任务(NLP)和超出NLP范畴的能力得到了令人瞩目的表现。这些能力主要归因于学习涵盖了通用世界知识的广泛语料库。这些语料库是人类社会创造的,通常表现出人类的偏见,包括固有的向前看的认知,例如,在大多数情况下,大学数学数据集(Mitra等人,2024)中,原因可能先于结果和解决方案可以从给定的信息中推导出来。
AIGC 先锋科技
2024/10/29
1420
SMU/NUS/复旦/南洋理工提出简单而有趣的解决方案 , LLM 大型语言模型中的逆向建模 !
Stradigi开发了一种AI游戏,可在游戏中学习手语
可访问性是一个AI for good项目中新兴的领域,蒙特利尔创业公司Stradigi AI致力于为聋人和听力受损者提供一种新的工具。本周在NeurIPS 2018年会议上,两位联合创始人Carolina Bessega和Jaime Camacaro,演示了一款利用计算机视觉帮助人们学习美国手语(ASL)的游戏。
AiTechYun
2018/12/26
4740
LLM时代NLP研究何去何从?一个博士生的角度出发
最近,大语言模型(LLMs)在许多任务上表现出接近人类水平的性能,这引发了行业兴趣和资金投入的激增,有关LLMs的论文最近也层出不穷。
zenRRan
2023/08/22
1.1K0
LLM时代NLP研究何去何从?一个博士生的角度出发
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
推荐阅读
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
970
每周AI论文速递(250303-250307)
820
​基于 YOLOv8 和计算机视觉 CV 的实时识别系统!
5700
跨越语言障碍!哈工大联合MSRA提出多任务、多模态、多语言的统一预训练模型M3P (CVPR 2021)
7700
Facebook增强版LASER开源:零样本迁移学习,支持93种语言
1K0
自然语言预训练模型大总结​
8400
William Wang:语言与视觉研究的未来—多语种与真实环境下的导航与推理
8870
AAAI 2018 | 中科大提出新型连续手语识别框架LS-HAN,帮助「听」懂听障人士
1.8K0
CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式
1.4K0
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
1130
单语言表征如何迁移到多语言去?
5450
2024年6月上半月30篇大语言模型的论文推荐
6360
专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
5500
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
1060
基于yolov11的手语检测 | 附数据集+代码
5720
谷歌研究员 Sebastian Ruber:线下参加 ACL 2022,我可太开心了!
2320
SMU/NUS/复旦/南洋理工提出简单而有趣的解决方案 , LLM 大型语言模型中的逆向建模 !
1420
Stradigi开发了一种AI游戏,可在游戏中学习手语
4740
LLM时代NLP研究何去何从?一个博士生的角度出发
1.1K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3K0
相关推荐
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档