前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >赛事解析|乒乓球时序动作定位大赛亚军方案分享

赛事解析|乒乓球时序动作定位大赛亚军方案分享

作者头像
用户1386409
发布于 2022-09-01 02:00:50
发布于 2022-09-01 02:00:50
7080
举报
文章被收录于专栏:PaddlePaddlePaddlePaddle

比赛介绍

时序动作定位(提案生成)是计算机视觉和视频分析领域一个具有挑战性的任务。本次比赛不同于以往的ActivityNet-TAL,FineAction等视频时序检测动作定位比赛,采用了更精细的动作数据集–乒乓球转播画面,该数据集具有动作时间跨度短、分布密集等特点,给传统模型精确定位细粒度动作带来了很大挑战。

数据集介绍及处理

数据集介绍

本次比赛的数据集包含了19-21赛季兵乓球国际比赛(世界杯、世锦赛、亚锦赛,奥运会)和国内比赛(全运会,乒超联赛)中标准单机位高清转播画面的特征信息,共包含912条视频特征文件,每个视频时长在0~6分钟不等,特征维度为2048,以pkl格式保存。

数据处理方案

1.数据预处理

本赛题数据集中每条视频特征有不同的帧长(训练集帧长范围为464~8992,其中90%的序列帧长超过8704),对于如此长且长度不统一的视频序列,将其直接输入到模型中用于训练是不现实的。我们对最初的训练集按39:1的比例进行划分,得到新的训练集与验证集。当然,可以按照其他比例如9:1进行数据集划分,但是因为我们设计的验证方案(后续会提到)在数据量较多时耗费的时间更长,因此在验证可靠性与验证时间之间做出了取舍。

训练集

参照BMN[1]论文单元3.5中Training Data Construction部分所讲,我们也以一个滑动窗口对每一个长视频序列进行切分,其中步长为窗口长度的一半,同时要注意的是我们所保留的每一个视频切片必须包含至少一个完整提案。但是滑动窗口的长度如何选取呢?

首先我们对训练集相应的动作提案标签进行分析,总共有19054个提案标签(长度范围为1~831),分布如图1所示。我们设提案长度为D,当D=93时,已能够覆盖99.9%的动作提案。因此我们选择提案长度D为100,足以覆盖几乎全部的动作提案。当然为了减少训练推理时计算量,也可以选择更小的D,如D=50。正如冠军团队所说,PaddleVideo的anet_pipeline.py第50行出现错误,使得视频切片长度T与提案长度D不相等时便报错,故我们默认滑动窗口长度T与D相等,皆为100。当然,当T稍微更大时,比如T=200,可以使模型更好地建模长提案的上下文,但会带来更多的计算代价,因此T大小的选择可以在速度与性能之间进行权衡。

图1 训练集动作提案长度分布

验证集

为了在训练完模型之后对保存的模型进行筛选得到其中较好的模型,我们先后设计了两种验证方案。第一种方案是将验证集按照训练集的视频切分方式,即最后保留的切片都包含至少一个完整提案。这其实是与测试时不符的,即我们不应该事先知道哪些切片包含提案,而是应该对所有切片一视同仁。因此,第一种方案的验证分数远超A榜测试分数,但并不推荐。第二种方案则是模拟测试过程,即将验证集按照训练集的视频切分方式,但最后保留所有切片(每个切片不一定包含提案)。模型预测之后将每个视频对应的所有切片预测的提案进行汇总并进一步使用soft nms等方法筛选之后作为原未划分视频的预测提案信息,与标签对比计算AUC分数,作为模型筛选的凭证。

因此,我们对测试数据集的处理与验证集的第二种验证方案一致,即以一个滑动窗口对每一个长视频序列进行切分,其中步长为窗口长度T的一半,保留所有的切片。

2.提案后处理

如验证集第二种验证方案所讲,在选定的模型对测试集所有视频切片预测之后,我们将每个视频对应的所有切片预测的提案进行汇总并进一步使用soft nms等方法筛选之后作为原未划分视频的预测提案信息,并保存在submission.json中,打包之后即可提交A榜或B榜。

模型设计思路

这里围绕我们的最终模型进行讲述,思路演进可以见[2]。

模型整体架构

首先要提及的是我们的基础网络,即百度自研的BMN[1]模型,如图2所示。

图2 BMN模型整体架构

该模型由三个模块组成,基础模块(Base Module)作为主干网络处理输入的特征序列,TEM模块(Temporal Evaluation Module)预测每一个时序位置属于动作开始、动作结束的概率,PEM模块(Proposal Evaluation Module)生成BM置信度图。基于BMN[1]模型,我们对Base Module部分进行了修改,但继续沿用TEM模块和PEM模块,如图3所示。

图3 (a)我们最终模型的Base Module;

图3 (b)我们最终模型的整体结构

Base Module

为了使模型轻量,BMN[1]的基础模块使用的是两层的3x3分组卷积。由于分组之后,每通道信息只在各组中融合,而组与组之间无信息流通,会使得模型丢失一部分信息,降低模型容量。轻量化网络ShuffleNet采用Channel Shuffle操作使得信息跨组流通来解决这个问题,同样地,在这里我们也引入了Channel Shuffle操作。当然,也可以使用1x1卷积来解决,但会引入额外的参数和计算量。Channel Shuffle操作的代码如下:

为了扩大时域建模的感受野和建模更多的上下文信息,同时保证模型轻量,我们采用stride=2的3x3分组卷积对输入特征进行下采样。由于U-Net网络在图片分割领域的成功,正如BSN++[3]中所述,采用U-Net这种Encoder-Decoder结构,网络可以同时捕捉高层次的全局上下文和低层次的局部细节。这恰恰可以帮助模型对提案边界的预测和对预测提案置信度的评估。但是与BSN++[3]不同,我们将U-Net结构应用到了基础模块,且采用的不是U-Net++[5]。由图3(a)可以看到我们的基础模块的结构,在使用U-Net结构之前,由于输入特征序列的维度为2048,为了减少计算量,我们先利用两层卷积对输入特征序列进行降维,将降维后的输出输入到Encoder-Decoder结构中。为了尽可能地不引入过多的参数量和计算量,我们采取分组卷积和Channel Shuffle操作,且尽可能地使用较少的通道数,同时U-Net结构仅采用了5层。当然,也引入了额外的跳过连接,来使得U-Net结构的输入输出特征融合。

从骨骼点动作识别方法SGN[6]显式使用节点类型和帧索引来增强模型对节点语义信息的建模得到启发,我们引入时域位置编码,显式地将视频帧顺序加入到模型中,确定视频开始与结束的差异,增强模型对一帧的表达能力和对全局、局部上下文的建模能力,更好地确定动作提案的开始与结束边界。当然,位置编码的加入位置是有多种选择的。我们经过比较AUC分数与引入的代价,最终确定将其加入到降维模块与U-Net结构之间。当然当我们在TEM模块之前加入位置编码时,可以将视频序列时间正向、反向两次传入模型的TEM模块,利用类似集成的方式来提高提案开始点和结束点的预测精度,但考虑到两次可能增加一部分计算量,没有采用。不过仅仅引入时域位置编码就大大地提高了模型的预测性能,使得我们的A榜分数从48.216提升至48.828。

当然,在Base Module中也可以引入注意力机制,但测试发现SE模块没有带来性能提升,且引入了额外的计算量。

Temporal Evaluation Module

与BMN[1]模型一致,我们沿用了它的TEM模块结构,仅在第一个卷积的输入通道数有差别。当然,修改过的SE模块、non-local块等注意力机制也曾应用到两层卷积之间,但提升不大,且引入了额外的计算量,故最终方案没有采用。

SE模块代码如下:

Proposal Evaluation Module

PEM模块是BMN[1]模型推理时间占比最大的部分,从图[2]可以看到,PEM模块存在3D卷积和多个2D卷积,带来了巨大的计算耗费。当然我们最终方案沿用的是BMN[1]模型的PEM模块。这里只提及我们做过的一些尝试。首先,如何对3D卷积进行取代?可以采用(2D+1D)来取代3D卷积;也可以减小3D卷积的输出通道数,采用2D卷积与3D卷积两路混合来取代3D卷积;采用3D可分离卷积或分组卷积等。虽然产生了高效的模型,但不可避免地带来了性能下降,不过A榜AUC分数仍能达到48分以上。然后,对2D卷积进行处理,我们尝试2D分组卷积和Channel Shuffle操作来替代,引入U-Net结构等,但相对最终方案性能都略低,但相对高效。

总结与完善方向

由于比赛要求不超过两个模型,且提到除了模型精度以外模型数量和模型耗时指标的权重分数会高于其他指标,我们专注于模型本身的设计,在兼顾轻量的同时追求高性能,故TTA等集成方法均没有采用。由于是基于A榜分数改进模型,最终模型不可避免地对A榜测试集过拟合,使得B榜分数下降,因此提高模型泛化性也是未来要改进的一个方向。此外,模型压缩等手段我们均未采用,所以设计容量大但冗余的模型,再进行压缩得到轻量结构也是一个完善方向。当然,模型本身也有许多完善的方向,比如PEM模块的轻量化。参照冠军方案[7],训练数据处理与增强方案也可以进一步完善。

最后感谢百度官方提供算力与框架支持,感谢PaddleVideo套件提供强力支持。最后希望PaddleVideo可以把更多前沿的学术成果迁移到飞桨框架,越做越好!

参赛项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/3548768

PaddleVideo地址:

https://github.com/PaddlePaddle/PaddleVideo

参考文献

[1] Tianwei Lin, Xiao Liu, Xin Li, Errui Ding, and Shilei Wen. BMN: Boundary-Matching Network for Temporal Action Proposal Generation[C].In Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 3889-3898.

[2] 翟濮成, 基于飞桨实现乒乓球时序动作定位大赛 :B榜第2名方案.

[3] Haisheng Su, Weihao Gan, Wei Wu, Yu Qiao, and Junjie Yan. BSN++: Complementary Boundary Regressor with Scale-Balanced Relation Modeling for Temporal Action Proposal Generation[C]. In Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(3): 2602-2610.

[4] Ronneberger O, Fischer P, and Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. In International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.

[5] Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, and Jianming Liang. UNet++: A Nested U-Net Architecture for Medical Image Segmentation[M]. Deep learning in medical image analysis and multimodal learning for clinical decision support. Springer, Cham, 2018: 3-11.

[6] Pengfei Zhang, Cuiling Lan, Wenjun Zeng, Junliang Xing, Jianru Xue, and Nanning Zheng. Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition[C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 1112-1121.

[7] 来路生云烟,路里老咯,基于飞桨实现乒乓球时序动作定位大赛 :B榜第1名方案.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PaddlePaddle 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战,我们提出了一个新颖的框架:从反思反馈中强化学习Reinforcement Learning from Reflective Feedback (RLRF),它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应,然后通过 RL 算法对模型进行微调,同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明,RLRF 的功效和变革潜力超出了表面的调整。
zenRRan
2024/04/11
5040
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
RAG 技术综述
检索增强生成(Retrieval Augmented Generation,简称 RAG)向 LLM 提供了从特定数据源检索的信息,以此作为生成答案的基础。简而言之,RAG 结合了搜索和 LLM 的提示功能,在此基础上,模型根据搜索算法提供的信息,作为上下文来回答问题。这些查询和检索到的上下文会一并被注入到发送给 LLM 的提示中。
科技之歌
2024/02/01
1.6K0
RAG 技术综述
AAAI2024 | 分享10篇优秀论文,涉及图神经网络、大模型优化、表格分析等热门话题
本文研究解决预训练和微调图神经网络在图挖掘任务中的结构一致性问题。作者发现预训练图与微调图之间的结构差异主要源于生成模式的不一致。为此,本文作者提出了G-TUNING方法,通过调整预训练图神经网络,有效地保持了微调图的生成模式。
ShuYini
2023/12/28
8210
AAAI2024 | 分享10篇优秀论文,涉及图神经网络、大模型优化、表格分析等热门话题
RoleLLM:打造高效的角色扮演语言模型
论文介绍了一种评估和增强LLM在角色扮演方面能力的方法。作者首先提出了一个角色扮演基准(RoleBench),用于综合评估LLM的角色扮演能力,然后设计了一种名为RoleLLM的模型,它通过对话工程和上下文指令生成技术来模仿特定角色的对话风格。
唐国梁Tommy
2023/11/24
3.7K1
RoleLLM:打造高效的角色扮演语言模型
AAAI 2024 | 大模型(LLM)论文总结
大语言模型作为近期最火热的研究点,热度至今居高不下。特别是近期,arxiv上每个月都发表很多关于大语言模型的文章。对此,我只想吐槽一句,根本读不完。倒不如来看看在AAAI-2024会议上关于大语言模型的研究工作。经过"老字号"AAAI会议审核过的,质量是杠杠的。
时空探索之旅
2024/11/19
5570
AAAI 2024 | 大模型(LLM)论文总结
Google DeepMind 大语言模型中的长形态事实性
论文标题:Long-form factuality in large language models
叶庭云
2024/05/25
1290
Google DeepMind 大语言模型中的长形态事实性
让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度
大语言模型(Large Language Models, LLMs)在面对专业领域知识问题的时候,经常会生成偏离既定事实的回复,或模糊不清的回答,从而带来了潜在应用风险。
新智元
2025/04/21
2870
让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度
同济大学发布最新检索增强(RAG)的LLM生成技术综述
摘要主要介绍了大型语言模型(LLMs)在实际应用中面临的挑战,比如幻觉、知识更新缓慢和答案缺乏透明度等问题,并提出了检索增强生成(Retrieval-Augmented Generation,RAG)作为一种解决方案。RAG通过从外部知识库检索相关信息来辅助大型语言模型回答问题,已经被证明能显著提高回答的准确性,减少模型产生的幻觉,尤其是在知识密集型任务中。
唐国梁Tommy
2023/12/21
17K0
同济大学发布最新检索增强(RAG)的LLM生成技术综述
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
7050
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
大模型+RAG,全面介绍!
大型语言模型(LLMs)在处理特定领域或高度专业化的查询时存在局限性,如生成不正确信息或“幻觉”。缓解这些限制的一种有前途的方法是检索增强生成(RAG),RAG就像是一个外挂,将外部数据检索集成到生成过程中,增强模型提供准确和相关响应的能力。
算法进阶
2024/05/31
8520
大模型+RAG,全面介绍!
RAG还是微调?微软出了一份特定领域大模型应用建设流程指南
在构建大语言模型应用程序时通常有两种常见的方法来整合专有和特定领域的数据:检索增强生成和微调。检索增强生成通过外部数据增强提示,而微调将额外的知识整合到模型本身中。不过,对这两种方法的优缺点了解的却不够充分。
机器之心
2024/02/26
5190
RAG还是微调?微软出了一份特定领域大模型应用建设流程指南
告诉我们事实:用知识图谱增强大语言模型以实现事实感知的语言建模
论文标题:Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling
叶庭云
2024/05/24
5310
分享10篇,关于「QA 问答系统」的最新研究,涉及5个领域、4个技术方向!
 QA问答系统自然语言处理领域的一个热门研究方向,它旨在构建能够理解并回答人类提出的问题的智能机器。QA系统的广泛应用领域包括法律、医疗、信息检索、文档查询、任务辅助以及常识推理等。
ShuYini
2023/10/24
2K0
分享10篇,关于「QA 问答系统」的最新研究,涉及5个领域、4个技术方向!
【源头活水】本周Big Model论文精选!
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/07/29
1130
【源头活水】本周Big Model论文精选!
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大语言模型的长篇事实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大语言模型幻觉不再是问题了。
机器之心
2024/04/12
1410
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
每日论文速递 | DeepMind提出SAFE,用LLM Agent作为事实评估器
摘要:大语言模型(LLM)在回答开放式话题的事实搜索提示时,经常会生成包含事实错误的内容。为了对模型在开放域中的长式事实性进行基准测试,我们首先使用 GPT-4 生成了 LongFact,这是一个由跨越 38 个主题的数千个问题组成的提示集。然后,我们提出可以通过一种我们称之为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法,将 LLM 代理用作长式事实性的自动评估器。SAFE 利用 LLM 将长式回复分解为一组单独的事实,并通过一个多步骤推理过程来评估每个事实的准确性,该过程包括向谷歌搜索发送搜索查询,并确定搜索结果是否支持某个事实。此外,我们还建议将 F1 分数扩展为长表事实性的综合指标。为此,我们平衡了回复中支持事实的百分比(精确度)和所提供事实相对于代表用户首选回复长度的超参数的百分比(召回率)。根据经验,我们证明了 LLM 代理可以实现超人的评级性能--在一组约 16k 的单个事实上,SAFE 与众包人类注释者的一致率为 72%,而在 100 个分歧案例的随机子集上,SAFE 的胜率为 76%。同时,SAFE 的成本比人类注释者低 20 多倍。我们还在 LongFact 上对四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 个语言模型进行了基准测试,发现较大的语言模型通常能获得更好的长格式事实性。LongFact、SAFE 和所有实验代码开源。
zenRRan
2024/04/11
2800
每日论文速递 | DeepMind提出SAFE,用LLM Agent作为事实评估器
AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述
大规模语言模型在众多下游任务中展现了惊人的能力,但它们在使用中仍然暴露了一些问题。其中,幻觉是目前影响大模型落地的重要问题之一。ChatGPT 的发布使学术界和工业界关注大模型实际落地的潜能,大量关于幻觉的工作也开始涌现。
机器之心
2023/09/19
1.1K0
AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述
OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略
2024年7月7号,OpenAI安全团队负责人,Lilian Weng分享了一篇博客介绍了LLM中幻觉的由来、检测和对抗策略,分享给大家,以下为翻译全文。
AgenticAI
2025/03/18
1340
OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略
最全梳理:一文搞懂RAG技术的5种范式!
本文主要回顾 RAG 技术的发展,第一部分梳理了综述和关键论文,第二部分梳理了工程实践工具。 
Datawhale
2025/02/24
1.6K0
最全梳理:一文搞懂RAG技术的5种范式!
最新研究综述——探索基础模型中的“幻觉”现象
“幻觉”问题即模型生成的内容可能包含虚构的信息。它不仅在大语言模型(LLMs)中存在,也存在于图像、视频和音频等其他一系列基础模型中。
zenRRan
2023/09/25
1.5K0
最新研究综述——探索基础模型中的“幻觉”现象
推荐阅读
相关推荐
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档