首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

YOLO11-pose关键点检测如何创新?自研独家创新DSAM注意力 ,助力pose关键点检测能力(五)

本文摘要

News Watch

本文原创自研改进:提出新颖注意力DSAM(Deformable Bi-level Spatial  Attention Module),创新度极佳,适合科研创新,效果秒杀CBAM,Channel Attention+Spartial Attention升级为新颖的 Deformable Bi-level  Attention+Spartial Attention

BRA注意力问题点:由可变形点选择的键值对缺乏语义相关性。BiFormer中的查询感知稀疏注意力旨在让每个查询聚焦于top-k路由区域。然而,在计算注意力时,选定的键值对受到太多无关查询的影响,减弱了对更重要查询的注意力。

本文改进:1)作为注意力机制分别加入到YOLO11的backbone、neck、detect,助力涨点;2)结合C2PSA进行二次创新;

涨点情况验证:1)作为DSAM注意力使用,

Pose mAP50 有原先的 0.871   提升至 0.876

2)DSAM注意力使结合C2PSA,

Pose mAP50 有原先的 0.871   提升至  0.902,提升三个多点实现暴力涨点

1

YOLO11介绍

Ultralytics YOLO11是一款尖端的、最先进的模型,它在之前YOLO版本成功的基础上进行了构建,并引入了新功能和改进,以进一步提升性能和灵活性。YOLO11设计快速、准确且易于使用,使其成为各种物体检测和跟踪、实例分割、图像分类以及姿态估计任务的绝佳选择。

pose官方在COCO数据集上做了更多测试:

2

手势关键点数据集介绍

2.1数据集介绍

数据集大小300张:训练集236张,验证集64张

关键点共21个

# 关键点的类别keypoint_class = ['Ulna', 'Radius', 'FMCP','FPIP', 'FDIP', 'MCP5','MCP4', 'MCP3', 'MCP2','PIP5', 'PIP4', 'PIP3'                 ,'PIP2', 'MIP5', 'MIP4','MIP3', 'MIP2', 'DIP5','DIP4', 'DIP3', 'DIP2']

标记后的数据格式如下:一张图片对应一个json文件

labelme2yolo-keypoint

生成的txt内容如下:

0 0.48481 0.47896 0.70079 0.77886 0.31308 0.70597 2 0.42206 0.70695 2 0.54954 0.59785 2 0.67569 0.53278 2 0.76420 0.48288 2 0.28402 0.46282 2 0.35865 0.44521 2 0.43395 0.43102 2 0.52642 0.43836 2 0.26486 0.42270 2 0.34941 0.39188 2 0.44782 0.37818 2 0.55680 0.39628 2 0.21731 0.34051 2 0.33884 0.27495 2 0.47094 0.25196 2 0.62351 0.29746 2 0.20674 0.29403 2 0.33620 0.20108 2 0.48018 0.16879 2 0.65654 0.24070 2

讲解:

第一个0代表:框的类别,因为只有hand一类,所以为0

0.48481 0.47896 0.70079 0.77886 代表:归一化后的 框的中心点横纵坐标、宽、高

0.31308 0.70597 2代表:归一化后的 第一个关键点的横纵坐标、关键点可见性

关键点可见性理解:0代表不可见、1代表遮挡、2代表可见

2.1 生成的yolo数据集如下

hand_keypoint:-images:--train: png图片--val:png图片-labels:--train: txt文件--val:txt文件

3

DSAM介绍

本文原创自研改进:提出新颖的注意力DSAM(Deformable Bi-level Spatial  Attention Module),创新度极佳,适合科研创新,效果秒杀CBAM,Channel Attention+Spartial Attention升级为新颖的 Deformable Bi-level  Attention+Spartial Attention

BRA注意力问题点:由可变形点选择的键值对缺乏语义相关性BiFormer中的查询感知稀疏注意力旨在让每个查询聚焦于top-k路由区域。然而,在计算注意力时,选定的键值对受到太多无关查询的影响,减弱了对更重要查询的注意力

4

YOLO11-pose魔改提升精度

4.1原始结果

Pose mAP50 为  0.871

YOLO11-pose summary (fused): 300 layers, 3,199,712 parameters, 0 gradients, 7.8 GFLOPs                Class     Images  Instances      Box(P          R      mAP50  mAP50-95)     Pose(P          R      mAP50  mAP50-95): 100%|██████████| 4/4 [00:04<00:00,  1.23s/it]                  all         64         64      0.999          1      0.995      0.668      0.922      0.922      0.871      0.638

PosePR_curve.png

4.2  DSAM注意力

Pose mAP50 有原先的 0.871   提升至  0.876

YOLO11-pose-DSAM summary (fused): 351 layers, 4,418,826 parameters, 0 gradients, 44.7 GFLOPs                Class     Images  Instances      Box(P          R      mAP50  mAP50-95)     Pose(P          R      mAP50  mAP50-95): 100%|██████████| 4/4 [00:05<00:00,  1.42s/it]                  all         64         64      0.999          1      0.995      0.691      0.921      0.922      0.876      0.716

PosePR_curve.png

 4.3  DSAM注意力结合C2PSA

Pose mAP50 有原先的 0.871   提升至  0.902,提升三个多点实现暴力涨点

                 all         64         64      0.999          1      0.995      0.691      0.921      0.922      0.876      0.716

YOLO11-pose-C2PSA_DSAM summary (fused): 337 layers, 3,487,208 parameters, 0 gradients, 17.2 GFLOPs                Class     Images  Instances      Box(P          R      mAP50  mAP50-95)     Pose(P          R      mAP50  mAP50-95): 100%|██████████| 4/4 [00:04<00:00,  1.23s/it]                  all         64         64      0.999          1      0.995      0.669      0.922      0.922      0.902      0.663

PosePR_curve.png

5

系列篇

1.训练实战篇 | 自己数据集从labelme标注到生成yolo格式的关键点数据以及训练教程

2. 具有切片操作的SimAM注意力,魔改SimAM助力pose关键点检测能力

3. 多头检测器提升助力pose关键点检测能力

4. SPPF原创自研创新 | SPPF创新结构,增强全局视角信息和不同尺度大小的特征

5. 自研独家创新DSAM注意力 ,助力pose关键点检测能力

6. 可变形双级路由注意力(DBRA),魔改动态稀疏注意力的双层路由方法BRA

7. 独家创新(SC_C_11Detect)检测头结构创新,助力手势pose关键点检测

8. DCNv4更快收敛、更高速度、更高性能,效果秒杀DCNv3、DCNv2等 ,结合C3k2二次创新

9. 新颖的双注意力块(DAB),一种新的并行注意力架构助力关键点检测

6

专栏介绍

《YOLO11魔术师专栏》将从以下各个方向进行创新:

原创自研模块】【多组合点优化】【注意力机制

主干篇】【neck优化】【卷积魔改

block&多尺度融合结合】【损失&IOU优化】【上下采样优化

【小目标性能提升】前沿论文分享】【训练实战篇】

pose关键点检测】【yolo11-seg分割】

YOLO11魔术师专栏

主页链接:

为本专栏订阅者提供创新点改进代码,改进网络结构图,方便paper写作!!!

适用场景:红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景

适用任务:所有改进点适用【检测】、【分割】、【pose】、【分类】等

全网独家首发创新,【自研多个自研模块】,【多创新点组合适合paper 】!!!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OsXYDqPYktQjaDcpKqunbDKg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券