Transformer模型在很多不同的领域都取得了SOTA,包括自然语言,对话,图像,甚至音乐。每个Transformer体系结构的核心模块是注意力模块,它为一个输入序列中的所有位置对计算相似度score。
图 - Stacked Hourglass Networks由多个 stacked hourglass 模块组成,通过重复进行bottom-up, top-down推断以估计人体姿态.
整合多内容信息注意力机制(multi-context attention mechanism)到CNN网络,得到人体姿态估计 end-to-end 框架.
Stacked Hourglass Networks for Human Pose Estimation ECCV2016 http://www-personal.umich.edu/~alnewell/pose/ Torch code is available
最近又跳回来继续学习基于anchor free的目标检测模型,具体包括CornerNet和CenterNet等网络结构 。
CenterNet中主要提供了三个骨干网络ResNet-18(ResNet-101), DLA-34, Hourglass-104,本文从结构和代码对hourglass进行讲解。
Hourglass 网络以 feed-forward 方式学习每个 scale 的信息.
之所以说:“吊打YOLOv3”,因为CornerNet-Lite在FPS和mAP上都超过了YOLOv3,具体详见下文介绍。
论文: CornerNet-Lite: Efficient Keypoint-BasedObject Detection
论文: CornerNet: Detecting Objects as Paired Keypoints
转眼间,离上次9月3日已有9天的时间,好久没有将最新最好的“干货”分享给大家,让大家一起在学习群里讨论最新技术,那今天我给大家带来ECCV-2018年最优paper之一,也是目标检测里的佼佼者,值得我们去深挖,去学习!
近几天一个GitHub项目火遍了朋友圈,那就是卡通头像AI生成小程序。如下图所见:
2013 DeepPose(2013.12,google) 第一个将深度学习应用于humanPose,fc层后面直接暴力回归xy坐标。 2014 Joint-cnn-mrf(2014.06,纽约大学的LeCun组) 第一个采用heatmap的方式来回归出关键点。 SpatialDropout(2014,纽约大学的LeCun组) 第一个采用多尺度fm。 MPII 数据集(2014) 此前的大部分paper都是基于FLIC以及LSP来做评估的,但是在深度学习时代,数据量还是相对偏少(K级别)。 MPII把数据量
CornerNet: Detecting Objects as Paired Keypointsarxiv.org
根据结构划分 One-stage Simple Baselines Two-stage CPN Multi-stage CPM Hourglass MSPN HRNetv1 / HigherHRNet / HRNetv2 根据作者划分 CMU CPM(2015) OpenPose(2016) MSRA Simple Baselines(2018) HRNetV1(2019) Princeton Hourglass(2016) Associative Embed
此专栏主要是我们 Face++ Detection Team 对外交流使用,分享我们内部的一些工作,同时也希望能从其他同学那里学习经验和教训。另外,也非常希望有兴趣的同学加入我们(可以联系我,yugang@megvii.com),一起做一些有意义的工作。我们组内的基本情况介绍的 slides。第一期是我们 2018 年做 COCO skeleton 的工作。下面先上一个我们模型的视频结果:
旷视研究院 Detection Team 系列专栏主要是对外交流使用,分享检测组内部工作的新进展,同时也希望学习和吸取其他同学的经验、教训。我们非常欢迎有兴趣的新同学加入,一起做一些有意义的工作。第一期是我们 2018 年COCO Keypoint 冠军算法的首次解读。下面先上一个我们模型的视频结果。
论文认为当前的anchor-based方法虽然性能很高,但需要枚举所有目标可能出现的位置以及尺寸,实际上是很浪费的。为此,论文提出了简单且高效的CenterNet,将目标表示为其中心点,再通过中心点特征回归目标的尺寸。
原论文名为《Objects as Points》,有没有觉得这种简单的名字特别霸气,比什么"基于xxxx的xxxx的xxxx论文"帅气多了哈。
沙漏程序实现了一个基本的物理引擎。一个物理引擎是模拟物理物体在重力作用下下落,相互碰撞,按照物理定律运动的软件。你会发现在视频游戏、计算机动画和科学模拟中使用的物理引擎。在第 91 到 102 行,每一粒沙子检查它下面的空间是否是空的,如果是,就向下移动。否则,它检查它是否可以向左下方移动(第 104 到 112 行)或向右下方移动(第 114 到 122 行)。当然,运动学,经典物理学的一个分支,处理宏观物体的运动,远不止这些。然而,你不需要一个物理学学位来制作一个沙漏中沙子的原始模拟,它看起来是令人愉快的。
GitHub 地址:https://github.com/edvardHua/PoseEstimationForMobile
分享一篇最近被ICCV 2021接收的工作《Online Knowledge Distillation for Efficient Pose Estimation》,利用在线知识蒸馏进行高效2D人体姿态估计。
因为在ICIP2019上面和两位老师搞了一个关于人体姿态估计以及动作行为的tutorial,所以最近整理了蛮多人体姿态估计方面的文章,做了一个总结和梳理,希望能抛砖引玉。
本文带领大家重温 Objects as Points 一文,其于2019年4月发布于arXiv,谷歌学术显示目前已有403次引用,Github代码仓库已有5.2K星标,无论在工业界和学术界均有巨大影响力。
前天发了一个推文【目标检测Anchor-Free】CVPR 2019 CenterNet,讲解的是CenterNet: Keypoint Triplets for Object Detection这篇论文,今天要讲的这篇论文全名是Object as Points。这篇论文提出的网络也被叫作CenterNet,和前面介绍的CenterNet重名了,注意加以区别。论文原文见附录。
继续来探索Anchor-Free目标检测算法,前面讲了Anchor-Free的起源 目标检测算法之Anchor Free的起源:CVPR 2015 DenseBox ,其实同期另外一个有名的目标检测算法YOLOV1也是Anchor-Free系列的了。Anchor-Free系列相比于Anchor-Based的发展是较慢的,在2018-2019年才开始火起来。今天为大家介绍一下ECCV 2018的CornerNet,全称为:Detecting Objects as Paired Keypoints 。论文原文和代码见附录链接。
随着深度学习技术的发展,人体骨骼关键点的检测效果也在不断提升,且被广泛应用于计算机视觉相关领域,成为许多计算机视觉任务的基础,包括安防,新零售,动作捕捉,人机交互等等。现在,大火的人体姿态识别也有了PaddlePaddle的实现。我们来带小伙伴们学习一下怎么利用PaddlePaddle来实现人体姿态的识别任务。
自然场景下的文字检测与识别是近年来的热点研究方向之一,也是很多计算机视觉技术实现应用时的重要步骤。相较于技术已经相对成熟的打印文档文字识别,自然场景中的文本识别仍具困难,比如文字的呈现可以有多种方向、多样的颜色和字体等,这些情况都为文字检测与识别技术在现实生活中的应用带来了挑战。
这个项目名叫「人像卡通化 (Photo to Cartoon)」,已经在 GitHub 上开源。但对于不想动手下载各种软件、数据集、训练模型的普通用户,该公司开放了一个名为「AI 卡通秀」的小程序,可以生成各种风格的卡通照片、gif 表情包,完全可以满足社交需求。
之前开源的「人脸变卡通」项目往往可以提供很多鬼畜素材,要么嘴歪眼斜,要么脸型扭曲,甚至让你的五官看上去是随便放到脸盘里的,完全不像阳间该有的画风……但小视科技最近开源的一个项目似乎改变了这种印象,不仅可以生成逼真的卡通头像,还能利用微信小程序做成动图表情包,普通人也可以零门槛上手。
Learning Feature Pyramids for Human Pose Estimation ICCV2017 Torch: https://github.com/bearpaw/PyraNet
在这个过程中,以表情包和定制头像的兴起为例,人们开始尝试以融入个人特征和个性想法的卡通画来实现信息的精准传播。且传播主体不再局限于传统动画制作公司,而是以大众为主体的娱乐化传播。
众所周知,CV领域的三大顶会就是:CVPR、ICCV和ECCV。在谷歌发布的2020年的学术指标(Scholar Metrics)榜单,ECCV 位列总榜第58位,是计算机视觉领域排名第三的大会!这个排名是依据过去五年发表研究的数据(覆盖2015-2019年发表的文章),并包括截止2020年6月在谷歌学术中被索引的所有文章的引用量。
本文介绍的是CVPR2020论文《CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection》,作者来自商汤 。
CenterNet(Objects as points)已经有一段时间了,之前这篇文章-【目标检测Anchor-Free】CVPR 2019 Object as Points(CenterNet)中讲解了CenterNet的原理,可以回顾一下。
论文地址:https://arxiv.org/pdf/2003.09119.pdf
RMPE: Regional Multi-Person Pose Estimation ICCV2017 Code is based Caffe and Torch! https://github.com/MVIG-SJTU/RMPE https://github.com/MVIG-SJTU/AlphaPose
本文改进了CenterNet,实现了快速服装检测。主要方法是将语义关键点分组和作者提出的后处理技术结合获得了更高的精度,在DeepFashion2的验证集上,边界框检测任务精度为0.735 mAP,特征点检测任务精度为0.591 mAP。
Stacked Hourglass Networks for Human Pose Estimation - Project - Demo Code – pose-hg-demo - Pre-trained model - Training code – pose-hg-train
早期目标检测研究以anchor-based为主,设定初始anchor,预测anchor的修正值,分为two-stage目标检测与one-stage目标检测,分别以Faster R-CNN和SSD作为代表。后来,有研究者觉得初始anchor的设定对准确率的影响很大,而且很难找到完美的预设anchor,于是开始不断得研究anchor-free目标检测算法,意在去掉预设anchor的环节,让网络自行学习anchor的位置与形状,在速度和准确率上面都有很不错的表现。anchor-free目标检测算法分为两种,一种是DenseBox为代表的Dense Prediction类型,密集地预测的框的相对位置,另一种则是以CornerNet为代表的Keypoint-bsaed Detection类型,以检测目标关键点为主。
该文提出了一个大尺度多样性的真实世界图像超分数据集DRealSR,同时提出了一种“分而治之”(Component Divide-and-Conquer, CDC)的超分网络,它探索了low-level图像成分引导的图像超分。DRealSR克服了传统合成图像降质的局限性,构建了一个新的多样性的图像超分基准数据集。一般而言,不同区域的图像超分目的存在一定差异性:平坦区域的平滑性,边缘区域的锐利度,纹理区域的增强性。传统的L1/L2损失超分模型性容易受平坦区域和边缘区域主导,进而导致难以很好的复原复杂纹理。
过去的目标检测算法,two-stage方法从Faster R-CNN开始,one-stage方法从SSD开始,都无一例外的引入了anchor,anchor先验的引入使网络不需要从0直接预测Bounding box,这有利于目标检测器得到更好的效果。但是随着Anchor box的逐渐增多,它变成了目标检测算法的一个瓶颈,而CornerNet首次弃用了anchor box,就像它的名字一样,它将目标物体转化为检测左上角和右下角的点,CornerNet的论文是《CornerNet: Detecting Objects as Paired Keypoints》。
论文地址:https://arxiv.org/pdf/2007.08508.pdf
目标检测系列: 目标检测(object detection)系列(一) R-CNN:CNN目标检测的开山之作 目标检测(object detection)系列(二) SPP-Net:让卷积计算可以共享 目标检测(object detection)系列(三) Fast R-CNN:end-to-end的愉快训练 目标检测(object detection)系列(四) Faster R-CNN:有RPN的Fast R-CNN 目标检测(object detection)系列(五) YOLO:目标检测的另一种打开方式 目标检测(object detection)系列(六) SSD:兼顾效率和准确性 目标检测(object detection)系列(七) R-FCN:位置敏感的Faster R-CNN 目标检测(object detection)系列(八) YOLOv2:更好,更快,更强 目标检测(object detection)系列(九) YOLOv3:取百家所长成一家之言 目标检测(object detection)系列(十) FPN:用特征金字塔引入多尺度 目标检测(object detection)系列(十一) RetinaNet:one-stage检测器巅峰之作 目标检测(object detection)系列(十二) CornerNet:anchor free的开端 目标检测(object detection)系列(十三) CenterNet:no Anchor,no NMS 目标检测(object detection)系列(十四)FCOS:用图像分割处理目标检测
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 17 个在目标检测任务上曾取得 SOTA 的经典模型。 第 1 期:R-CNN、SPP-Net、Fast R-CNN、Faster R-C
2018年6月11日,京东AI研究院计算机视觉与多媒体实验室荣获计算机视觉领域顶级会议CVPR 2018 “Look Into Person” 国际竞赛(以下简称LIP)单人和多人人体姿态估计两个竞赛
这篇论文从全新的角度处理了单图像多人姿态检测的问题,通过新提出的结构化位姿表示方法(Structured Pose Representation)将多人姿态检测问题从先前的两阶段方法浓缩为单阶段检测,大幅度提高了人体位姿检测的效率和精度。
继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。
在Label上使用内置位图,bitmap的使用方法 实例: from tkinter import * root = Tk() # 初始化TK # 创建label,labe2...... labe1 = Label(root, bitmap='error') labe2 = Label(root, bitmap='hourglass') labe3 = Label(root, bitmap='info') labe4 = Label(root, bitmap='questhead') labe5 = L
领取专属 10元无门槛券
手把手带您无忧上云