前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >单应性Homograph估计:从传统算法到深度学习

单应性Homograph估计:从传统算法到深度学习

作者头像
3D视觉工坊
发布2020-11-11 17:05:07
发布2020-11-11 17:05:07
2.2K00
代码可运行
举报
运行总次数:0
代码可运行

本文作者:白裳 https://zhuanlan.zhihu.com/p/74597564 本文已由原作者授权,不得擅自二次转载

单应性原理被广泛应用于图像配准,全景拼接,机器人定位SLAM,AR增强现实等领域。这篇文章从基础图像坐标知识系为起点,讲解图像变换与坐标系的关系,介绍单应性矩阵计算方法,并分析深度学习在单应性方向的进展。

本文为入门级文章,希望能够帮助读者快速了解相关内容。

目录 一 图像变换与平面坐标系的关系 二 平面坐标系与齐次坐标系 三 单应性变换 四 深度学习在单应性方向的进展

单应性估计在图像拼接中的应用

一 图像变换与平面坐标系的关系

  • 旋转:

将图形围绕原点

逆时针方向旋转

角,用解析式表示为:

旋转

写成矩阵乘法形式:

  • 平移:

平移

但是现在遇到困难了,平移无法写成和上面旋转一样的矩阵乘法形式。所以引入齐次坐标

,再写成矩阵形式:

其中

表示单位矩阵,而

表示平移向量。

那么就可以把把旋转和平移统一写在一个矩阵乘法公式中,即刚体变换:

而旋转矩阵

是正交矩阵(

)。

刚体变换:旋转+平移(正方形-正方形)

  • 仿射变换

其中

可以是任意2x2矩阵(与

一定是正交矩阵不同)。

仿射变换(正方形-平行四边形)

可以看到,相比刚体变换(旋转和平移),仿射变换除了改变目标位置,还改变目标的形状,但是会保持物体的“平直性”。

不同

矩阵对应的各种基本仿射变换:

  • 投影变换(单应性变换)

投影变换(正方形-任意四边形)

简单说,投影变换彻底改变目标的形状。

总结一下:

  1. 刚体变换:平移+旋转,只改变物体位置,不改变物体形状
  2. 仿射变换:改变物体位置和形状,但是保持“平直性”
  3. 投影变换:彻底改变物体位置和形状

注:上图“投影变换”应该是“任意四边形”

我们来看看完整投影变换矩阵各个参数的物理含义:

其中

代表仿射变换参数,

代表平移变换参数。

表示一种“变换后边缘交点“关系,如:

至于

则是一个与

相关的缩放因子。

一般情况下都会通过归一化使得

(原因见下文)。

二 平面坐标系与齐次坐标系

问题来了,齐次坐标到底是什么?

齐次坐标系

与常见的三维空间坐标系

不同,只有两个自由度:

(其中

)对应坐标

的缩放尺度。当

时:

特别的当

时,对应无穷远:

三 单应性变换

  • 单应性是什么?

此处不经证明的给出:同一个 [无镜头畸变] 的相机从不同位置拍摄 [同一平面物体] 的图像之间存在单应性,可以用 [投影变换] 表示 。

代码语言:javascript
代码运行次数:0
运行
复制
注意:单应性成立是有条件的!

简单说就是:

其中

是Left view图片上的点,

是Right view图片上对应的点。

  • 那么这个

单应性矩阵如何求解呢?

更一般的,每一组匹配点

由平面坐标与齐次坐标对应关系

,上式可以表示为:

进一步变换为:

写成矩阵

形式:

也就是说一组匹配点

可以获得2组方程。

  • 单应性矩阵8自由度

注意观察:单应性矩阵

其实完全一样(其中

),例如:

即点

无论经过

还是

映射,变化后都是

如果使

,那么有:

所以单应性矩阵

虽然有9个未知数,但只有8个自由度。

在求

时一般添加约束

(也有用

约束),所以还有

共8个未知数。由于一组匹配点

对应2组方程,那么只需要

组不共线的匹配点即可求解

的唯一解。

XIAOMI9拍摄,有镜头畸变

OpenCV已经提供了相关API,代码和变换结果如下。

代码语言:javascript
代码运行次数:0
运行
复制
import cv2
import numpy as np

im1 = cv2.imread('left.jpg')
im2 = cv2.imread('right.jpg')

src_points = np.array([[581, 297], [1053, 173], [1041, 895], [558, 827]])
dst_points = np.array([[571, 257], [963, 333], [965, 801], [557, 827]])

H, _ = cv2.findHomography(src_points, dst_points)

h, w = im2.shape[:2]

im2_warp = cv2.warpPerspective(im2, H, (w, h))

可以看到:

  1. 红框所在平面上内容基本对齐,但受到镜头畸变影响无法完全对齐;
  2. 平面外背景物体不符合单应性原理,偏离很大,完全无法对齐。
  • 传统方法估计单应性矩阵

一般传统方法估计单应性变换矩阵,需要经过以下4个步骤:

  1. 提取每张图SIFT/SURF/FAST/ORB等特征点
  2. 提取每个特征点对应的描述子
  3. 通过匹配特征点描述子,找到两张图中匹配的特征点对(这里可能存在错误匹配)
  4. 使用RANSAC算法剔除错误匹配
  5. 求解方程组,计算Homograph单应性变换矩阵

示例代码如下:

代码语言:javascript
代码运行次数:0
运行
复制
#coding:utf-8

# This code only tested in OpenCV 3.4.2!
import cv2 
import numpy as np

# 读取图片
im1 = cv2.imread('left.jpg')
im2 = cv2.imread('right.jpg')

# 计算SURF特征点和对应的描述子,kp存储特征点坐标,des存储对应描述子
surf = cv2.xfeatures2d.SURF_create()
kp1, des1 = surf.detectAndCompute(im1, None)
kp2, des2 = surf.detectAndCompute(im2, None)

# 匹配特征点描述子
bf = cv2.BFMatcher()
matches = bf.knnMatch(des1, des2, k=2)

# 提取匹配较好的特征点
good = []
for m,n in matches:
    if m.distance < 0.7*n.distance:
        good.append(m)

# 通过特征点坐标计算单应性矩阵H
# (findHomography中使用了RANSAC算法剔初错误匹配)
src_pts = np.float32([kp1[m.queryIdx].pt for m in good]).reshape(-1,1,2)
dst_pts = np.float32([kp2[m.trainIdx].pt for m in good]).reshape(-1,1,2)
H, mask = cv2.findHomography(src_pts, dst_pts, cv2.RANSAC, 5.0)
matchesMask = mask.ravel().tolist()

# 使用单应性矩阵计算变换结果并绘图
h, w, d = im1.shape
pts = np.float32([[0,0], [0,h-1], [w-1,h-1], [w-1,0]]).reshape(-1,1,2)
dst = cv2.perspectiveTransform(pts, H)
img2 = cv2.polylines(im2, [np.int32(dst)], True, 255, 3, cv2.LINE_AA)

draw_params = dict(matchColor = (0,255,0), # draw matches in green color
                   singlePointColor = None,
                   matchesMask = matchesMask, # draw only inliers
                   flags = 2)

im3 = cv2.drawMatches(im1, kp1, im2, kp2, good, None, **draw_params)

相关内容网上资料较多,这里不再重复造轮子。需要说明,一般情况计算出的匹配的特征点对

数量都有

,此时需要解超定方程组(类似于求解线性回归)。

四 深度学习在单应性方向的进展

  • HomographyNet(深度学习end2end估计单应性变换矩阵)

HomographyNet是发表在CVPR 2016的一种用深度学习计算单应性变换的网络,即输入两张图,直接输出单应性矩阵

在之前的分析中提到,只要有4组

匹配点即可计算

的唯一解。

相似的,只要有4组

也可以计算出

的唯一解:

其中

分析到这里,如果要计算

,网络输出可以有以下2种情况:

  1. Regression:网络直接输出

共8个数值

这样设置网络非常直观,使用L2损失训练,测试时直接输出8个float values,但是没有置信度confidence。即在使用网络时,无法知道当前输出单应性可靠程度。

2. Classification:网络输出

共8个值的量化值+confidence

这时将网络输出每个

量化成21个区间,用分类的方法判断落在哪一个区间。训练时使用Softmax损失。相比回归直接输出数值,量化必然会产生误差,但是能够输出分类置信度评判当前效果好坏,更便于实际应用。

另外HomographyNet训练时数据生成方式也非常有特色。

  1. 首先在随机

位置获取正方形图像块Patch A

  1. 然后对正方形4个点进行随机扰动,同时获得4组
  1. 再通过4组

计算

  1. 最后将图像通过

变换,在变换后图像

位置获取正方形图像块Patch B

那么图像块A和图像块B作为输入,4组

作为监督Label,进行训练

可以看到,在无法提取足够特征点的弱纹理区域,HomographyNet相比传统方法确实有一定的优势:

  • Spatial Transformer Networks(直接对CNN中的卷积特征进行变换)

其实早在2015年,就已经有对CNN中的特征进行变换的STN结构。

假设有特征层

,经过卷积变为

,可以在他们之间插入STN结构。这样就可以直接学习到从特征

上的点

映射到特征

对应点

的仿射变换。

其中

对应STN中的仿射变换参数。STN直接在特征维度进行变换,且可以插入轻松任意两层卷积中。

  • DELF: DEep Local Features(深度学习提取特征点与描述子)

之前提到传统方法使用SIFT和Surf等特征点估计单应性。显然单应性最终估计准确度严重依赖于特征点和描述子性能。Google在ICCV 2017提出使用使用深度学习提取特征点。

tensorflow/models/delfgithub.com

考虑到篇幅,这里不再展开DELF,请有兴趣的读者自行了解相关内容。

本文仅做学术分享,如有侵权,请联系删文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一 图像变换与平面坐标系的关系
  • 二 平面坐标系与齐次坐标系
  • 三 单应性变换
  • 其中
  • 四 深度学习在单应性方向的进展
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档