单目深度估计技术解析与实现

原创

用户11764306

发布于 2025-11-01 07:19:40

900

引言

深度感知是理解三维物体并判断这些物体距离的过程。它有助于导航、物体操纵和场景理解等任务。尽管深度感知很重要，但从单张图像估计深度（称为单目深度估计）对人工智能来说是一个具有挑战性的问题。然而，机器学习的进步，特别是深度学习或人工智能，显著提高了单目深度估计的准确性和可靠性。

卷积神经网络和其他深度学习架构通过利用大型数据集和强大的计算资源，在学习从二维图像预测深度方面显示出巨大潜力。这些模型在已知深度信息的多样化图像上进行训练，使它们能够泛化到新的、未见过的场景。

理解DPT：深度估计的强大工具

Depth Anything模型基于DPT架构，并在超过6200万张图像上进行了训练。DPT模型的主干利用视觉变换器替代CNN进行密集预测任务，即逐像素预测。DPT是一种从单张图像估计深度的新颖架构。它采用编码器-解码器方法，其中编码器基于视觉变换器，这是计算机视觉领域的重大进步。

编码器（也称为网络主干）在大型语料库（如ImageNet）上进行预训练。解码器聚合来自编码器的特征并将其转换为最终的密集预测。

ViT独特地处理图像，在整个过程中保持相同的细节水平并具有宽视野。这有助于DPT做出详细且全局一致的预测。与通过下采样丢失某些细节的传统方法不同，DPT在所有阶段都保持高图像质量。

在测试单目深度估计和语义分割时，DPT的表现超过了领先的卷积网络28%以上。它在大型数据集上特别有效，甚至在NYUv2和KITTI等较小数据集上创造了新的性能记录。

DPT架构

标记化：输入图像通过以下方式转换为标记：

提取非重叠补丁并线性投影（DPT-Base和DPT-Large），或
使用ResNet-50特征提取器（DPT-Hybrid）

嵌入：图像标记通过位置嵌入和读取标记进行增强

变换器阶段：标记通过多个变换器阶段

重组：来自不同阶段的标记在多个分辨率下重组成类似图像的表示

融合和上采样：融合模块逐步组合和上采样这些表示，以创建细粒度的预测。融合块使用残差卷积单元来合并特征并增强分辨率

实现DPT模型

!pip install -q git+https://github.com/huggingface/transformers.git

from transformers import DPTFeatureExtractor, DPTForDepthEstimation
from PIL import Image
import requests
import torch
import numpy as np

# 定义特征提取器和模型
feature_extractor = DPTFeatureExtractor.from_pretrained("Intel/dpt-large")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-large")

# 获取图像
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

# 准备图像
pixel_values = feature_extractor(image, return_tensors="pt").pixel_values

# 推理
with torch.no_grad():
    outputs = model(pixel_values)
    predicted_depth = outputs.predicted_depth

# 可视化图像
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
).squeeze()
output = prediction.cpu().numpy()
formatted = (output * 255 / np.max(output)).astype('uint8')
depth = Image.fromarray(formatted)