ADAS深度学习工程师

集智书童

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

SimD：自适应相似度距离策略提升微小目标检测性能 ！

AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

YOLO进化史：YOLOv5、YOLOv8 与 YOLOv10 的性能分析与边缘部署探讨！

绕过除法与平方根,PEANO-ViT 在 FPGA 上实现高效视觉Transformer !

属于嵌入式和移动设备的轻量级 YOLO 模型 ！

CCAF 新框架，利用 CLIP 学习细粒度语义特征，增强跨摄像头识别 ！

智能交通系统（ITS）有望通过提高安全性、优化交通流量、减少车辆排放和燃油消耗以及提供信息娱乐服务来 Reshape 流动性。这种转变得益于机器学习（ML）和车辆与一切（V2X）通信技术的进步，促进了车辆网络、行人和基础设施之间的无缝合作，产生了大量数据，并整合成一个统一的车辆互联网（IoV）[1]。为了实现数据共享，IoV依赖于最先进的无线网络技术，这些技术可以提供远距离、低延迟、可靠和安全的传输[2]。

FedPylot，联邦学习框架下的YOLOv7实时目标检测与隐私保护研究！

三维实例分割是计算机视觉任务，涉及预测三维点云场景中单个目标的 Mask 。它在机器人学和增强现实等领域具有重要意义。由于其在多样化应用中的重要性，近年来这一任务受到了越来越多的关注。研究行人长期以来一直专注于通常在封闭集合框架内操作的方法，这限制了它们识别训练数据中不存在目标的能力。

Open-YOLO 3D | 仅利用 RGB 图像的2D目标检测，实现快速准确的开放词汇3D实例分割 ！

在现代社会，个人信息安全问题越来越受到关注，因为误识别可能对个人的财产安全和隐私造成灾难性的影响。基于密码和身份证等 Token 的认证方法存在被遗忘或被盗的风险。在过去的几十年里，基于生理（如面部[18]，指纹[2]和静脉[38, 39]）或行为（如步态[3]和眼动[30]）特征的个体识别的生物识别技术研究非常广泛。在应用中最常见的生物识别特征是面部和指纹。然而，这些外部特征可能受到潜在的伪造攻击[23]。

StarLKNet |  利用大核卷积和 Mixup 增强的深度学习架构提升识别准确性！

多模态大模型（LVLMs）取得了快速的进展，在处理视觉信息方面展现出了很强的感知和推理能力。然而，当面对不同规模解空间的问题时，LVLMs 在相同知识点上并不总能给出一致的答案，这种答案的不一致性在 LVLMs 中普遍存在，在一定程度上会损害实际的用户体验，然而现有的多模态大模型基准测试却忽视了关于一致性的评价。 针对这一问题，北京大学计算机学院联合字节跳动提出了ConBench，弥补了这一缺陷。ConBench评测流程简洁快速，目前合并至LLaVA官方推理库lmms-eval中，欢迎大家试用。

北大 & 字节 提出ConBench：揭示VLM的不一致性

卷积神经网络在过去十年中彻底改变了计算机视觉应用，使得诸如目标检测、图像分割和实例分割等任务得以解决。尽管近年来卷积网络 Backbone 有所改进，甚至在某些任务上超过了人类的表现，但多年来在计算机视觉任务中使用Transformers [22] 仍然难以捉摸。

YotoR | 融合 Swin Transformer 和YoloR 的混合架构，提升目标检测性能的新前沿 ！

多目标跟踪（MOT）是计算机视觉领域的一项重要技术，在移动机器人、自动驾驶（Sun等人，2020）和体育分析（Zhao等人，2023）等应用中发挥着重要作用。随着目标检测的最新进展，基于检测的跟踪方法已成为最受欢迎的范式。这些方法通常包括两个子任务：在每一帧中检测物体；以及跨多个帧关联这些物体。基于检测范式的核心是数据关联，这严重依赖于利用物体外观和运动信息以提高准确性。尽管采用检测以获得语义优势有其好处，但这种依赖在物体外观相似且物体遮挡频繁发生的复杂场景中提出了重大挑战。

DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss，准确预测未来运动 ！

大规模视觉 Transformer （ViT）模型已经在广泛的下游视觉任务中展示出强大的泛化能力。将这些模型适配到特定任务的普遍方法是遵循先预训练后微调的范式，模型最初在大规模数据集上进行预训练，然后针对每个下游任务进行微调。然而，随着这些预训练的ViT模型规模的不断扩大[57; 7]，完全微调它们变得计算上更加密集。此外，在有限的下游数据集上进行微调时，还存在灾难性遗忘和过拟合的风险。

清华/浙大/川大 来拟合提出Sparse-Tuning | 显著提高预训练ViT模型在微调和推理上的效率！

异常检测是计算机视觉和深度学习领域中高度研究的领域，其应用包括缺陷检测[1, 2]，视觉检查，产品质量控制，医学成像等。这需要在低资源环境下的精确度和延迟约束之间取得平衡。异常或离群值本质上是从建模数据中偏离模式的开放集实例。早期的工作集中在缺陷检测上，包括传统的方法和现代的深度网络，随后是一类方法，其中为特定类别的目标或纹理训练了单独的模型。

DCAM 多类异常检测的分布式卷积注意力模块和特征蒸馏策略，效率更高、可扩展 ！

多模态对比学习方法（如CLIP [39]）在各类下游任务中展现出了令人印象深刻的零样本分类性能，由于它们能有效对不同模态的表示进行对齐，因此在开放词汇目标检测[51]、文本到图像生成[51]和视频理解[53]等多个视觉语言领域中作为基础模型。然而，近期的研究发现，预训练数据中一小部分被毒化的后门样本，可以在多模态对比预训练过程后导致CLIP被后门攻击[5; 4; 2]。

BDetCLIP  |  对抗预训练CLIP中的后门，增强多模态模型对抗后门攻击的可靠性和安全性

大规模预训练文本到图像扩散模型的进展导致了成功生成具有复杂性和对输入条件高保真的图像。特别是基于 Transformer 架构的扩散模型的出现，在这一研究领域中代表了重要的进步。与其他扩散模型相比，扩散 Transformer 已经展示了以更高的计算Gflops实现更低FID分数的能力[6]。近期的研究突显了扩散 Transformer 架构在图像生成能力方面的卓越表现，如Stable Diffusion 3[7]等方法，以及在视频生成方面，如Sora2所展示的出色性能。鉴于扩散 Transformer 模型的卓越性能，研究行人现在越来越多地研究这些视觉模型的扩展规律[8]，这与大型语言模型（LLMs）相似。

上交大 & 上海 AI 实验室 & ViVO 强势推出 TerDiT ，极低比特量化感知训练和和高效部署方案 ！！！

尽管基于深度学习的方法在语义分割方面取得了显著的成就，但这些方法常常需要大量的逐像素标注数据。

西交大提出 SCMix | 随机复合混合，实现更低的误差边界，态地混合源图像和多目标图像，实现全局最优适应 ！

自从Vision Transformer（ViT）[12]问世以来，它由于其在建模长距离依赖方面的卓越能力而吸引了研究界的广泛关注。然而，作为ViT核心的自注意力机制[61]带来了巨大的计算开销，从而限制了其更广泛的应用。已经提出了几种策略来减轻自注意力的这一局限性。

​中科院提出 SSViT | 稀疏扫描视觉 Transformer，模拟人类视觉图像识别，显著提高性能，准确率 top-1 ！！

计算机视觉任务，如语义分割[5, 30, 33, 55]和深度估计[2, 38]，已经通过深度学习技术得到了显著促进。每个视觉任务都有其精细的深度模型，这些模型通常遵循类似的流程，即特征提取和预测。此外，一些任务之间也共享关系。这些事实激励研究者研究多任务学习（MTL），这种学习能够将不同的任务模型统一到单一模型中。多任务学习的主要优势在于，在保持每个任务模型性能相当的同时，能够提高训练和推理的效率。由于这一优势，MTL模型已经被应用于包括自动驾驶[24, 29, 56]和场景理解[50, 52]在内的多个方向。

南开 & VIVO 提出MLoRE | 一种解码器中心的低秩专家混合多任务学习框架 ！

实时目标检测一直是计算机视觉研究领域的一个重点，旨在在低延迟下准确预测图像中物体的类别和位置。它被广泛应用于各种实际应用中，包括自动驾驶，机器人导航，物体跟踪等。近年来，研究行人一直致力于设计基于CNN的目标检测器以实现实时检测。其中，YOLOs因其性能和效率之间的巧妙平衡而越来越受欢迎。YOLOs的检测流程包括两部分：模型前向过程和NMS后处理。然而，这两者仍存在不足，导致次优的准确度-延迟边界。

YOLOv10开源｜清华用端到端YOLOv10在速度精度上都生吃YOLOv8和YOLOv9

数据增强（DA）是减轻深度神经网络训练过程中过拟合的一种关键且非常有效的技术，这导致了更一般化和可靠的模型。然而，需要注意的是，现有的DA方法主要依赖于在训练过程中使用完全随机或人为设计的增强幅度，这可能导致次优的训练场景，并需要人类专家在给定新数据集时对超参数进行更多的调整工程。

​AdaAugment  |  无需调优的自适应数据增强，仅引入了极少的参数和计算开销，性能 SOTA  ！

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了集智书童专栏，为你提供了集智书童的相关文章，致力于帮助开发者快速成长与发展。

集智书童

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐