首页
学习
活动
专区
工具
TVP
发布

集智书童

专栏成员
323
文章
369581
阅读量
39
订阅数
CCAF 新框架,利用 CLIP 学习细粒度语义特征,增强跨摄像头识别 !
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
集智书童公众号
2024-06-25
520
FedPylot,联邦学习框架下的YOLOv7实时目标检测与隐私保护研究!
智能交通系统(ITS)有望通过提高安全性、优化交通流量、减少车辆排放和燃油消耗以及提供信息娱乐服务来 Reshape 流动性。这种转变得益于机器学习(ML)和车辆与一切(V2X)通信技术的进步,促进了车辆网络、行人和基础设施之间的无缝合作,产生了大量数据,并整合成一个统一的车辆互联网(IoV)[1]。为了实现数据共享,IoV依赖于最先进的无线网络技术,这些技术可以提供远距离、低延迟、可靠和安全的传输[2]。
集智书童公众号
2024-06-14
1380
Open-YOLO 3D | 仅利用 RGB 图像的2D目标检测,实现快速准确的开放词汇3D实例分割 !
三维实例分割是计算机视觉任务,涉及预测三维点云场景中单个目标的 Mask 。它在机器人学和增强现实等领域具有重要意义。由于其在多样化应用中的重要性,近年来这一任务受到了越来越多的关注。研究行人长期以来一直专注于通常在封闭集合框架内操作的方法,这限制了它们识别训练数据中不存在目标的能力。
集智书童公众号
2024-06-14
1510
StarLKNet | 利用大核卷积和 Mixup 增强的深度学习架构提升识别准确性!
在现代社会,个人信息安全问题越来越受到关注,因为误识别可能对个人的财产安全和隐私造成灾难性的影响。基于密码和身份证等 Token 的认证方法存在被遗忘或被盗的风险。在过去的几十年里,基于生理(如面部[18],指纹[2]和静脉[38, 39])或行为(如步态[3]和眼动[30])特征的个体识别的生物识别技术研究非常广泛。在应用中最常见的生物识别特征是面部和指纹。然而,这些外部特征可能受到潜在的伪造攻击[23]。
集智书童公众号
2024-06-11
1080
北大 & 字节 提出ConBench:揭示VLM的不一致性
多模态大模型(LVLMs)取得了快速的进展,在处理视觉信息方面展现出了很强的感知和推理能力。然而,当面对不同规模解空间的问题时,LVLMs 在相同知识点上并不总能给出一致的答案,这种答案的不一致性在 LVLMs 中普遍存在,在一定程度上会损害实际的用户体验,然而现有的多模态大模型基准测试却忽视了关于一致性的评价。 针对这一问题,北京大学计算机学院联合字节跳动提出了ConBench,弥补了这一缺陷。ConBench评测流程简洁快速,目前合并至LLaVA官方推理库lmms-eval中,欢迎大家试用。
集智书童公众号
2024-06-11
940
YotoR | 融合 Swin Transformer 和YoloR 的混合架构,提升目标检测性能的新前沿 !
卷积神经网络在过去十年中彻底改变了计算机视觉应用,使得诸如目标检测、图像分割和实例分割等任务得以解决。尽管近年来卷积网络 Backbone 有所改进,甚至在某些任务上超过了人类的表现,但多年来在计算机视觉任务中使用Transformers [22] 仍然难以捉摸。
集智书童公众号
2024-06-11
1350
DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !
多目标跟踪(MOT)是计算机视觉领域的一项重要技术,在移动机器人、自动驾驶(Sun等人,2020)和体育分析(Zhao等人,2023)等应用中发挥着重要作用。随着目标检测的最新进展,基于检测的跟踪方法已成为最受欢迎的范式。这些方法通常包括两个子任务:在每一帧中检测物体;以及跨多个帧关联这些物体。基于检测范式的核心是数据关联,这严重依赖于利用物体外观和运动信息以提高准确性。尽管采用检测以获得语义优势有其好处,但这种依赖在物体外观相似且物体遮挡频繁发生的复杂场景中提出了重大挑战。
集智书童公众号
2024-06-11
1170
清华/浙大/川大 来拟合提出Sparse-Tuning | 显著提高预训练ViT模型在微调和推理上的效率!
大规模视觉 Transformer (ViT)模型已经在广泛的下游视觉任务中展示出强大的泛化能力。将这些模型适配到特定任务的普遍方法是遵循先预训练后微调的范式,模型最初在大规模数据集上进行预训练,然后针对每个下游任务进行微调。然而,随着这些预训练的ViT模型规模的不断扩大[57; 7],完全微调它们变得计算上更加密集。此外,在有限的下游数据集上进行微调时,还存在灾难性遗忘和过拟合的风险。
集智书童公众号
2024-06-11
1270
DCAM 多类异常检测的分布式卷积注意力模块和特征蒸馏策略,效率更高、可扩展 !
异常检测是计算机视觉和深度学习领域中高度研究的领域,其应用包括缺陷检测[1, 2],视觉检查,产品质量控制,医学成像等。这需要在低资源环境下的精确度和延迟约束之间取得平衡。异常或离群值本质上是从建模数据中偏离模式的开放集实例。早期的工作集中在缺陷检测上,包括传统的方法和现代的深度网络,随后是一类方法,其中为特定类别的目标或纹理训练了单独的模型。
集智书童公众号
2024-06-11
760
BDetCLIP | 对抗预训练CLIP中的后门,增强多模态模型对抗后门攻击的可靠性和安全性
多模态对比学习方法(如CLIP [39])在各类下游任务中展现出了令人印象深刻的零样本分类性能,由于它们能有效对不同模态的表示进行对齐,因此在开放词汇目标检测[51]、文本到图像生成[51]和视频理解[53]等多个视觉语言领域中作为基础模型。然而,近期的研究发现,预训练数据中一小部分被毒化的后门样本,可以在多模态对比预训练过程后导致CLIP被后门攻击[5; 4; 2]。
集智书童公众号
2024-05-31
1680
上交大 & 上海 AI 实验室 & ViVO 强势推出 TerDiT ,极低比特量化感知训练和和高效部署方案 !!!
大规模预训练文本到图像扩散模型的进展导致了成功生成具有复杂性和对输入条件高保真的图像。特别是基于 Transformer 架构的扩散模型的出现,在这一研究领域中代表了重要的进步。与其他扩散模型相比,扩散 Transformer 已经展示了以更高的计算Gflops实现更低FID分数的能力[6]。近期的研究突显了扩散 Transformer 架构在图像生成能力方面的卓越表现,如Stable Diffusion 3[7]等方法,以及在视频生成方面,如Sora2所展示的出色性能。鉴于扩散 Transformer 模型的卓越性能,研究行人现在越来越多地研究这些视觉模型的扩展规律[8],这与大型语言模型(LLMs)相似。
集智书童公众号
2024-05-30
1980
西交大提出 SCMix | 随机复合混合,实现更低的误差边界,态地混合源图像和多目标图像,实现全局最优适应 !
尽管基于深度学习的方法在语义分割方面取得了显著的成就,但这些方法常常需要大量的逐像素标注数据。
集智书童公众号
2024-05-30
1110
​中科院提出 SSViT | 稀疏扫描视觉 Transformer,模拟人类视觉图像识别,显著提高性能,准确率 top-1 !!
自从Vision Transformer(ViT)[12]问世以来,它由于其在建模长距离依赖方面的卓越能力而吸引了研究界的广泛关注。然而,作为ViT核心的自注意力机制[61]带来了巨大的计算开销,从而限制了其更广泛的应用。已经提出了几种策略来减轻自注意力的这一局限性。
集智书童公众号
2024-05-29
1910
南开 & VIVO 提出MLoRE | 一种解码器中心的低秩专家混合多任务学习框架 !
计算机视觉任务,如语义分割[5, 30, 33, 55]和深度估计[2, 38],已经通过深度学习技术得到了显著促进。每个视觉任务都有其精细的深度模型,这些模型通常遵循类似的流程,即特征提取和预测。此外,一些任务之间也共享关系。这些事实激励研究者研究多任务学习(MTL),这种学习能够将不同的任务模型统一到单一模型中。多任务学习的主要优势在于,在保持每个任务模型性能相当的同时,能够提高训练和推理的效率。由于这一优势,MTL模型已经被应用于包括自动驾驶[24, 29, 56]和场景理解[50, 52]在内的多个方向。
集智书童公众号
2024-05-28
1940
YOLOv10开源|清华用端到端YOLOv10在速度精度上都生吃YOLOv8和YOLOv9
实时目标检测一直是计算机视觉研究领域的一个重点,旨在在低延迟下准确预测图像中物体的类别和位置。它被广泛应用于各种实际应用中,包括自动驾驶,机器人导航,物体跟踪等。近年来,研究行人一直致力于设计基于CNN的目标检测器以实现实时检测。其中,YOLOs因其性能和效率之间的巧妙平衡而越来越受欢迎。YOLOs的检测流程包括两部分:模型前向过程和NMS后处理。然而,这两者仍存在不足,导致次优的准确度-延迟边界。
集智书童公众号
2024-05-28
8800
​AdaAugment | 无需调优的自适应数据增强,仅引入了极少的参数和计算开销,性能 SOTA !
数据增强(DA)是减轻深度神经网络训练过程中过拟合的一种关键且非常有效的技术,这导致了更一般化和可靠的模型。然而,需要注意的是,现有的DA方法主要依赖于在训练过程中使用完全随机或人为设计的增强幅度,这可能导致次优的训练场景,并需要人类专家在给定新数据集时对超参数进行更多的调整工程。
集智书童公众号
2024-05-28
1800
训练高分辨率图像任务,突破 GPU 内存限制,Jetson Nano 上也能起飞!
图像识别领域近年来取得了巨大进步,这得益于像AlexNet ,ResNet ,ViT 和Swin家族这样的突破性架构。这些架构擅长处理像ImageNet [5]这样的数据集,这些数据集主要包含分辨率低于一百万像素的自然图像。然而,许多关键应用依赖于对高分辨率图像的分析,以提取有关感兴趣目标的复杂细节。
集智书童公众号
2024-05-28
2090
轻量级SegFormer3D | 重塑三维图像分割的内存高效Transformer架构,助力医学成像 !
的模型,使深度学习在三维医学图像分割领域民主化,与当前最先进(SOTA)模型相比。作者在三个广泛使用的Synapse、BRaTs和ACDC数据集上对SegFormer3D进行了基准测试,取得了具有竞争力的结果。 代码:https://github.com/OSUPCVLab/SegFormer3D.git。
集智书童公众号
2024-05-17
4070
基于 CO-DETR 的光照感知 Transformer架构 | 即使在极低光照条件下也能准确检测目标 !
在这场比赛中,作者采用了一种模型融合方法来实现接近真实图像的目标检测结果。 作者的方法基于CO-DETR模型,该模型在两组数据上进行训练:一组包含在暗条件下的图像,另一组包含用低光照条件增强的图像。 作者对测试数据使用了各种增强技术来生成多组预测结果。最后,作者应用了由IoU阈值引导的聚类聚合方法来选择最优结果。
集智书童公众号
2024-05-17
1820
RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层!
鉴于高发病率和死亡率,脑肿瘤是全球健康关注的重点问题。通过利用深度学习算法等最先进技术,自动化检测技术可以有效解决脑肿瘤识别的挑战。将自动化检测融入医疗流程,有望通过革新脑肿瘤的管理方式显著提高患者疗效和医疗服务,尤其是随着技术的发展。最先进的目标检测方法YOLO在估算每个网格单元的类别概率和边界框时,将输入图像划分为网格。
集智书童公众号
2024-05-17
3590
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档