首页
学习
活动
专区
工具
TVP
发布

我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿,“有价值有深度”。www.52cv.net QQ群: 805388940
专栏成员
835
文章
858922
阅读量
62
订阅数
姿态估计开源模型、数据集分享
姿态估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点,如头部、肩膀、手臂、腿部等,并确定它们之间的关系,以推断出人体的姿势或动作。
CV君
2024-06-28
940
超分辨率开源库 GitHub 热门项目分享
随着图像和视频数据量的急剧增加,以及人们对高质量图像需求的不断提升,超分辨率技术也在不断发展,以满足实际应用的需求。本文将分享一些相关的开源库和数据集,希望能够帮助该领域的研究人员推进研究和应用。
CV君
2024-06-27
780
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。
CV君
2024-06-27
1410
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展,比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、Claude等,甚至在某些方面展现了超越人类的能力。然而,当前的评估主要集中在英文和中文的语言环境中,对于更具挑战的多语种环境,研究还相对缺乏。
CV君
2024-06-27
1350
CVPR竞赛冠军方案:复杂场景下的视频对象分割
由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛道获得冠军。
CV君
2024-06-27
1270
多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
多模态大语言模型(MLLMs)因其在视觉理解和推理方面的突出表现,例如生成详细的图像描述和回答复杂的问题等,逐渐成为近期AI研究的热点。
CV君
2024-06-27
1010
CVPR竞赛冠军方案:运动表达引导视频分割方法,代码及技术报告均已开源
在CVPR 2024 像素级视频理解(PVUW)挑战赛中,来自塔普智能(Tapall.ai)、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分割(MeViS)赛道上获得冠军。该团队提出的技术专为解析由自然语言表达引导的视频内容而设计,致力于提高视频分割的准确性和效率。
CV君
2024-06-27
860
智源和港中文联合提出首个多功能3D医学多模态大模型(文本、定位和分割任务)
智源和香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D 医学图像分析的发展。
CV君
2024-06-27
880
CVPR 2024 | 如何给 NeRF 开透视眼?
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/702702109。
CV君
2024-06-17
1990
Gemini在大考终于赢了GPT-4o!Jeff Dean连续转发三次!Video-MME首个视频多模态基准来了!
近日,中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。Gemini 1.5 Pro在这份榜单中遥遥领先,证明其在视频理解领域的霸主地位。Video-MME一经推出,更是被谷歌首席科学家Jeff Dean连续转发了三次!目前已有近30万的浏览量,热度很高。
CV君
2024-06-17
1840
ETH Zurich、A*STAR等联合工作:重新审视并改正小样本3D分割任务中的问题,新benchmark开启广阔提升可能性!
本文分享 CVPR 2024 论文Rethinking Few-shot 3D Point Cloud Semantic Segmentation,重新审视并改正小样本3D分割任务中的问题,作者来自 ETH Zurich 等联合团队。
CV君
2024-06-17
790
TPAMI 2024|DeepM2CDL:基于层级式多尺度卷积字典的多模态图像修复与融合网络
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/701844704。
CV君
2024-06-17
2730
全新Mobile-Agent-v2发布,自动化手机操作助手全面升级!
Mobile-Agent 于今年年初发布,凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,它已经在Github获得了2,000个Star。该系统采用纯视觉方案,通过视觉感知工具和操作工具完成智能体在手机上的操作,无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大,Mobile-Agent实现了即插即用,无需进行额外的训练和探索。
CV君
2024-06-17
1650
高 star 开源教程,包含八个 CV 项目实战教程,开源!
大家好,今天分享一个优秀的开源教程——超 20 万字的《PyTorch实用教程》(第二版),其第一版已经超 7.2K 颗星。
CV君
2024-06-17
1710
ClassDiffusion: 使用显式类别引导的一致性个性化生成
本篇分享论文ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance,由北交&字节联合提出 ClassDiffusion: 使用显式类别引导的一致性个性化生成。
CV君
2024-06-17
510
最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU
当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。
CV君
2024-06-17
720
北京大学 | 三维高斯溅射隐写术
本篇分享论文GS-Hider: Hiding Messages into 3D Gaussian Splatting,三维高斯溅射隐写术。
CV君
2024-06-17
790
CVPR2024 | 视频插帧视觉效果新突破!上海交大提出PerVFI,视频插帧新范式
分享一篇来自CVPR2024的视频插帧工作《Perception-Oriented Video Frame Interpolation via Asymmetric Blending》。
CV君
2024-06-17
2670
助力高保真跳舞视频合成,华科等推出可控视频生成新框架 UniAnimate
本文分享论文UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation,助力高保真跳舞视频合成,华科等推出可控视频生成新框架 UniAnimate。
CV君
2024-06-04
830
CVPR 2024 | 平衡效率与质量,南航提出新风格迁移算法Puff-Net
分享一篇CVPR 2024 图像风格迁移领域的一篇文章《Puff-Net: Efficient Style Transfer with Pure Content and Style Feature Fusion Network》,作者团队来自南航。
CV君
2024-06-03
2860
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档