暂无搜索历史
姿态估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点,如头部、肩膀、手臂、腿部等,并确定它们之间的关系,以推断出人...
随着图像和视频数据量的急剧增加,以及人们对高质量图像需求的不断提升,超分辨率技术也在不断发展,以满足实际应用的需求。本文将分享一些相关的开源库和数据集,希望能够...
本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。
近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展,比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonke...
由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛...
多模态大语言模型(MLLMs)因其在视觉理解和推理方面的突出表现,例如生成详细的图像描述和回答复杂的问题等,逐渐成为近期AI研究的热点。
在CVPR 2024 像素级视频理解(PVUW)挑战赛中,来自塔普智能(Tapall.ai)、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分...
智源和香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D ...
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/702702109。
近日,中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。Gem...
本文分享 CVPR 2024 论文Rethinking Few-shot 3D Point Cloud Semantic Segmentation,重新审视并改...
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/701844704。
Mobile-Agent 于今年年初发布,凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,它已经在Github获得了2,00...
大家好,今天分享一个优秀的开源教程——超 20 万字的《PyTorch实用教程》(第二版),其第一版已经超 7.2K 颗星。
本篇分享论文ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Gu...
当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。
本篇分享论文GS-Hider: Hiding Messages into 3D Gaussian Splatting,三维高斯溅射隐写术。
分享一篇来自CVPR2024的视频插帧工作《Perception-Oriented Video Frame Interpolation via Asymmetr...
本文分享论文UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Ima...
分享一篇CVPR 2024 图像风格迁移领域的一篇文章《Puff-Net: Efficient Style Transfer with Pure Content...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业