就像游戏行业每年有TGA、有各大博主自己的年度游戏,影视圈有各种博主自己的纯主观金菊花、金扫帚奖等等。
论文链接:https://arxiv.org/pdf/2512.22096 开源代码:https://github.com/stdstu12/YUME 工程...
图1 KlingAvatar 2.0生成生动、保持身份的数字人类,具备精准的摄像头控制、丰富的情感表达、高质量的动作以及精准的面部-唇部和音频同步。它实现了音频...
前段时间,旧金山大停电,Waymo 无人驾驶出租车集体趴窝,但依靠 FSD 系统驱动的特斯拉汽车丝毫不受影响。
第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及...
未来,包括 TurboDiffusion 在内的视频生成加速技术势必会更加成熟,我们可以想象更长时长的 1080p 甚至 4k 分辨率的视频同样可以做到实时生成...
近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。
视觉生成模型的安全研究长期聚焦于文本到图像(T2I)单模态场景,而图生视频(I2V)技术的兴起,正带来多模态协同与维度升级的双重核心挑战。文本 - 图像输入的跨...
本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者...
研究团队收集了大量公开可获取的、带有「手柄操作叠加显示」的游戏视频。这些叠加层具有高度多样性,给数据处理带来了显著挑战:不同内容创作者使用的手柄类型差异很大(如...
本研究的共同第一作者是来自于香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。
新加坡国立大学团队提出的EgoTwin框架,基于扩散Transformer实现了第一视角视频与人体动作的联合生成。该模型通过三模态注意力机制捕捉“文本-视频-动...
在传统的多角色视频中,一个常见的问题是 "张冠李戴"—— 明明是给 A 角色的音频,结果 B 角色的嘴也在动。这种混乱让观众瞬间出戏,破坏了整个视频的沉浸感。K...
2025 年,虚拟试衣已成为电商行业不可或缺的核心环节,从技术落地到商业变现,全行业都在加速布局这一赛道。那什么是虚拟试衣?其背后的核心技术方案有哪些?国内外电...
NotebookLM是更直观的例子。今年推出了“Deep Research”功能。你可以上传论文、财报、甚至视频,它会像一个研究助理一样帮你总结、对比、提问。一...
那么我们能不能设计一个循环,既能在排序的过程中满足gap的动态变化,又能使gap的最后一次取值为 1 呢?
根据我们的参数可以知道,我们每8帧就需要存储一次,自然就需要一个循环来不停的存储我们的
腾讯 | 前端开发工程师 (已认证)
自从上次发布了WebCut的开源信息之后,获得了非常多小伙伴的关注,也有很多小伙伴还不知道,所以我打算写一些更新进度文章,让关注的小伙伴了解WebCut的最新进...
朋友们晚上好啊,这段时间我在忙着完成最新的开源项目WebCut。这个项目是我这小半年来唯一的开源新项目,这对比我过去几年的一些开源事迹来说,真的是一段低产荒。不...
本篇内容较长,本来可以作为一篇付费内容,但是作为爱分享的人,希望和小伙伴们,一起见证用AI改变我们的生意模式。请提前收藏,分享转发,慢慢阅读。