首页
学习
活动
专区
圈层
工具
发布

#视频

2025年十大主流的视觉语言大模型(VLM)

OpenCV学堂

视觉语言模型(VLM)是同时处理图像和文本的人工智能系统。它们连接了计算机视觉(理解视觉数据的人工智能)与自然语言处理(理解语言的人工智能)。2025年最具影响...

1600

Meta 推出 SAM 3 和 SAM 3D 模型,效果逆天

OpenCV学堂

Meta宣布了视觉AI的下一次重大更新,推出了SAM 3和SAM 3D,推动其“Segment Anything”项目进入新世代。

700

SAM3| 文本+视觉概念 提示 分割一切

OpenCV学堂

SAM3 (Segment Anything Model 3) 是 Meta 用于可提示概念分割(PCS)的下一代基础模型。在SAM 2 的基础上,SAM 3 ...

1200

腾讯云重塑企业出海:全矩阵基础设施与AI驱动的新增长引擎

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

针对企业出海面临的内容成本高、跨国触达难及安全合

500

OpenCV4人脸识别详解与代码演示

OpenCV学堂

基于深度学习的人脸识别基本上分为两步完成,第一步是人脸检测与对齐;第二步是人脸特征提取与比对;在第一步中人脸检测与landmark检测,实现人脸对齐,对齐又分为...

1100

首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

OpenCV学堂

【导读】东北大学、武汉大学等的研究人员首次提出统一处理图像与视频的无监督领域自适应语义分割框架,通过四向混合机制(QuadMix)和光流引导的时空聚合模块,有效...

800

【模型免训】DINOv2+SAMv2打造基于参考样本的实例分割

OpenCV学堂

整个模型方法直接评估,无需微调,使用冻结的SAMv2+DINOv2模型在不同的数据集上均达到了少样本跟零样本的SOTA。表现出卓越的模型泛化能力与SOTA的实例...

1000

SAM2 | 从分割一切到一切视频分割与跟踪

OpenCV学堂

Mate在SAM的基础之上推出的多模态视觉大模型SAM2(Segment Anything Model 2)—一个致力于解决图像与视频可提示视觉分割任务的基础模...

1000

视频 | 教你学会五种典型大模型部署

OpenCV学堂

OpenVINO2025开发包C++/Python SDK全新实现深度学习模型与大模型部署,其中深度学习模型部署的流程如下:

1200

腾讯云OpenClaw与营销技术演进:从意图驱动智能体到全链路提效引擎

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

针对开源Agent落地与高并发营销场景的安全、成本及延迟瓶颈,腾讯云推出

2200

真正让人焦虑的不是AI,是什么-我们把它戳破

AustinDatabases

我一定不是最懂AI的博主,但我一定是非常懂得人性的博主,今天这篇文章特别想抚慰,且对一些不负责的AI博主,无论是视频,还是吹嘘AI可以代替人,让人走向无端焦虑的...

400

Claude能直接操控你的电脑微信了,这才是真正的上位小龙虾。

数字生命卡兹克

那我就想试一下,能不能用Agent搞个任务,来帮我搜索B站,找到影视飓风新视频的资料,然后发一下朋友圈推荐一下这个视频。

3300

刚刚,小云雀的短剧Agent上线了,背后是字节自己的Seedance 2.0。

数字生命卡兹克

但是呢,它就是模型,最长只能生成十五秒视频,而且每次生成视频都需要你重新贴参考,重新写提示词。

11800

第一个同时为人类和Agent设计的AI视频产品,它叫,LibTV。

数字生命卡兹克

因为LibTV自己能力的丰富性,所以,几乎你能想象到的一切,无论是写脚本、生图、改图、生视频、编辑视频、生成音乐等等。

3900

Claude悄悄更新了Skills生成器,这绝对是一次史诗级升级。

数字生命卡兹克

在之前有一篇文章中,我把Github上的yt-dlp做成了一个Skill,能从YouTube、B站等各种视频网站下载视频。

3200

短剧革命!港中文&快手发布ShotStream:16帧/秒实时生成电影级多镜头视频,可边拍边改

AI生成未来

推理。 ShotStream的推理过程与其训练过程完全一致。ShotStream以逐个镜头的方式生成多镜头视频。当生成每个新镜头时,通过从先前合成的历史镜头中采...

2400

2张显卡即可20FPS流式生成!SoulX-LiveAct开启“小时级”实时数字人交互新时代

AI生成未来

目前的自回归(AR)扩散模型在视频生成上展现了巨大潜力,但在迈向“小时级”甚至“无限时”实时交互时,面临着两大瓶颈:

2300

炸裂!单卡实时生成分钟级长视频,北大&字节联合推出14B大模型Helios,速度碾压1.3B

AI生成未来

GitHub: https://github.com/PKU-YuanGroup/Helios 项目主页: https://pku-yuangroup.gith...

2000

真“六边形战士”!Capybara把图像视频全打通:一个模型搞定T2I、T2V、I2V!

AI生成未来

作者:该工作出自华为小艺香港研究团队,该团队长期聚焦视觉生成、理解与Agent相关领域。

1400

Nano Banana 和 Seedance 提示词去哪找?这 6 个地方够用了

Immerse

最近 Nano Banana 升级了,画风和之前不太一样,加上 Seedance 也出了视频生成的提示词,整理了一波资源分享出来

2800
领券