首页
学习
活动
专区
圈层
工具
发布

#视频

每周AI论文速递(251117-251121)

叶子的技术碎碎念

本报告介绍了 Kandinsky 5.0,这是一个面向高分辨率图像和 10 秒视频合成的尖端基础模型系列。该框架包含三大核心模型:Kandinsky 5.0 I...

1500

Android MediaCodec 编解码

木易士心

Android MediaCodec 是 Android 系统提供的底层 API,用于访问设备的硬件(或软件)编解码器,实现高效、低功耗的音视频编码和解码。它是...

1400

会见SDK文档

木易士心

获取SDK, SRPaasSDK⽬录中包含lib/SRPAAS_Video_v5.x.x.aar;

400

宽带被停?手机发烫?深扒PCDN技术内幕,这是一场省钱与封号的猫鼠游戏

悠悠12138

Google搞的WebRTC也是个大杀器。WebRTC本来是做浏览器音视频通话的,自带了极其牛逼的NAT穿透能力和拥塞控制算法(GCC)。很多网页版的PCDN(...

5910

告别文字想象!快手可灵团队开源VANS:实现从“语言描述”到“动态演示”跨越,多项SOTA

AI生成未来

论文链接:https://arxiv.org/pdf/2511.16669 项目链接:https://video-as-answer.github.io/ 代码...

3500

超越Sora、Veo和Wan!开源生成式AI新里程碑Kandinsky 5.0重磅发布:从2B到19B全覆盖!

AI生成未来

在过去几年中,扩散模型及其后续的流匹配方法在图像生成领域引发了质的飞跃,实现了前所未有的合成质量和多样性。这一基础促使了商业和开源系统的快速发展,为用户提供了从...

3510

保姆级教程:3分钟带你轻松搭建N8N自动化平台!(内附视频)

磊哥

很多同学想用 n8n 做工作流自动化,但又担心数据安全或者不想付订阅费。没关系,咱们直接部署在自己电脑上,数据自己通过 MySQL 掌握,稳得很!

12310

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

机器之心

当前,视频生成模型性能正在快速提升,尤其是基于Transformer架构的DiT模型,在视频生成领域的表现已经逐渐接近真实拍摄效果。然而,这些扩散模型也面临一个...

8510

超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025

机器之心

对此,视频编码通过消除时空冗余、量化视觉不敏感信息,将视频码率压缩至 1/100~1/1000,使短视频、直播、视频会议、云游戏等应用成为可能。从经济角度看,视...

5310

分割一切并不够,还要3D重建一切,SAM 3D来了

机器之心

深夜,Meta 有了重大更新,接连上线 SAM 3D、SAM 3(Segment Anything Model,SAM)。

8110

视觉-语言-动作三模态融合新突破:villa-X让机器人像人一样“看懂就会做”

一点人工一点智能

导读:视觉-语言-动作(Vision-Language-Action, VLA)模型已成为机器人操作策略学习中的重要范式,能够根据语言指令执行任务并泛化至新场景...

10810

视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt

机器之心

本工作由第一作者在字节跳动智创北美团队实习期间完成。第一作者卞宇轩目前为香港中文大学计算机科学与工程系博士二年级学生,研究方向为可控视频生成,师从徐强教授,并曾...

9710

李飞飞的创业公司放大招:只要一个 H100 就能跑世界模型

深度学习与Python

相比视频生成模型,世界模型不仅生成图像或视频,还能够理解和预测环境的动态,支持智能体做出决策。

8210

Gemini 3 预热了这么长时间终于发布了

扶墙老师

Gemini 3 的发布可能太重量级了 (https://blog.google/products/gemini/gemini-3) , 把cloudflare...

12210

论 视觉大模型(VLLM)在实时视频流分析中的应用

JanYork_简昀

在过去十年中,视频理解技术经历了从离线分析、单点识别,到实时检测、多任务协同,再到大模型驱动的视频智能体(Video AI Agents)的快速演进。随着算力成...

36610

怎么用上Gemini 3 pro? 附提示词

疯狂的KK

11 月 18 日,Google 正式发布了 Gemini 系列的最新旗舰模型——Gemini 3.0(首发版本为 Gemini 3 Pro)。这不仅仅是...

61940

每周AI论文速递(251110-251114)

叶子的技术碎碎念

我们推出Lumine,这是首个用于开发通用AI智能体的开放方案,能够在挑战性3D开放世界环境中实时完成长达数小时的复杂任务。Lumine采用类人交互范式,以视觉...

11310

每周AI论文速递(251006-251010)

叶子的技术碎碎念

分层推理模型 (HRM) 是一种创新方法,它采用两个小型神经网络,以不同的递归频率运行。这种受生物学启发的技术,在数独、迷宫和 ARC-AGI 等复杂谜题任务中...

12010

Gemini 3实测:综合最强、代码最强、数学最强、多模态最强的六边形 AI 来了?

腾讯云开发者

由于多模态能力明显提升,它可以辅助你判定视频中的内容并进行解析。比如可以对匹克球比赛视频进行技术分析,识别技术动作中的可优化环节,并据此制定系统性的动作改进训练...

7.5K50

读懂5G新通话:可能是AI落地千行万业的首个全民级场景

Alter聊科技

其中最重要的创新,无疑是DC通道——在VoNR音视频通道的基础上,建立了一个新的数据通道,可以传送图片、音频、视频、文件、网页、菜单、表情、位置、涂鸦、AR/V...

13510
领券