首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签视频理解

#视频理解

多模态 AI 能力,全维度识别视频标签

单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG

机器之心

今天向大家介绍一项来自香港大学黄超教授实验室的最新科研成果 VideoRAG。这项创新性的研究突破了超长视频理解任务中的时长限制,仅凭单张 RTX 3090 G...

4600

年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布

机器之心

最近,ByteDance Research 的视频理解大模型眼镜猴(Tarsier) 迎来了巨大更新,发布了第二代模型 Tarsier2 及相关技术报告。研究团...

10510

TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

机器之心

近年来,已有很多基于深度神经网络的视频理解算法取得了较佳的性能,如 TSM、SlowFast、I3D、X3D、ViViT 等。然而,一个严重的问题是,相较于图像...

6700

基于 Transformer 架构视频理解的高效 Token 选择突破 !

AIGC 先锋科技

近年来,视频理解取得了显著的进步,接近解决了许多标准基准和任务。这一进展主要依赖于 Transformer 架构[36],它既非常强大,又非常耗计算资源。 Tr...

9310

中科院/中科大/芝加哥大学创新动态Token合并框架,无需微调,依然强大,零样本视频理解的突破性进展!

AIGC 先锋科技

最近多模态大型语言模型(MLLMs)的先进发展,为视频理解开辟了新的途径。然而,在零样本视频任务中实现高保真度仍然具有挑战性。

14910

HarmonyOS 开发实践 —— 基于XComponent的视频播放器高性能体验

小帅聊鸿蒙

onDataReceive回调中通过fs.writeSync传入沙箱文件的writeFd,将下载的数据流写入本地沙箱文件。

21610

AI视频监控技术的深度实现

思通数科

(1)多设备兼容:系统支持多种视频输入源,包括固定式摄像头、无人机、手机等,灵活适配车间的不同布局需求。

27610

基于AI的学生视频自动评审系统:技术架构与实现

思通数科

在传统的学生视频作品或电子申请材料审查过程中,教师需要逐个观看学生提交的视频内容,进行手动评估。这种方式在学生数量庞大的情况下,显得尤为繁琐且效率低下,且评审过...

12100

手机广告常见的10bit是什么?YUV444、YUV422、YUV420、YUV411是什么?

微帧Visionular

2)如何理解YUV444、YUV422、YUV420、YUV411?YUV420为何不命名为“更合理的YUV411”?

35310

视频帧里的I帧、P帧、B帧是什么?

微帧Visionular

I帧:intra picture,帧内编码帧。I帧通常是每个GOP的第一个帧,可以看作一个图像经过压缩后的产物,如上期所提到的HEIF图像压缩编码,实际就可理解...

39310

视频帧率和刷新率,是一回事吗?

微帧Visionular

视频插帧,指通过在原始视频的每两帧画面中增加一帧或多帧,缩短每帧之间的显示时间,修正人眼视觉暂留形成的错觉,从而提升视频的流畅度。帧是影像动画中最小单位的单幅影...

22910

视频为什么可以被压缩?帧内压缩与帧间压缩有何区别?视频编码中的CBR、VBR、CRF...是什么?

微帧Visionular

首先,视频是由一帧帧图像组成的,利用人眼视觉暂留的原理,使人眼产生了运动的感觉。每一帧的图像又由像素构成,分辨率决定了图像细节的精细程度,分辨率越高,像素越高,...

37710

什么是傅里叶变换?傅里叶变换处理图像的原理是什么?

微帧Visionular

傅里叶变换,最牛的算法之一,广泛应用于物理学、信号处理、概率、统计、密码学、声学、光学等领域。

31310

什么是图像噪声?是如何产生的?图像去噪技术都有哪些?

微帧Visionular

在一些图像中,像素值会在原始场景理想均匀的区域内变化,其原因要么是光子或其他信号的有限计数统计、在芯片内的电子偏移中引入的损耗;要么是放大器或电缆中出现了电子噪...

52310

视频编码格式和封装格式有什么关系?相机常见的编码格式有哪些?

微帧Visionular

业内有个很形象的比喻,可以带大家很快弄清楚封装格式和编码的关系:编码格式和封装格式的关系好比酒与酒瓶的关系,编码格式就像酒瓶里的酒,是视频的核心内容,封装格式就...

35610

英伟达 & MIT 提出 LongVILA ,从 8 帧到 1024 帧 如何实现长视频理解的飞跃 ?

AIGC 先锋科技

将多个模态理解的集成与长序列能力的集成非常重要。支持更多模态的基础模型可以接受更灵活的输入信号,使人们可以以更多样化的方式与模型进行交互,例如类似 GPT-40...

39210
领券