首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

作者头像
机器之心
发布于 2025-02-03 06:43:03
发布于 2025-02-03 06:43:03
1860
举报
文章被收录于专栏:机器之心机器之心

近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。

浙大和阿里巴巴达摩院联合提出一个图文交织的多模态知识语料:他们收集互联网上超过 22000 课时 (两年半) 的教学视频,提取关键步骤的画面和音频(转录成文本),组织成连贯、图文交织的格式,制作成数学,物理,化学等多个学科的图文教科书 (textbook)。基于这些 textbook,VLMs 可以像人类上课一样学习这些图文交织,由易至难的学科知识。

  • 论文地址: arxiv.org/abs/2501.00958
  • Code: https://github.com/DAMO-NLP-SG/multimodal_textbook

该研究还登上了huggingface dataset trending榜单,不到两周下载量已经7000+。

1. 背景和动机

当前多模态大模型(VLMs)的预训练语料主要有两种形式:图像 - 文本对语料以及图文交织语料:

  • 图文对数据 (image-text pair corpus):多模态模型通常依赖大量图文对数据进行预训练,这种数据能快速对齐图像与文本。
  • 图文交错数据集 (image-text Interleaved corpus):如 MMC4, OBELICS 等数据集,它们引入了更加自然,更加灵活的图文任意交织形式。这些语料由穿插着图像的文本段落组成,通常是从网页和文档(如 Common Crawl)中抓取的。与图像 - 文本对数据相比,图文交错语料库使 VLMs 能够更自然地处理任意输入,像人类一样理解世界。

然而当前的 interleaved corpus 大多爬取自网页或者文档,存在以下问题:

(1)文本与图像关系松散:网页中的图像和文本之间的关联通常很松散,甚至可能包括不相关的图像,例如徽标或广告。

(2)图像序列缺乏逻辑连贯性:大多数网页包含的图像相对较少,更重要的是,图像之间的逻辑关系往往很模糊,使得学习复杂的视觉推理变得困难。

(3)知识密度低:抓取的网页不可避免地包括新闻、娱乐和广告推荐等内容,很少涉及专业知识,即知识密度较低。

因此,探索如何构建高质量、教科书级别的 interleaved 数据集是非常必要的。此外我们还注意到互联网中存在的海量的教学视频 (例如 Youtube 上的在线课程),这些视频包含丰富的知识,人们经常使用这些视频来学习基础学科知识,但这些宝贵资源在 VLMs 训练中仍未得到充分利用。基于此,我们思考如何让 VLMs 像人类一样,利用这些教学视频进行高质量的预训练,从而提升其知识水平和推理能力。为实现这一目标,关键在于将这些教学视频转化为教科书级别的图文交织训练语料。

2. 方法:如何利用教学视频构建高质量的知识语料

2.1 LLM 辅助分门别类地收集教学视频

  • 知识分类体系的构建:我们创建了一个四层的知识分类体系,包括学科(Subject)、课程(Course)、子课程(Sub-course)和知识点(Knowledge Point),然后使用 LLM 来自动构建这个分类体系。
  • 涵盖数学、物理、化学、地球科学、工程学和计算机科学六大学科,共计 55 门课程,细化为 3915 个知识点。
  • 示例:数学(学科) → 小学数学(课程) → 有理数与无理数 (子课程) → 无理数的定义 (知识点)。
  • 教学视频的收集和过滤:
  • 以构建的知识体系中的每个知识点为检索关键词,利用在线视频网站 (例如 YouTube) 的 API 搜索相关教学视频的元数据,每个知识点保留排名靠前的 50 个视频。然后我们利用 LLM 对所有视频元数据进行审查 (视频标题,简介,评论等),过滤不合适的视频,并且去除重复的视频。

2.2 Video-to-Textbook Pipeline

为了将教学视频转化为多模态教科书,我们设计了一个多层级的处理流程,包括 video-level、clip-level 和 keyframe-level,确保数据的高质量和知识的密集性。

(1) Long Video-Level

  • 音频提取与转录(ASR):使用 FFmpeg 提取音频,并通过 Whisper 模型进行转录,将视频的讲解转化为文本。
  • 转录文本质量:由于教程语音的口语化特点,ASR 文本的困惑度(PPL)较高。我们通过 LLM 重写转录文本,提升其流畅性与连贯性,同时保持原始语义不变。
  • 视频质量评估:通过 LLM 对转录文本进行分析,按以下标准过滤低质量视频:
  • 相关性:确保转录文本与目标知识点匹配,剔除与教学内容无关的视频(如广告、综艺片段)。
  • 知识密度:剔除知识点稀疏、包含大量无意义填充词的视频,如 “嗯”“然后我们得到这个” 等口语表达。
  • 转录质量:删除 Whisper 转录质量较低的文本,例如重复、识别错误的文本。

最终我们保留了 75,000 个高质量教学视频和对应的 ASR。

(2)Video Clip-Level

  • 视频分割:为实现文本与帧的时间对齐。我们现合并多个 ASR 片段,形成具有完整语义的句子。然后利用合并后的 ASR 的时间戳将长视频切分为 10-20 秒的短片段 (video clip),每个 video clip 包含一段语音文本和对应的视频帧。
  • 视觉知识和文本知识匹配:
  • 使用 VideoLlama2 为每个 video clip 生成详细描述 (caption);
  • 计算 video clip 的 caption 与 ASR 文本的相似度,剔除视觉内容与文本内容不匹配的片段,或者剔除无信息量的 clips(例如如过渡场景,仅有演讲者的画面或者严重遮挡的画面)。这些 clips 的视觉信息虽然过滤了,但是对应的 ASR 依然保留在 textbook 中。

(3)Keyframe-Level

  • 关键帧检测:通过计算连续帧之间的结构相似性( Structural Similarity Index, SSIM),提取视觉变化显著的帧,迭代式地过滤掉重复或冗余的画面。
  • OCR 文本提取:由于教学视频中常包含文本、公式和符号等重要知识,我们使用先进的 VLMs(如 InternVL)对关键帧进行 OCR,这些内容往往蕴含重要的教学知识,作为 ASR 的补充。

最后,我们将处理后的关键帧、OCR 文本和 ASR 转录按时间顺序排布,交错组织成多模态教科书。

3. 数据集统计和分析

  • 教学视频和知识点统计

我们收集了 15.9 万个教学视频,经过元数据审查,去重和 ASR 过滤后保留了 7.5 万个长视频,视频总时长超过 22000 小时 (2.5 年)。这些教学视频囊括数学,物理,化学,地科,工程,计算机六大学科,3915 个知识点。

  • Textbook 统计

经过 video-to-textbook pipeline,我们生成了 6.5M 个关键帧、258M ASR tokens 和 500M OCR tokens。我们将其拼接成 610k 个样本,每个样本平均包含 10.7 张图片,1297 个 text tokens。我们观察到样本内图像之间的相似度显著高于先前的 interleaved dataset,例如 MMC4 和 OBELICS。这体现了我们的 textbook 语料中图片之间关系更紧密,知识密度更高。

4. 实验和分析

4.1 实验设置

我们使用主流的多模态模型 LLaVA-1.5-7B 和 Idefics2-8B 作为基座模型,对比 textbook 数据集与 webpage-centric interleaved datasets (MMC4 和 OBELICS) 的持续预训练的效果。

4.2 持续预训练的实验效果

模型性能提升显著:在 Textbook-6.5M 上预训练后,LLaVA-1.5 和 Idefics-8B 在多个基准上表现出显著改进。在 0-shot 到 4-shot 设置下,分别提升了 +3.2%、+8.3%、+4.0% 和 +4.6%。即使对于像 Idefics2 这样的原本支持图文交织输入的 VLM,该 textbook 仍带来了额外 +1.4% 的提升,突出了其丰富的知识内容和高数据质量。

在知识和推理基准上优势明显:在知识导向和推理相关基准上,该数据集相比其他数据集改进显著。例如在 ScienceQA 上,与 MMC4 相比,零样本和少样本设置下均有超过 20% 的提升。在 MathVista 等数学相关基准上,与 OBELICS 相比,平均改进 +5.3% 和 +6.4%。

4.3 “作弊测试” 检验上下文感知 (in-context awareness) 能力

  • 我们设计了一个作弊测试(cheat test) 来测试 VLMs 是否能有效感知图文交织的上下文。
  • Cheat-test: 我们将 few-shot example 中的某个示例替换成测试样本,观察模型是否能快速识别 prompt 中的已经包含了测试样本。
  • Cheat-test 显示在 1-shot 和 2-shot 场景下,相比 MMC4 和 OBELICS,textbook 有近 20% 的显著优势。这表明来自视频的 textbook 训练语料让 VLMs 能更关注输入图文交织的 context,并且能利用 context 中的线索回答问题。例如在 MathVista 任务中,Textbook 训练的模型在 1-shot 设置下准确率达到 94.1%,远超 MMC4 的 72.6%。

4.4 其他实验

除了上述实验,作者还研究了数据集中图像顺序的影响,指令微调后下游任务性能,以及一系列的消融实验。通过这些实验表明了数据集的高质量。

总结和展望

我们引入了一种多模态教科书来预训练视觉语言模型,使它们能够以自然且图文交织的方式学习专业知识。通过收集海量的在线教育视频并将其转换为关键帧 - 自动语音识别(ASR)交错数据集,这本教科书提供了一个更加连贯且相互关联的学习语境,补充了传统的图像 - 文本对齐方法。实验证明了其有效性,特别是在 VLMs 的上下文感知和数学推理等方面。此外,这些 textbook 语料不仅仅可以用来做多模态的理解,未来还可以探索利用它们实现任意模态的连续生成,实现更好的世界模型。

作者介绍

本文一作是张文祺 (浙江大学博士生),他的研究基础是基于大模型智能体,多模态模型等,开发了数据分析智能体 Data-Copilot,在 github 上获得超过 1400 stars。共同通讯包括鲁伟明 (浙江大学副教授),李昕(阿里巴巴达摩院算法工程师),其中李昕和张航(本文二作)主导开发了 VideoLlama 系列视频理解模型。其他作者包括浙江大学庄越挺教授,赵德丽(阿里巴巴达摩院基础智能中心主管), 邴立东(达摩院语言技术实验室主管),沈永亮(浙大百人计划研究员),孙嘉硕 (达摩院算法工程师)。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
多模态大型语言模型(MLLMs)在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似,最近的视频理解模型也探索了类似的流程,在大规模视频-文本数据上对LLMs进行微调。然而,这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。
AIGC 先锋科技
2024/07/08
5660
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
论文解读 - 统一的多模态理解和生成模型综述(下)
大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如Common Crawl 1、RedPajama、WebText等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表3中列出的每个类别中的代表性数据集,重点关注2020年以后发布的数据集。
合合技术团队
2025/05/30
2460
论文解读 - 统一的多模态理解和生成模型综述(下)
多模态大语言模型研究进展!
多模态大型语言模型(MM-LLMs)在过去一年取得了显著进步,通过优化模态对齐和与人类意图对齐,增强了现成的单模态基础模型(LLMs)以支持各种MM任务。本文对MM-LLMs进行了全面综述,包括模型架构和训练流程的概述,以及122个最新进展的MM-LLM分类系统。
算法进阶
2024/07/22
3840
多模态大语言模型研究进展!
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
多模态学习近期在大型语言模型的推动下,已经在图像文本对话和文本到图像生成任务上取得了进展。这激发了向视频理解和生成任务的转向,允许用户在视频和语言模态间进行交互。因此,桥接前述模态的详细且高保真的视频标题对于推进该领域的发展至关重要。
AIGC 先锋科技
2024/07/08
5430
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
蚂蚁:多模态方向的技术探索
视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向,一个是视频-文本的语义检索,另外一个是视频-视频的同源检索。
NewBeeNLP
2024/06/04
4090
蚂蚁:多模态方向的技术探索
多模态AI的未来:从文本到视频的智能融合
随着人工智能技术的迅猛发展,多模态AI正逐渐成为研究和应用的热点。多模态AI通过融合文本、图像、音频和视频等多种数据模态,能够更全面地理解和生成信息,为各行各业带来新的机遇。本文将深入探讨多模态AI的未来发展方向,特别是从文本到视频的智能融合,并通过详细代码实例展示其技术实现。
江南清风起
2025/03/24
3220
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
6.8K0
【论文解读】多模态大模型综述
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型,致力于推进构建具有大规模视觉语言助手的(LLaVA)[83]研究,该助手可以适应各种指令,在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法,它通常通过连接视觉编码器与大规模语言模型(LLM)来实现。
AIGC 先锋科技
2024/08/14
1.6K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
每周AI论文速递(241230-250103)
OpenAI 的 GPT-4 突破突显了通过增强推理能力来改进大语言模型的潜力。然而,大多数关于推理的研究都集中在数学任务上,而像医学这样的领域则研究较少。尽管医学领域与数学不同,但由于医疗保健的高要求,它同样需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理更具挑战性。为了解决这个问题,我们提出了可验证的医学推理问题,并使用医学验证器来检查模型输出的正确性。这种可验证性通过两阶段方法促进了医学推理的发展:(1) 使用验证器指导搜索复杂的推理轨迹以微调大语言模型,(2) 应用基于验证器奖励的强化学习 (RL) 来进一步增强复杂推理。最后,我们介绍了 HuatuoGPT-o1,这是一种能够进行复杂推理的医学大语言模型,仅使用 40K 个可验证问题就超越了通用和医学专用基准模型。实验表明,复杂推理提高了医学问题解决能力,并且从强化学习中获得更大的提升。我们希望我们的方法能够激发医学和其他专业领域推理的进步。
叶子的技术碎碎念
2025/04/08
1040
每周AI论文速递(241230-250103)
一文速览:大模型语料构建与基础训练全流程实战指南
大模型的强大,并不是凭空而来的。简单来说,一个大模型的表现取决于三个关键因素,算力:通俗地讲就是计算机能“算多快”,决定了模型训练的速度和规模。算法:也就是模型本身的设计方法,就好像一辆汽车的发动机,决定了性能上限。数据:好比汽车的燃料,数据质量越高、越丰富,模型表现也就越好。这三者就像三足鼎立,共同决定了大模型的上限。
fanstuck
2025/07/16
3694
一文速览:大模型语料构建与基础训练全流程实战指南
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多数自然语言处理(NLP)任务中表现出了令人惊讶的Zero/Few-Shot推理性能,但它们天生对视觉“视而不见”,因为它们只能理解离散文本。
集智书童公众号
2023/09/04
13.7K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
他山之石 | 阿里多模态知识图谱探索与实践
随着知识图谱技术的发展,其在电商、医疗、金融等领域得到了越来越广泛的应用。在过去的几年间,我们团队一直致力于探索知识图谱在新零售问答和直播场景的应用,提出了阿里小蜜新零售多模态知识图谱AliMe MKG(AliMe指图谱建设时期团队的名称阿里小蜜,MKG是多模态知识图谱的缩写)。本次报告将介绍过去一年多我们在多模态知识图谱方面的探索与实践工作,主要分为以下三个方面:
NewBeeNLP
2022/11/11
1.3K0
他山之石 | 阿里多模态知识图谱探索与实践
多模态大模型技术原理与实战(4)
以 CNN 为图像编码器,以 RNN为文本解码器,编码器和解码器之间依靠图像的隐状态连接
顾翔
2024/09/10
1910
多模态大模型技术原理与实战(4)
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
近年来,大型语言模型(LLM)在各种语言任务中表现出优越的能力。它们吸引人的特性,如遵循指令、零样本泛化和少样本上下文学习,激励研究行人将它们与视觉模型结合,构建视觉语言模型(VLMs)以应对多模态任务。很多工作 已经投入到了这个领域,在视觉语言理解基准测试上取得了显著的性能提升。在这些工作中,视觉输入通过像CLIP [58]这样的视觉基础模型映射到LLMs的语义空间,通过包括文本图像对齐训练目标来将两种模态联系起来。
AIGC 先锋科技
2024/09/30
3940
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
自从Stable Diffusion和Midjourney爆火之后,人们见识到了人工智能技术在图片生成领域的强大实力。
新智元
2023/09/09
4630
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
但随着各大视频网站和短视频的兴起,用户在互联网上浏览视频的数量近年来显著增加,并且视频创作的质量、分辨率和内容多样性也越来越高!
新智元
2021/12/27
1.2K0
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
继Sora官宣之后,多模态大模型在视频生成方面的应用简直就像井喷一样涌现出来,LUMA、Gen-3 Alpha等视频生成模型展现了极佳质量的艺术风格和视频场景的细节雕刻能力,文生视频、图生视频的新前沿不断被扩展令大家惊喜不已,抱有期待。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
机器之心
2024/06/27
2350
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
作者 | ai4happiness 相关链接 | https://zhuanlan.zhihu.com/p/660567767
AIWalker
2023/11/07
9510
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
每周AI论文速递(241202-241206)
尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其对多样化操作目标(如效率、安全性和任务完成度)的适应性。为此,我们提出 GRAPE: 通过偏好对齐泛化机器人策略。具体来说,GRAPE 在轨迹层面对齐 VLA,并从成功与失败试验中隐式建模奖励,以提升对多样化任务的泛化能力。同时,GRAPE 将复杂任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点,利用定制时空约束自动引导偏好建模。这些约束灵活,可根据不同目标(如安全性、效率或任务成功)进行定制。我们在真实与模拟环境中广泛评估 GRAPE。实验显示,GRAPE 显著提升最先进 VLA 模型的性能,领域内与未见任务的成功率分别提高 51.79% 和 60.36%。此外,GRAPE 可与多种目标对齐,如安全性与效率,分别降低碰撞率 44.31% 和轨迹步长 11.15%。所有代码、模型及数据均可在 https://grape-vla.github.io/ 获取。
叶子的技术碎碎念
2025/04/08
1100
每周AI论文速递(241202-241206)
最新!斯坦福 多模态医疗模型:Med-Flamingo,支持Few-shot问答,模型开源!
 就医学而言,它涉及各个方面知识,需要整合各种信息。医学生成视觉语言模型(VLM)朝这个方向迈出了第一步,并有望带来更多的临床应用。然而,现有模型通常需要基于大量的下游数据集进行微调,这对于医学领域来说是一个相当大的限制。因为在许多医疗应用中数据稀缺,所以需要模型能够从Few-shot进行学习。
ShuYini
2023/09/14
2.4K0
最新!斯坦福 多模态医疗模型:Med-Flamingo,支持Few-shot问答,模型开源!
推荐阅读
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
5660
论文解读 - 统一的多模态理解和生成模型综述(下)
2460
多模态大语言模型研究进展!
3840
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
5430
蚂蚁:多模态方向的技术探索
4090
多模态AI的未来:从文本到视频的智能融合
3220
【论文解读】多模态大模型综述
6.8K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
1.6K0
每周AI论文速递(241230-250103)
1040
一文速览:大模型语料构建与基础训练全流程实战指南
3694
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
13.7K0
他山之石 | 阿里多模态知识图谱探索与实践
1.3K0
多模态大模型技术原理与实战(4)
1910
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
3940
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
4630
高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集
1.2K0
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
2350
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
9510
每周AI论文速递(241202-241206)
1100
最新!斯坦福 多模态医疗模型:Med-Flamingo,支持Few-shot问答,模型开源!
2.4K0
相关推荐
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档