部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一篇推文看一年!Jim Fan力荐2025必读清单:50篇论文,扫盲「全领域AI实战」

一篇推文看一年!Jim Fan力荐2025必读清单:50篇论文,扫盲「全领域AI实战」

作者头像
新智元
发布于 2025-02-15 08:40:19
发布于 2025-02-15 08:40:19
1160
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:LRS

【新智元导读】10个AI领域,50篇精品论文,每周看一篇,到2026就能成「AI工程」专家!

别再反复看Transformer之类的古董级论文了,该更新论文清单了!

现行的AI从工程技术角度可以分为十个领域:前沿大模型、基准评估、提示思维链、检索增强生成、智能体、代码生成、视觉、声音、图像/视频扩散、微调,每个领域选出5篇代表作和相关工作,看完+实践=AI全栈大神!

前沿大模型

OpenAI发布的ChatGPT把大模型带入普通消费者的日常生活中,旗下的GPT系列模型也一直是行业标杆,其中GPT1/2/3, Codex, InstructGPT, GPT4都有论文,GPT3.5, 4o, o1和o3只有相关的宣发活动。

GPT-4论文链接:https://arxiv.org/pdf/2303.08774

Claude 3和Gemini算是OpenAI最大的竞争对手,其论文也值得一读;模型的最新迭代版本为Claude 3.5 Sonnet和Gemini 2.0 Flash/Flash Thinking/Gemma 2.0。

论文链接:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

另一个分支是开源模型Llama家族,可以分为1/2/3代;家族树下的其他子模型还包括Mistral 7B, Mixtral和Pixtral。

论文链接:https://arxiv.org/pdf/2407.21783

爆火的DeepSeek V1, Coder, V2, V3在开源大模型也有一席之地,以低成本高效率著称。

论文链接:https://arxiv.org/pdf/2401.02954

最后是Apple Intellgence论文,在Mac和iPhone上都有部署。

论文链接:https://arxiv.org/pdf/2407.21075

其他非最前沿的模型也值得了解,包括AI2(旗下的Olmo、Molmo、OlmOE、Tülu 3、Olmo 2)、Grok、Amazon Nova、Yi、Reka、Jamba、Cohere、Nemotron、Microsoft Phi、HuggingFace SmolLM等;Mamba1/2和RWKV有可能在未来发力。

基准和评估

MMLU Pro, GPQA Diamond和BIG-Bench Hard是顶尖AI实验室常用的知识基准评估。

MMLU-Pro论文链接:https://arxiv.org/pdf/2406.01574

MuSR主要评估自然语言叙事中的多步软推理任务,特点是长上下文,其他基准包括LongBench, BABILong和RULER

论文链接:https://arxiv.org/pdf/2310.16049

MATH基准主要关注数学竞赛,包括12500个高难度数学题目,每个问题都有完整的逐步解决方案,前沿研究主要关注其子集MATH level 5, AIME, FrontierMath, AMC10/AMC12

论文链接:https://arxiv.org/pdf/2103.03874

IFEval评估语言模型的指令遵循能力,主要关注「可自动验证的指令」,比如「写超过400字」和「至少提到人工智能3次」等。总共有25个指令类型,构建了越500个提示;其他可用基MT-Bench

论文链接:https://arxiv.org/pdf/2311.07911

ARC AGI用一组抽象和推理语料库(Abstraction and Reasoning Corpus),模拟人类来测试模型的智能程度。

论文链接:https://arxiv.org/pdf/1911.01547

提示、上下文学习(ICL)和思维链

马里兰大学、OpenAI、斯坦福等13个机构的研究人员发布的「提示词报告」,对提示技术进行分类,提供了提示工程的最佳实践和指南,算是目前最全面的提示工程综述报告。

论文链接:https://arxiv.org/pdf/2406.06608

思维链(Chain-of-Thought):在足够大的语言模型中,只需要在提示词中加入特定模版,就能引导大模型逐步思考,就能在各种算术、常识和符号推理任务上实现更高的性能,甚至比微调还管用。

论文链接:https://arxiv.org/abs/2201.11903

思维树(Tree of Thoughts)克服了思维链只能基于token的、从左到右决策的缺陷,使得语言模型可以通过考虑多种不同的推理路径和自我评估选择来决定下一步行动,从而进行有意识的决策,并在必要时进行前瞻或回溯以做出全局选择;

论文链接:https://arxiv.org/pdf/2305.10601

Prompt Tuning不对模型参数进行调整,而是通过反向传播学习「软提示」,可以将冻结的模型用于多个下游任务。

论文链接:https://aclanthology.org/2021.emnlp-main.243.pdf

自动提示工程师(APE)能够避免人工编写低质量提示词带来的性能影响,在指令候选池中进行搜索优化,可用于自动生成和选择指令,最终在19/24个任务上实现了比人类标注指令的性能更好。

论文链接:https://arxiv.org/pdf/2211.01910

检索增强生成(RAG)

RAG是2024年AI工程的核心,主要难点在于信息检索,可用的技术包括TF-IDF, BM25, FAISS, HNSW等。

2020年,Meta首次提出RAG概念,结合预训练参数和非参数记忆用于语言生成,其中非参数记忆通过「预训练神经检索器」访问「维基百科的稠密向量」索引获得,结果在三个开放问答任务上都实现了最佳性能,并且生成的内容更具体、多样化和符合事实。

论文链接:https://arxiv.org/pdf/2005.11401

使用文本嵌入(word embedding)进行「语义文本相似度」计算是一个常见的检索技术。

METB是一个大规模文本嵌入基准,包括58个数据集和112种语言,结果是没有某一种文本嵌入方法在所有任务中都占据绝对主导地位。

论文链接:https://arxiv.org/pdf/2210.07316

传统RAG无法处理处理「以查询为中心的摘要」任务,比如「数据集中的主题是什么?」这种全局问题,检索需求不明确。

GraphRAG可以根据用户问题的普遍性和需要索引的源文本数量进行扩展,首先从源文档中导出实体知识图谱,然后为所有密切相关的实体组预生成社区摘要;对于一个问题,每个社区摘要用于生成部分回复,最后总结给用户。

论文链接:https://arxiv.org/pdf/2404.16130

OpenAI推荐的RAGAS(检索增强生成评估)是一个用于无参考评估RAG流程的框架,无需人类标注,可以对「检索系统识别相关和专注上下文段落」和「LLM对检索文档忠实度」的能力进行评估。

论文链接:https://arxiv.org/pdf/2309.15217

智能体(Agent)

在被Anthropic、Devin和OpenAI采用后,SWE-Bench一跃成为最具知名度的智能体基准测试(其他基准包括WebArena、SWE-Gym),由来自12个流行Python仓库的真实GitHub问题和相应拉取请求中的2294个软件工程问题组成。

给定一个代码库以及一个需要解决的问题描述,语言模型的任务是编辑代码库以解决该问题,通常需要理解并同时协调多个函数、类甚至文件之间的变化,要求模型能够与执行环境互动,处理极长的上下文,并进行复杂的推理,而不只是传统的代码生成任务,更多的是智能体测试。

论文链接:https://arxiv.org/abs/2310.06770

ReAct开启了一系列关于「工具使用」和「函数调用」的研究,通过与简单的维基百科API交互,克服了思维链推理中普遍存在的幻觉和错误传播问题,生成结果比没有推理轨迹的模型更具可解释性。

论文链接:https://arxiv.org/pdf/2210.03629

MemGPT提出了虚拟上下文管理技术,智能地管理不同的存储层次,以便在LLM的有限上下文窗口内有效地提供扩展的上下文,并使用中断来管理其与用户之间的控制流。在文档分析和多会话聊天中展现了记忆、反思和动态演变能力。

论文链接:https://arxiv.org/pdf/2310.08560

Voyager是第一个由大型语言模型(LLM)驱动的、在Minecraft中进行终身学习智能体,能够持续探索世界,获取多样化的技能,并在无人干预的情况下进行新的发现。

主要包括三个关键组件:自动课程用于最大化探索;一个不断增长的可执行代码技能库,用于存储和检索复杂行为;一种新的迭代提示机制,结合环境反馈、执行错误和自我验证来改进程序。

论文链接:https://arxiv.org/pdf/2305.16291

Voyager通过黑箱查询与GPT-4进行交互,无需对模型参数进行微调;开发的技能具有时间扩展性、可解释性和组合性,使得智能体的能力迅速增强,并减轻了灾难性遗忘。

代码生成

The Stack项目包含30种编程语言的许可源代码,大小为3.1TB,论文描述了数据集的收集过程;通过在不同的Python子集上训练具有3.5亿参数的解码器,展现了根据文本生成代码的潜力,仅使用许可数据就可以达到之前模型在HumanEval和MBPP的性能,后续模型发展为Stack v2和StarCoder

论文链接:https://arxiv.org/pdf/2211.15533

开源的代码模型论文包括 DeepSeek-Coder, Qwen2.5-Coder, CodeLlama;很多人认为Claude 3.5 Sonnet是最好的代码模型,但没有相关论文。

论文链接:https://arxiv.org/pdf/2401.14196

HumanEval/Codex论文是GitHub Copilot底层技术解释,是代码领域必备知识的基准测试;编码领域更有名的是SWE-Bench,可以评估大型语言模型在解决真实世界中GitHub软件问题能力:给定一个代码库和一个具体的问题描述,要求语言模型生成一个补丁来解决该问题;其他替代品包括Aider, Codeforces, BigCodeBench, LiveCodeBench和SciCode

Codex论文链接:https://arxiv.org/pdf/2107.03374

代码生成问题有别于自然语言生成问题,需要精确匹配目标语言的语法,识别出常见路径和边缘情况,更关注细节。

AlphaCodium论文提供了一种通用的解决方案,基于测试的、多阶段的、面向代码的迭代流程,可以提高LLMs在代码问题上的性能,在验证集上将GPT-4的性能从19%提升到了44%

论文链接:https://arxiv.org/abs/2401.08500

CriticGPT主要关注代码生成中的安全问题,可以帮助人类更准确地评估模型编写的代码;模型使用RLHF训练以编写自然语言反馈;实验发现模型在63%的情况下比人类的批评结果更好,成功识别出在ChatGPT训练数据中标记为「完美无瑕」的数百个错误,并且很多都是分布外的「非代码任务」。

论文链接:https://criticgpt.org/criticgpt-openai/

视觉模型

YOLO不算是基于大模型的工作,但仍然很重要,已经更新到了v11,很多基于Transformer的模型如DETRs目前已经超越了YOLO的性能。

YOLO v1将目标检测视为一个回归问题,即预测空间上分离的边界框及其相关的类别概率,通过一个神经网络即可直接从整张图像中预测边界框和类别概率,训练过程可以进行端到端优化。

基础的YOLO模型预测速度可以实现每秒45帧,小网络Fast YOLO可以实现每秒155帧,平均精度比其他实时检测器高出两倍。

论文链接:https://arxiv.org/pdf/1506.02640

CLIP模型是第一个成功的ViT模型,目前已经被BLIP/BLIP/SigLIP/PaliGemma取代。

CLIP直接从关于图像的原始文本中学习表征,监督信号的来源比「固定、预设的对象类别」更广泛;训练任务也很简单,预测图像描述与哪个图像匹配,在4亿个(图像,文本)数据对上对模型从头开始训练,实现了与原始ResNet-50在ImageNet相当的零样本准确率;在30多个计算机视觉基准任务上,性能与完全监督的基线模型相当,而不需要特定数据的训练。

论文链接:https://arxiv.org/pdf/2103.00020

MMVP(多模态视觉模式)基准量化了CLIP的核心问题:视觉信息是否足以应对语言描述?

论文链接:https://arxiv.org/pdf/2401.06209

论文探索了CLIP的视觉嵌入空间与仅视觉的自监督学习之间的差距,揭示了多模态模型和CLIP的视觉模式存在高度关联,经常会给出错误的答案和幻觉解释。

Segment Anything Model (SAM)及SAM 2是非常成功的图像和视频分割基础模型,通常与GroundingDINO搭配使用。

研究人员在SAM中构建了迄今为止最大的分割数据集,包含超过10亿个遮罩,1100万张授权图像;模型具备零样本学习能力,可以直接迁移到新的图像分布和任务,并且性能与之前的完全监督模型性能相当,甚至更优。

论文链接:https://arxiv.org/pdf/2304.02643

声音模型

OpenAI的Whisper一个相当成功的ASR模型,后续发布的Whisper v2, v3, distil-whisper以及v3 Turbo都是开放权重但是没有论文。

Whisper论文链接:https://arxiv.org/pdf/2212.04356

在PaLM变为Gemini之前,AudioPaLM算是谷歌在语音领域的绝唱。

AudioPaLM将基于文本(PaLM-2)和基于语音(AudioLM)的语言模型融合成一个统一的多模态架构,能够处理和生成文本和语音,下游应用包括「语音识别」和「语音到语音的翻译」;继承了AudioLM保持副语言信息(如说话者身份和语调)的能力,以及像PaLM-2这样的基于文本的大型语言模型中独有的语言知识。

论文链接:https://arxiv.org/pdf/2306.12925

Meta发布的Llama 3语音模型也可以作为竞品参考。

论文链接:https://arxiv.org/pdf/2407.21783

NaturalSpeech是领先的「语音合成」(TTS)方法之一,最新版本为v3

研究人员在论文中首先基于主观测量的统计显著性来定义「人类水平」的语音合成质量,然后利用变分自编码器(VAE)进行端到端的文本到波形生成,并通过几个模块来增强先验从文本中的能力,以及降低后验从语音中的复杂性,包括音素预训练、可微分时长建模、双向先验/后验建模,以及VAE中的记忆机制。

论文链接:https://arxiv.org/abs/2205.04421

图像/视频扩散模型

Stable Diffusion绝对是最有名的开源文生图模型,旗下还有SD2, SDXL, SD3模型及论文。

Latent Diffusion模型首次将扩散模型应用于预训练自编码器的潜空间中,极大降低了扩散模型的训练、微调、推理的成本,可以在降低复杂度和保留细节之间达到最优的平衡,并提升视觉保真度。

论文链接:https://arxiv.org/pdf/2112.10752

通过在模型架构中引入交叉注意力层,扩散模型就变成了通用条件输入生成器,可以处理文本或边界框,实现高分辨率合成。

OpenAI的DALL-E系列文生图模型有三代,其论文也值得阅读。

DALL-E 3论文链接:https://cdn.openai.com/papers/dall-e-3.pdf

谷歌的文生图模型Imagen有三代,后续工作为Ideogram 2.0

Imagen 3论文:https://arxiv.org/abs/2408.07009

一致性模型论文是后续工作LCMs(潜一致性模型)的基础,解决了由于迭代采样导致生成速度过慢的问题:直接将噪声映射到数据来生成高质量样本,采用多步采样来提升效率,但样本质量略有下降;同时支持零样本数据编辑,如图像修复、上色和超分辨率,而无需进行显式训练,最新版本为sCMs

论文链接:https://arxiv.org/pdf/2303.01469

文本到视频模型Sora虽然没有论文,但是其底层原理DiT和开源模仿者OpenSora可以作为参考。

DiT用一个潜在块Transformer替换了常用的U-Net主干网络,具有更高的Gflops,通过增加Transformer的深度/宽度或增加输入token的数量,可以进一步降低FID距离分数,在类条件ImageNet 512x512和256x256基准测试中超越所有先前的扩散模型。

DiT论文链接:https://arxiv.org/abs/2212.09748

扩散模型同样可以应用在其他模态上,如Text Diffusion, Music Diffusion

微调

使用LoRA/QLoRA在本地模型和4o模型上进行微调,都已被证明是一种低成本的微调方法。

QLoRA论文链接:https://arxiv.org/pdf/2305.14314

QLoRA通过冻结4位量化预训练语言模型和低秩适配器(LoRA)实现反向传播,可以在单个48GB GPU上微调一个650亿参数的模型,同时保持16位微调任务的性能;最佳模型Guanaco在仅24小时的微调后达到了ChatGPT性能的99.3%

文中还详细分析了聊天机器人基准测试的局限性,展示了GPT-4评估是一种廉价且合理的替代人类评估的方法。

DPO(直接偏好优化)是PPO(近端策略优化)的替代方案,开发者更喜欢用DPO,但其性能上略逊一筹,OpenAI也选择DPO作为偏好微调方法。

DPO论文链接:https://arxiv.org/pdf/2305.18290

基于人类反馈的强化学习(RLHF)是一个复杂且不稳定的过程,需要先训练一个反映人类偏好的奖励模型,再通过强化学习对大型无监督语言模型进行微调。

DPO是一种新的奖励模型参数化方法,可以用简单的分类损失来解决标准的RLHF问题,稳定、高效且计算成本低,无需在微调过程中从语言模型中抽样或进行大量的超参数调整;在控制生成内容符合人类偏好方面,DPO的表现超过了基于PPO的RLHF

ReFT(表示微调)不关注某些层,而是关注特征:在冻结的基础模型上操作,学习对隐藏表示进行特定任务的干预,可以替代现有的参数高效微调(PEFT)方法,学习到的干预措施比LoRA的效率提升15到65倍。

论文链接:https://arxiv.org/pdf/2404.03592

Orca和Orca2项目展现了使用「合成数据」对小型语言模型进行训练后,可以极大提升模型性能;

Orca 3-AgentInstruct的研究成果再把这个结论向前推进了一步:开发了一个框架,可以从原始数据源大规模生成多样化和高质量的定制数据集(包括用户提示和模型回复),最终吸能在AGIEval上提高了40%,在MMLU上提高了19%,在GSM8K上提高了54%;论文公开了其中100万个数据对。

报告链接:https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/

虽然OpenAI的o1模型使用的强化学习微调仍然存在争议,但Let's Verify Step by Step论文提供了部分底层原理解释。

在复杂的多步推理时,研究人员发现「过程监督」显著优于「结果监督」,可以解决MATH测试集中78%的问题;主动学习(active learning)还能提高过程监督的有效性;文中发布PRM800K数据集,包含80万个「步骤级」人类反馈标签。

论文链接:https://arxiv.org/pdf/2305.20050

HuggingFace微调实践:https://www.philschmid.de/fine-tune-llms-in-2025

参考资料:

https://x.com/DrJimFan/status/1874490807652356377

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2023年4月的12篇AI论文推荐
来源:DeepHub IMBA本文约4200字,建议阅读10+分钟GPT-4发布仅仅三周后,就已经随处可见了。 本月的论文推荐除了GPT-4以外还包括、语言模型的应用、扩散模型、计算机视觉、视频生成、推荐系统和神经辐射场。 1、GPT-4 Technical Report https://arxiv.org/abs/2303.08774 Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz,
数据派THU
2023/04/25
5410
2023年4月的12篇AI论文推荐
每周AI论文速递(240617-240621)
在大规模语言模型和计算机视觉模型中,上下文学习范式取得了巨大成功,最近基于上下文的强化学习领域也迅速崛起。然而,由于缺乏具有挑战性的基准,这一领域的发展受到了限制,因为所有实验都在简单环境和小规模数据集上进行。我们提出了XLand-100B,一个基于XLand-MiniGrid环境的大规模数据集,作为解决这一问题的初步尝试。该数据集包含近30,000个不同任务的完整学习历史,涵盖了1000亿次转换和25亿个回合。收集这个数据集耗费了50,000 GPU小时,这超出了大多数学术实验室的能力范围。我们还提供了工具以再现或进一步扩展这个数据集。通过这一重大努力,我们希望促进基于上下文的强化学习研究的普及,并为进一步扩展提供坚实的基础。代码是开源的,可以在Apache 2.0许可证下使用,网址为https://github.com/dunno-lab/xland-minigrid-datasets。
叶子的技术碎碎念
2025/04/08
460
每周AI论文速递(240617-240621)
原创 | 大模型扫盲系列——初识大模型
近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文将从大模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解大模型。
数据派THU
2023/11/22
19.7K0
原创 | 大模型扫盲系列——初识大模型
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.3K0
深入了解Deepseek模型的最佳三篇论文
【源头活水】本周Big Model论文精选!
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/07/29
1130
【源头活水】本周Big Model论文精选!
分享10篇,关于「QA 问答系统」的最新研究,涉及5个领域、4个技术方向!
 QA问答系统自然语言处理领域的一个热门研究方向,它旨在构建能够理解并回答人类提出的问题的智能机器。QA系统的广泛应用领域包括法律、医疗、信息检索、文档查询、任务辅助以及常识推理等。
ShuYini
2023/10/24
2K0
分享10篇,关于「QA 问答系统」的最新研究,涉及5个领域、4个技术方向!
开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?
首先,从最重要的话题开始:4 月发布的主要新模型。这一节将简要介绍 Mixtral、Llama 3 和 Phi-3。下一节将会更详细地介绍苹果的 OpenELM。
机器之心
2024/06/04
3120
开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?
AI_Papers周刊:第六期
1.UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation
AiCharm
2023/05/15
4050
AI_Papers周刊:第六期
2023 年 AI 与开源行业:今年第一篇盘点文章出炉了
我们正一步步迈向 2023 年的终点,也许是时候对这一年来 AI 研究、行业动态以及开源领域发生的主要变化做一番简要回顾了。当然,这篇文章不可能面面俱到。我们只挑干货,一同审视这风云变幻的一年中都有哪些大事值得回味。
深度学习与Python
2023/11/01
3590
2023 年 AI 与开源行业:今年第一篇盘点文章出炉了
AI_Papers周刊:第一期
1.Multimodal Chain-of-Thought Reasoning in Language Models
AiCharm
2023/05/15
2320
AI_Papers周刊:第一期
NeurIPS 2023 | 腾讯 AI Lab 18 篇入选论文解读
NeurIPS 2023(Neural Information Processing Systems)神经信息处理系统大会是当前全球最负盛名的 AI 学术会议之一,将于 12 月 10 日在美国新奥尔良召开。官方信息显示,本届会议共有 12343 篇有效论文投稿,接收率为 26.1%,略高于 2022 年的 25.6%。
小腾资讯君
2023/12/11
9680
2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
deephub
2024/07/01
6440
2024年6月上半月30篇大语言模型的论文推荐
2022 年 2 月 arXiv 论文推荐
Meta 的新型超级计算机——AI Research SUperCLuster 的发布是为了满足大型机器学习模型日益苛刻的计算需求。再次证明,增长模型的趋势远未结束。
deephub
2022/03/12
6030
2022 年 2 月 arXiv 论文推荐
10年前,word2vec经典论文就预定了今天的NeurIPS时间检验奖
NeurIPS 是当前全球最负盛名的 AI 学术会议之一,全称是 Neural Information Processing Systems,神经信息处理系统大会,通常在每年 12 月由 NeurIPS 基金会主办。大会讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。
机器之心
2023/12/12
3020
10年前,word2vec经典论文就预定了今天的NeurIPS时间检验奖
每周AI论文速递(240812-240816)
GPT-4o 的卓越多模态能力和交互体验,凸显了其在实际应用中的重要性,但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA,是首个开源的多模态大语言模型(MLLM),能够同时处理和分析视频、图像、文本和音频,并提供先进的多模态交互体验。我们从 Mixtral 8x7B 这一语言模型基础出发,扩展其中文词汇,并进行了双语指令调整。通过多模态对齐和指令调整的两阶段多任务学习,我们进一步赋予了该模型视觉和听觉能力。VITA 在多种单模态和多模态基准测试中表现出色,显示出其强大的多语言、视觉和听觉理解能力。此外,我们在提升自然多模态人机交互体验方面取得了显著进展,首次在 MLLM 中实现了非唤醒交互和音频中断功能。VITA 标志着开源社区在探索多模态理解和交互无缝集成方面迈出了第一步。尽管 VITA 仍需大量工作以接近闭源模型的水平,但我们相信其作为先驱的角色将为后续研究奠定坚实基础。项目页面:https://vita-home.github.io。
叶子的技术碎碎念
2025/04/08
870
每周AI论文速递(240812-240816)
每周AI论文速递(240603-240607)
虽然 Transformer 是深度学习在语言建模成功的主要架构,但诸如 Mamba 之类的状态空间模型 (State-Space Models, SSM) 最近已被证明在小到中等规模上能够匹敌甚至超过 Transformer。我们展示了这些模型家族实际上关系非常紧密,并开发了一个丰富的理论框架,通过对一类研究良好的结构化半可分解矩阵进行各种分解,将 SSM 与注意力变体联系起来。我们的状态空间对偶 (State Space Duality, SSD) 框架使我们能够设计出一种新架构 (Mamba-2),其核心层是对 Mamba 选择性 SSM 的改进,使速度提高了 2-8 倍,同时在语言建模方面继续与 Transformer 竞争。
叶子的技术碎碎念
2025/04/08
430
每周AI论文速递(240603-240607)
2022年AI顶级论文 —生成模型之年(下)
过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。 2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。 2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。 2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。 2018年,谷歌提出了大规模预训练语言模型 BERT
AiCharm
2023/05/15
2740
2022年AI顶级论文 —生成模型之年(下)
2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能
前一篇文章总结了关于计算机视觉方面的论文,这篇文章将要总结了2024年5月发表的一些最重要的大语言模型的论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。
deephub
2024/06/03
3980
2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能
每日论文速递 | [NeurIPS'23 Oral] DPO:Language Model 是一个 Reward Model
摘要:虽然大规模无监督语言模型(LMs)可以学习广泛的世界知识和一些推理技能,但由于其训练完全不受监督,因此很难实现对其行为的精确控制。获得这种可控性的现有方法通常是通过人类反馈强化学习(RLHF),收集人类对各代模型相对质量的标签,并根据这些偏好对无监督语言模型进行微调。然而,RLHF 是一个复杂且经常不稳定的过程,首先要拟合一个反映人类偏好的奖励模型,然后利用强化学习对大型无监督 LM 进行微调,以最大限度地提高估计奖励,同时不会偏离原始模型太远。在本文中,我们介绍了 RLHF 中奖励模型的一种新参数化方法,它能以封闭形式提取相应的最优策略,使我们只需简单的分类损失就能解决标准的 RLHF 问题。由此产生的算法我们称之为直接偏好优化(DPO),它稳定、性能好、计算量小,在微调过程中无需从 LM 中采样,也无需进行大量的超参数调整。我们的实验表明,DPO 可以对 LM 进行微调,使其与人类偏好保持一致,甚至优于现有方法。值得注意的是,使用 DPO 进行的微调在控制代际情感的能力上超过了基于 PPO 的 RLHF,并且在总结和单轮对话中达到或提高了响应质量,同时在实现和训练方面也要简单得多。
zenRRan
2024/03/25
9350
每日论文速递 | [NeurIPS'23 Oral] DPO:Language Model 是一个 Reward Model
Transformer速查宝典:模型、架构、训练方法的论文都在这里了
AI 发展迅速,这对于刚刚入门或是正想跟上「潮流」的新手们来说并不友好。如果有一份详细全面的知识列表可能会帮助他们更快走上「正途」。
机器之心
2023/09/08
3820
Transformer速查宝典:模型、架构、训练方法的论文都在这里了
推荐阅读
相关推荐
2023年4月的12篇AI论文推荐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档