Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究

词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究

作者头像
机器之心
发布于 2023-10-04 06:40:28
发布于 2023-10-04 06:40:28
4690
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:赵阳

本文初步探讨了不同类型的词表对语言模型训练所产生的影响,研究者使用了 12 个小型的语言模型及 4 个中型的语言模型作为实验对象,并得出了直观简洁的结论。这些结论可以帮助你选择最合适的词表来训练语言模型。

不同词表对语言模型有哪些影响?如何权衡这些影响?

在最近的一项实验中,研究者对 16 个语言模型使用不同的语料进行了预训练和微调。这次实验使用了 NanoGPT, 一种小规模的架构(基于 GPT-2 SMALL),训练了 12 个模型,NanoGPT 网络架构的配置为:12 个注意力头、12 层 transformer, 词嵌入维度为 768,进行大约 400,000 次迭代(大约 10 个 epoch)。然后在 GPT-2 MEDIUM 上训练了 4 个模型,GPT-2 MEDIUM 架构的设置为 16 个注意力头、24 层 transformer, 词嵌入维度为 1024,并进行 600,000 次迭代。所有模型均使用 NanoGPT 和 OpenWebText 数据集进行预训练。微调方面,研究者使用了 baize-chatbot 提供 的指令数据集,分别在两类模型里补充了额外的 20,000 和 500,000 个「字典」条目。

未来,研究者计划发布代码、预训练模型、指令调整模型和微调数据集。

不过,这 16 个模型仅在预训练阶段就要在 8 个 GPU 上累计运行 147 天(单个 GPU 要使用 1,176 天),成本为 8,000 美元。因为没有 GPU 赞助商(这是一个免费的开源项目),出于成本考虑,虽然还存在进一步对研究内容完善的空间,但是研究者目前没有继续进行下去。

研究结果可总结为:

  • 编码方式上,TokenMonster(550256-strict-nocapcode)词表在所有指标上都比 GPT-2 Tokenizer 和 tiktoken p50k_base 表现更好。
  • 最佳词表规模为 32000。
  • 词表越简单,模型收敛得越快,但收敛后不一定会产生更好的结果。
  • 字词比(每个 token 对应的平均字符数)增加,不会单独对模型质量产生负面影响。
  • 单个 token 对应多个单词的词表对 SMLQA(真值)基准有 5% 的负面影响,但对字词比要高 13%。
  • 带有 Capcode 的词表的话,模型需要更长的时间来学习,但一旦模型收敛,似乎不会在任何方向上会对 SMLQA(真值)或 SQuAD(Data Extraction)基准产生影响。
  • 在比较不同的分词器时,验证损失和 F1 都是无意义的指标。
  • 分词器的缺陷和复杂性对模型学习事实能力的影响大于对模型学习语言能力的影响。

根据实验结果,englishcode-32000-consistent 的结果是最好的。然而,如上所述,当使用在单个 token 对应多个单词的 TokenMonster 时,SMLQA( Ground Truth)的准确性和字词比之间会存在一种权衡,这增加了学习曲线的斜率。研究者坚信,通过强制 80% 的 token 对应一个单词,20% 的 token 对应多个单词,可以最大限度地减少这种权衡,实现 “两全其美” 的词表。研究者认为这种方法在性能上与 one-word 词表相同,同时字词比还能提高约 50%。

再详细地解释一下 “分词器中的缺陷和复杂性对模型学习事实的能力的影响大于对其语言能力的影响” 这句话的含义:

这种现象是训练过程中发现的一个有趣的特征,从模型训练的工作方式去思考,也能说得通。研究者没有证据证明其推理是合理的。但从本质上讲,因为在反向传播过程中,语言的流畅性比语言的事实性(它们是极其微妙和依赖上下文的)更容易纠正,这意味着分词器效率若有任何提高,与事实性无关,都会产生直接转化为信息保真度提高的连锁反应,如在 SMLQA(Ground Truth)基准中所见。简单地说:一个更好的分词器就是一个更真实的模型,但不一定是一个更流畅的模型。反过来说:一个拥有低效分词器的模型仍然能学会流利地写作,但流利性的额外成本会降低模型的可信度。

词表规模的影响

在进行这些测试之前,本文研究者认为 32000 是最佳词表规模,实验结果也证实了这一点。50256-balanced 的性能仅比 SMLQA(Ground Truth)基准上的 32000-balanced 好 1%,但是模型的尺寸却大了 13%。理想情况下,本文在基于 MEDIUM 的多个模型中,通过分别在规模为 24000、32000、50256 和 100256 的词表中进行如上所述的二八开划分方法,来明确证明这一观点。

优化模式的影响

研究者对 TokenMonster 下特定的三种优化模式 balanced, consistent 和 strict 进行了测试。不同的优化模式会影响标点符号以及 capcode 与单词 token 的组合方式。研究者最初预测 consistent 模式会表现得更好(因为不那么复杂),虽然字词比(即 character 与 token 的比值)会略低。

实验结果似乎证实了上述猜想,但是研究者也观察到了一些现象。首先,在 SMLQA(Ground Truth)基准上,consistent 模式似乎比 balanced 模式的效果好约 5%。然而,consistent 模式在 SQuAD(Data Extraction)基准上的表现明显较差(28%)。但是,SQuAD 基准表现出很大的不确定性(重复运行的结果不同),也不具有说服力。研究者并没有对 balanced 与 consistent 测试至收敛,所以这可能只代表 consistent 模式更容易学习。事实上,consistent 可能在 SQuAD(数据提取)上做得更好,因为 SQuAD 更难学习,也不太可能产生幻觉。

这本身就是一个有趣的发现,因为它意味着将标点符号和单词合并到一个 token 中并不存在明显的问题。迄今为止,所有其他分词器都认为标点符号应与字母分开,但从这里的结果可以看出,单词和标点符号可以合并到一个 token 中,不会有明显的性能损失。50256-consistent-oneword 也证实了这一点,这个组合与 50256-strict-oneword-nocapcode 的性能相当,而且优于 p50k_base。50256-consistent-oneword 将简单的标点符号与单词 token 合并在一起(而其他两个组合则不是这样)。

在此之后,启用 capcode 的 strict 模式会带来显著的不利影响。50256-strict-oneword-nocapcode 在 SMLQA 上得分 21.2,在 SQuAD 上得分 23.8,而 50256-strict-oneword 的得分分别为 16.8 和 20.0。原因很明显:strict 优化模式阻止 capcode 与单词 token 的合并,导致需要更多的 token 来表示相同的文本,直接结果就是字词比降低了 8%。事实上,比起 strict,strict-nocapcode 更类似于 consistent。50256-consistent-oneword 和 50256-strict-oneword-nocapcode 在各个维度的指标中都几乎相等。

最终的结论是,在大多数情况下,模型在学习包含标点符号和单词的 token 的含义方面没有任何困难。也就是说,与 balanced 模型相比,consistent 的语法准确性更高(语法错误更少)。综合考虑,研究者建议大家使用 consistent 模式。strict 只能在禁用 capcode 的情况下使用。

对语法准确性的影响

如上所述,与 balanced 模式相比,consistent 模式的语法准确性更高(语法错误更少)。这反映在字词比和语法之间存在非常轻微的负相关,如下图所示。除此之外,最值得注意的一点是,同样与 TokenMonster 的 50256-strict-oneword-nocapcode (98.6% 和 98.4%)相比,GPT-2 分词器和 tiktoken p50k_base 的语法结果都很糟糕(分别为 98.1% 和 97.5%)。研究者最初认为这只是巧合,但多次采样都会得到相同范围的结果。至于原因是什么尚不清楚。

对 MTLD 的影响

MTLD 用于表示生成样本文本的语言多样性。它似乎与 n_embed 参数高度相关,而与词汇量大小、优化模式或每个 token 的最大字数等特征无关。这一点在 6000-balanced 模型(n_embd 为 864)和 8000-consistent 模型(n_embd 为 900)中表现得尤为明显。

在中型模型中, p50k_base 的 MTLD 最高,为 43.85,但语法得分也最低。造成这种情况的原因尚不清楚,但研究者猜测可能是训练数据的选择有些奇特。

对 SQuAD 的讨论

SQuAD 基准测试的是模型从一段文字中提取数据的能力,具体做法是提供一段文字,然后提出一个问题,答案需包含在该段文字中。测试结果没有太大意义,没有明显的模式或相关性,包括模型总的参数。事实上,拥有 9100 万参数的 8000-balanced 模型在 SQuAD 中的得分要高于拥有 35400 万参数的 50256-consistent-oneword。造成这种情况的原因也许这种风格的例子不够多,也许在指导微调数据集中有太多的 QA 对。或者,这只是一个不太好的基准。

对 SMLQA 的讨论

SMLQA 基准通过提出具有客观答案的常识性问题来测试 "真值",例如 "哪个国家的首都是雅加达?" 和 "《哈利 - 波特》系列丛书是谁写的?"。

值得注意的是,参考用的分词器 —— GPT-2 Tokenizer 和 p50k_base 在该基准测试中表现相当出色。研究者最初以为浪费了几个月的时间和几千美元,却证明了 tiktoken 比 TokenMonster 有更高质量的性能。但事实证明,问题与每个 token 对应的字数有关。这一点在 "中等"(MEDIUM)模型中体现得最为明显,如下面的图表所示。

单字词表的性能略好于 TokenMonster 默认的每个 token 对应多个字的词表。

另一个重要的观察结果是,当词汇量低于 32,000 个时,即使调整模型的 n_embd 参数以弥补模型规模的缩小,词汇量也会直接影响真值。这是有悖直觉的,因为研究者本以为 n_embd 为 864 的 16000-balanced(参数为 1.2134 亿)和 n_embd 为 900 的 8000-consistent(参数为 1.2386 亿)会比 n_embd 为 768 的 50256-consistent(参数为 1.2359 亿)做得更好,但事实并非如此 — 两者的表现都差得多(13.7 和 15.1 对比 50256-consistent 的 16.4)。不过,这两个 “调整后” 的模型都接受了相同的时间来训练,这恰好导致预训练的次数显着减少(尽管时间相同)。

具有 12 层注意力头、12 层 transformer 层的小模型

研究者在默认的 NanoGPT 架构上训练了 12 个模型,该架构基于 12 个注意力头和 12 层的 GPT-2 架构,嵌入参数大小为 768。这些模型都没有训练到收敛,通俗地说,就是没有训练到最大的学习能力。模型的训练经历了 400,000 次迭代,而要想具有最大学习能力似乎需要 600,000 次迭代。造成这种情况的原因很简单,一是预算问题,二是收敛点的不确定性。

小模型的结果:

小模型的皮尔逊相关性:

小模型的结论:

1. 32,000 是最佳词汇量。从词汇量 8,000 到 32,000 的阶段中:增加词汇量可以提高模型的真值准确度。将词汇量从 32,000 增加到 50,257 时,模型的总参数也相应增加,但对真值准确度的提高只有 1%。超过 32,000 后,收益迅速减少。

2. 糟糕的分词器设计会影响模型的正确性,但不会影响语法正确性或语言多样性。在 90M - 125M 的参数范围内,语法规则更复杂的分词器(如 token 对应对应多词、词和标点符号的组合 token、capcode 编码 token 和减少总词汇量)在真值基准上的表现比简单的分词器要差。不过,分词器设计的这种复杂性并没有对生成文本的语言多样性或语法正确性产生显著的统计学影响。即使是一个紧凑的模型,如参数为 9000 万的模型,也能有效地利用更复杂的 token。更复杂的词汇需要更长的学习时间,从而减少了获取与基本事实相关信息的时间。由于这些模型都没有经过完整的训练,因此进一步训练以缩小性能差距的潜力还有待观察。

3. 验证损失不是比较使用不同分词器的模型的有效指标。验证损失与给定分词器的字词比(每个 token 对应的平均字符数)具有非常强的相关性(0.97 皮尔逊相关性)。要想比较分词器之间的损失值,测量相对于字符而非 token 的损失可能更有效,因为损失值与每个 token 对应的平均字符数成正比。

4. F1 分数不是评估语言模型的合适指标,这些语言模型被训练成生成可变长度的响应(用文本结束 token 来表示完成)。这是由于文本序列越长,F1 公式的惩罚越严重。F1 评分倾向于产生较短响应的模型。

5. 所有模型(从 90M 参数开始),再加上所有测试的分词器(大小从 8000 到 50257 不等),都证明了对其进行微调以产生语法连贯的答案的能力。虽然这些反应往往是不正确的或幻觉的,但都较为连贯,并表现出对上下文背景的理解能力。

6. 当 embedding 大小增加时,生成文本的词汇多样性和语法准确性显著增加,并且与字词比呈微微的负相关。这意味着,具有较大字词比的词汇会使学习语法和词汇多样性稍微困难一些。

7. 在调整模型参数大小时,字词比与 SMLQA(Ground Truth)或 SQuAD(Information Extraction)基准之间没有统计学上显著相关性。这意味着具有更高字词比的分词器不会对模型的性能产生负面影响。

8. 与 “balanced” 相比,“consistent” 类的词表在 SMLQA(Ground Truth)基准上的表现似乎稍好,但在 SQuAD(Information Extraction)基准上则差得多。尽管还需要更多的数据来证实这一点。

具有 16 层注意力头、24 层 transformer 层的中模型

在对小型模型进行训练和基准测试后,研究者明显发现,衡量的结果反映的是模型的学习速度,而不是模型的学习能力。此外,研究者没有优化 GPU 的计算潜力,因为使用的是默认的 NanoGPT 的参数。为了解决这个问题,研究者选择使用有着 50257 个 token 的分词器及中等语言模型,对四种变体进行了研究。研究者将 batch 的大小从 12 调整到 36,并将 block 的大小从 1024 缩减到 256,确保充分利用了 24GB GPU 的 VRAM 功能。然后进行了 600000 次迭代,而不是小模型中的 400000 次。每种模型的预训练平均需要 18 天多一点的时间,是小模型需要的 6 天的三倍。

对模型进行收敛训练确实显著降低了更简单词汇表和更复杂词汇表之间的性能差异。SMLQA(Ground Truth)和 SQuAD(Data Extration)的基准结果非常接近。主要区别在于 50256-consistent 有着比 p50k_base 高 23.5% 的字词比的优势。不过,对于每个 token 对应多个单词的词表来说,真值的性能代价较小,不过这可以用我在页首讨论的方法来解决。

中模型的结果:

在 560000 次迭代之后,所有模型都开始收敛,如下图所示:

后续展望

下一阶段将使用 englishcode-32000-consistent 来训练和基准测试 MEDIUM 的模型,该词汇表具有 80% 的单词 tokentoken 和 20% 的多词 token。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-04 11:49,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
60行NumPy手搓GPT
本文约24000字,建议阅读30分钟 本文我们将仅仅使用60行Numpy[6],从0-1实现一个GPT。 本文原载于尹志老师博客:https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/[1]。 本文还是来自Jay Mody[2],那篇被Andrej Karpathy手动点赞[3]的GPT in 60 Lines of NumPy[4](已获原文作者授权)。 LLM大行其道,然而大多数GPT模型都像个黑盒子一般隐隐绰绰,甚至很多人都开始神秘化这个技术
数据派THU
2023/05/11
7810
60行NumPy手搓GPT
论文解读 Chinese-LLaMA-Alpaca 中文版大语言模型
https://github.com/ymcui/Chinese-LLaMA-Alpaca
唐国梁Tommy
2023/09/01
1K0
论文解读 Chinese-LLaMA-Alpaca 中文版大语言模型
干货满满!大神Karpathy两小时AI大课文字版第一弹,全新工作流自动把视频转成文章
前段时间,AI大神Karpathy上线的AI大课,已经收获了全网15万次播放量。
新智元
2024/02/26
2130
干货满满!大神Karpathy两小时AI大课文字版第一弹,全新工作流自动把视频转成文章
从零开始构建大语言模型(MEAP)
像 ChatGPT 这样的大型语言模型(LLM)是在过去几年中开发的深度神经网络模型。它们引领了自然语言处理(NLP)的新时代。在大型语言模型出现之前,传统方法擅长于分类任务,如电子邮件垃圾分类和可以通过手工制作的规则或简单模型捕获的简单模式识别。然而,在需要复杂理解和生成能力的语言任务方面,例如解析详细说明、进行上下文分析或创建连贯且上下文适当的原始文本时,它们通常表现不佳。例如,以前的语言模型无法根据关键字列表编写电子邮件-这对于当代 LLM 来说是微不足道的任务。
ApacheCN_飞龙
2024/05/24
1.1K0
从零开始构建大语言模型(MEAP)
【LLM系列之Tokenizer】如何科学地训练一个LLM分词器
对于人而言,在我们学会阅读之前,仍然可以理解语言。比如当你开始上学时,即使你不知道名词和动词之间的区别,但是你已经可以和你的同学交谈了,比如“我喜欢吃香蕉”,孩子对于这些虽然不清楚,但是知道是什么意思的。在此刻,我们学会了把语音/语言变成一种书面语言,这样你就可以读写了。一旦你学会了将文本转换为声音,你就可以回忆使用之前学过的词义库。
致Great
2023/08/25
4.4K0
【LLM系列之Tokenizer】如何科学地训练一个LLM分词器
LLMZip:使用大语言模型实现无损文本压缩
学习、预测和压缩之间存在着密切的联系。ChatGPT的成功吸引了公众的广泛关注,并将学习与预测之间的联系推向了前沿。LLaMA和GPT-4等大型语言模型带来的主要进步是,它们能够根据已知的前几个单词(Token)来出色地预测段落中的下一个单词(Token)。
用户1324186
2024/05/11
1K0
LLMZip:使用大语言模型实现无损文本压缩
精通 Transformers(一)
在过去的 20 年间,我们在自然语言处理(NLP)领域已经见证了巨大的变化。在此期间,我们经历了不同的范式,最终进入了由神奇的Transformers架构主宰的新时代。这种深度学习架构是通过继承多种方法而形成的。诸如上下文词嵌入、多头自注意力、位置编码、可并行化的架构、模型压缩、迁移学习和跨语言模型等方法都在其中。从各种基于神经网络的自然语言处理方法开始,Transformers架构逐渐演变成为一个基于注意力的编码器-解码器架构,并持续至今。现在,我们在文献中看到了这种架构的新成功变体。有些出色的模型只使用了其编码器部分,比如 BERT,或者只使用了其解码器部分,比如 GPT。
ApacheCN_飞龙
2024/05/24
3700
精通 Transformers(一)
LLaMA开放高效基础语言模型
这篇文章介绍了一个名为LLaMA的新型基础语言模型系列,这些模型由Meta AI开发,包含从7亿到65亿参数不等的多个版本。LLaMA模型完全使用公开可用的数据集进行训练,不依赖于私有或难以获取的数据集。研究表明,通过在更多的数据上训练,而不是仅仅增加模型大小,可以在给定的计算预算下实现更好的性能。特别是,LLaMA-13B在多数基准测试中超过了GPT-3(175B参数),而65B参数版本的LLaMA与Chinchilla-70B和PaLM-540B等顶尖模型具有竞争力。
Srlua
2024/12/02
1380
LLaMA开放高效基础语言模型
知名AI研究者深挖谷歌Gemma:参数不止70亿,设计原则很独特
就在几天前,开源大模型领域迎来了重磅新玩家:谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。
机器之心
2024/02/29
2970
知名AI研究者深挖谷歌Gemma:参数不止70亿,设计原则很独特
NLP BERT GPT等模型中 tokenizer 类别说明详解
在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize具体目标与粒度是什么呢?tokenize也有许多类别及优缺点,这篇文章总结一下各个方法及实际案例。
大鹅
2021/08/20
18.8K0
什么是LLM Token:面向开发者的初学者友好指南
LLM开发者必看!Token是AI核心,影响模型性能和成本。文章详解Token化原理,包括WordPiece、BPE等算法,及NLTK、Hugging Face Tokenizers等工具。掌握Token优化技巧,助力打造高效聊天机器人、文本摘要等云原生AI应用,突破Token限制,提升SEO内容创作!
云云众生s
2025/03/16
760
1.1k Star!天工Skywork-13B:性能全面超越LLaMA2、0门槛商用、消费级显卡进行部署和推理!
Hello,大家好啊,我是Aitrainee,今天聊聊国产开源大模型:Skywork-13B。
AI进修生
2024/12/02
1850
1.1k Star!天工Skywork-13B:性能全面超越LLaMA2、0门槛商用、消费级显卡进行部署和推理!
华为盘古大模型变「小」,1.5B也很能打
ChatGPT 等系列模型横空出世,以其强大的性能引起了全球的关注,有望改变人与计算机之间的交互方式,应用到千行百业。然而这些大型模型的实际需要极高的内存和计算资源,限制了它们在各种场景中的应用。例如,具有 175B 参数的 GPT-3 在使用 FP32 数据类型存储时需要大约 700GB 内存。尽管 7B 参数模型相对更高效,但其资源需求仍然难以直接部署在手机等边缘设备上。
机器之心
2024/02/26
3990
华为盘古大模型变「小」,1.5B也很能打
手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)
在混合专家模型 Mixtral 发布后,混合专家模型(MoE)越来越受到人们的关注。在稀疏化的混合专家语言模型中,大部分组件都与传统的 transformers 相同。然而,尽管看似简单,但经验表明,稀疏混合专家语言模型训练的稳定性还存在着一些问题。
机器之心
2024/02/26
1.6K0
手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)
(含源码)「自然语言处理(NLP)」RoBERTa&&XLNet&&语言模型&&问答系统训练
本次内容主要包括:鲁棒优化Bert模型(RoBERTa)、自回归预训练模型(XLNet)、无监督多任务学习语言模型、生成预训练语言理解、深层上下文单词表示、键值记忆网络、大规模问答系统训练等 。(全部含源码)
ShuYini
2020/07/31
9210
(含源码)「自然语言处理(NLP)」RoBERTa&&XLNet&&语言模型&&问答系统训练
预训练语言模型合辑~
针对有两个及两个以上连续字组成的词,随机mask字割裂了连续字之间的相关性,使模型不太容易学习到词的语义信息。比如一句话:‘北京是中国的首都,是一座美丽的城市’,在bert的随机mask LM任务中,可能是把‘京’mask掉在再做预测,这样就把‘北京’两个字的语义割裂了。
小爷毛毛_卓寿杰
2022/05/10
6270
预训练语言模型合辑~
数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面
目前大语言模型(Large Language Models, LLMs)的推理能力备受关注。从思维链(Chain of Thought,CoT)技术提出,到以 o1 为代表的长思考模型发布,大模型正在展现出接近人类甚至领域专家的水平,其中数学推理是一个典型任务。
机器之心
2025/02/14
950
数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面
Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
选自arXiv 作者:Ting Chen等 机器之心编译 机器之心编辑部 目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Faster R-CNN 和 DETR 的性能表现。 视觉目标检测系统旨在在图像中识别和定位所有预定义类别的目标。检测到的目标通常由一组边界框和相关的类标签来描述。鉴于任务的难度,大多数现有方法都是经过精心设计和高度定制的,在架构和损失函数的选择方面用到了大量的先验知识。 图灵奖得主 Ge
机器之心
2023/03/29
2570
Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
从机器学习,深度学习和人工智能领域解密三篇研究论文,这对上个月产生了影响。
BERT 等预训练语言模型在自然语言理解(Natural Language Understanding, NLU)的许多任务中均表现出了卓越的性能。
代码医生工作室
2020/09/04
5800
从机器学习,深度学习和人工智能领域解密三篇研究论文,这对上个月产生了影响。
[DeepSeek]中英双语模型的技术挑战:DeepSeek的多语言处理策略
在全球化AI竞争中,多语言能力已成为大型语言模型的关键差异化优势。DeepSeek作为中国领先的AI公司,特别重视中英双语能力的构建,不仅服务国内市场需求,也为国际化发展奠定基础。然而,打造真正优秀的中英双语模型面临着诸多技术挑战。本文将深入探讨DeepSeek如何应对这些挑战,以及其独特的多语言处理策略。
远方2.0
2025/03/23
1290
[DeepSeek]中英双语模型的技术挑战:DeepSeek的多语言处理策略
推荐阅读
相关推荐
60行NumPy手搓GPT
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档