前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性

带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性

作者头像
汀丶人工智能
发布于 2023-10-11 08:22:33
发布于 2023-10-11 08:22:33
55600
代码可运行
举报
文章被收录于专栏:NLP/KGNLP/KG
运行总次数:0
代码可运行

带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性

1.什么是语言模型?

大家或多或少都听过 ChatGPT 是一个 LLMs,那 LLMs 是什么?LLMs 全称是 Large Language Models,中文是大语言模型。那么什么是语言模型?

语言模型简单说来,就是对人类的语言建立数学模型,注意,这里的关键是数学模型,语言模型是一个由数学公式构建的模型,并不是什么逻辑框架。这个认知非常重要。最早提出语言模型的概念的是贾里尼克博士。他是世界著名的语音识别自然语言处理的专家,他在 IBM 实验室工作期间,提出了基于统计的语音识别的框架,这个框架结构对语音和语言处理有着深远的影响,它从根本上使得语音识别有实用的可能。在贾里尼克以前,科学家们把语音识别问题当作人工智能问题和模式匹配问题。而贾里尼克把它当成通信问题。

为何是通讯问题?为何转换成通讯问题后,就能实现语音识别?根据香农确定的现代通讯原理,所谓的通讯,也被称为信道的编码和解码,信息源先产生原始信息,然后接收方还原一个和原始信息最接近的信息。比如,你打电话的时候,问对方一句「你吃了晚饭了吗」,在传输前,通讯系统会对这句话进行编码,编成类似「100111101100000…」,但是传输过程中,一定会有信号损失,接收方收到的编码可能是「1001111011000…」,此时我们就没法解码回原来的句子了。

  • 那如何解决这个问题?

我们可以把与接收到的编码「1001111011000…」类似的句子都罗列出来,可能的情况是:

  • 吃了晚饭了吗
  • 你吃了饭了吗
  • 你吃了晚饭了吗
  • 你吃了晚饭了

然后通讯系统会计算出哪一种的可能性最大,最后把它选出来。只要噪音不大,并且传输信息有冗余,那我们就能复原出原来的信息。贾里尼克博士认为让计算机理解人类的语言,不是像教人那样教它语法,而是最好能够让计算机计算出哪一种可能的语句概率最大。这种计算自然语言每个句子的概率的数学模型,就是语言模型。

2.如何计算概率?

  • 第一阶段:最简单的方法,当然就是用统计学的方法去计算了,简单说来,就是靠输入的上下文进行统计,计算出后续词语的概率,比如「你吃了晚饭了吗」,「你吃了」后面按照概率,名词如「饭」或「晚饭」等概率更高,而不太可能是动词,如「睡」「睡觉」。这是语言模型的第一阶段,模型也被称为是统计语言模型(Statistical Language Model,SLM),其基本思想是基于马尔可夫假设建立词语测模型,根据最近的上下文预测下一个词。后续语言模型的发展又迭代了三个版本。
  • 第二阶段是神经网络语言模型(Neural Language Model,NLM),是一个用神经网络来训练模型,学习单词之间的关联性和概率关系。它能够利用大量的数据进行深度学习,从而捕捉到词汇之间更加复杂的关系。NLM 模型采用的是分层的结构,把输入的文本数据空间投射到高维的语义空间中并进行学习。通过不断地更新神经网络模型参数,NLM 的神经网络逐渐学会了文本数据的语义并能够生成连贯自然、语义准确的文本。

与前面提到的 SLM 相比,由于深度神经网络的学习能力更强,NLM 在学习语言模型时具有更好的泛化能力和适应性。比如能生成更长的文本等。但 NLM 相对来说也比较依赖更大的数据集,并且需要花很多人力在数据标注上。

  • 第三阶段是预训练语言模型(Pre-trained Language Model,PLM),是一种使用大量文本数据来训练的自然语言处理模型。相对 NLM 来说,PLM 使用无监督学习方法,因此不需要先标注数据或注明文本类型等信息。各位可能听过的 Transformer 架构就是一种预训练语言模型。
  • 第四阶段是大预言模型(Large Language Model),你可以将现在的 LLM 理解为一个训练数据特别大的 PLM,比如 GPT-2 只有 1.5B 参数,GPT-3 则到了惊人 175B,尽管 LLM 只是拓展了模型的大小,但这些大尺寸的预训练语言模型表现出了与较小的预训练语言模型不同的行为,并且在解决一些复杂任务上展现了惊人的能力(俗称涌现能力,注意这个涌现能力目前还存在争议),所以学术界为这些大型预训练语言模型命名为大语言模型 LLM。

上面这四个阶段可能比较难理解,你可以简单理解:

  1. 语言模型本质上都是在计算自然语言每个句子的概率的数学模型。当你输入一个问题给 AI 时,AI 就是用概率算出它的回答。
  2. 另外,当今的语言模型,并不是一个问题对一个答案,实际上是一个问题,多个答案,然后根据答案的概率进行排序,最后返回一个最可能的答案。

3. 开发大语言模型需要什么?

了解完大语言模型的原理之后,你可能会好奇 TA 是如何开发的。开发大语言模型的关键是什么。最近看到不少文章为了流量,甚至连 5G 通讯都说成了是开发大语言模型的关键,其实从前面的原理介绍,不难看出,大语言模型的其中一个关键点是数据。

关键一:数据

训练数据主要是所谓的语料库。今天的很多语言模型的语料库主要有以下几种:

  • Books:BookCorpus 是之前小语言模型如 GPT-2 常用的数据集,包括超过 11000 本电子书。主要包括小说和传记,最近更新时间是 2015 年 12 月。大一点的书籍语料库是 Gutenberg,它有 70000 本书,包括小说、散文、戏剧等作品,是目前最大的开源书籍语料库之一,最近更新时间是 2021 年 12 月。
  • CommonCrawl:这个是目前最大的开源网络爬虫数据库,不过这个数据包含了大量脏数据,所以目前常用的四个数据库是 C4、CC-Stories、CC-News 和 RealNews。另外还有两个基于 CommonCrawl 提取的新闻语料库 REALNEWS 和 CC-News。
  • Reddit Links:简单理解 Reddit 就是外国版本的百度贴吧 + 知乎。目前开源的数据库有 OpenWebText 和 PushShift.io
  • Wikipedia:维基百科是目前大模型广泛使用的语料库。
  • Code:一般包含 GitHub 上的开源公共代码库,或者是 StackOverflow 的数据,Google 之前发布过一个叫 BigQuery 的数据集。

实际上,训练大语言模型会混合使用不同的数据,一般不会只使用单一语料库。比如 GPT-3 用的混合数据集就包括 Books、CommonCrowl、Reddit Links 和 Wikipedia。

从数据上看,你需要知道一个事实,中文语料在这上面占比很小。ChatGPT 能用中文回答你的问题,只是因为它的语料里有一些中英文对应的语料,然后模型就像是「懂中文了一样」,所以更可能的情况是,它先生成了英文内容,再翻译成中文。如果你去问 ChatGPT 3.5:请给我几个中文谐音梗,你应该就能理解我说的话了。

以下是 ChatGPT 的返回结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
以下是一些中文谐音梗的例子:

我蒸发了,意思是我是 Vaper 了(Vaper发音接近蒸发)。

会有星期天,都得过过来,意思是星期二,星期三,星期四,星期五,星期六,都得过过来。

看到你,我的内心凉了 below zero,意思是凉了半截(below zero与半截音相近)。

蜀道难,难于上青天,赛道难,难于上488488与“蜀道难”同音)。

洋葱姑娘,想哭却哭不出来,因为洋葱让我流泪了(洋葱和“要哭”在中文中的发音很相似)。

雨纷纷,旧故里草木深,我听闻,你始终在我身边深(“身边深”和“身边寻”谐音)。

你的车开得真快,一开就是“出租”,意思是“出祖宗”(发音类似)。

关键二:算法

有了数据之后,你还需要有算法去做计算,目前最常用的开发大语言模型的算法库有:

  1. Transformers:这是一个使用 Transformer 架构构建的开源 Python 库。
  2. DeepSpeed:是由微软开发的深度学习优化库。
  3. Megatron-LM:这是由 Nvidia 开发的深度学习库。
  4. JAX:它是由 Google 开发的用于高新能机器学习算法的 Python 库。

关键三:算力

简单理解,算力就是计算资源,或者说硬件,OpenAI 没有说它训练 GPT-3 语言模型花了多少计算资源。但 OpenAI 的 CEO 暗示硬件成本超过一亿美元,如果我们按照 1000 美元一个 GPU 计算,它大约使用了 10 万个 GPU,以 32 位运算为准,它能提供超过 100 PFLOPS 的算力,也就是每秒 10 亿亿次运算以上,这大约是阿里云最大的数据中心的四分之一的算力。

注意,这还是 GPT-3 时的花费。

另外,我还想分享一个观点,不要以为算力会随时间的前进,就能跨越。算力永远会是制约我们瓶颈,因为我们对人工智能的要求会不断的提高。

本文主要内容来自论文 A Survey of Large Language Models

4. 大语言模型有什么缺点?

了解完原理后,我觉得有必要跟大家聊聊大语言模型的缺点,这样大家才能知道 AI 的边界在哪里,并在可控的边界内进行创新。

缺点一:结果高度依赖训练语料

正如我前面提到的,当今的语言模型,即使发展了四个版本,但依然没有脱离「概率计算」,本质上来说它们的核心原理就是「利用已有的信息来预测其他信息」。

那这就意味着,大语言模型其实并没有意识,也不知道对错,其生成的结果,高度依赖训练语料。

那会导致怎样的后果?

  1. 如果语料的内容是有偏的(比如带有种族歧视、性别歧视的内容),甚至是错误的,那大语言模型的生成的结果也会是错误的。
  2. 如果该领域语料很少,大语言模型生成的结果准确率就很低。甚至有可能会出现幻觉(这个是第二个缺点)。

当然面对这个缺点,有什么方法规避?

第一种方法就是在语料大、且错误率低的领域使用 LLMs。

比如语言学领域,像翻译、或者文案生成这种场景。即使语法错误了,但语料里存在大量的相同用法,那某种程度上来说,模型给的答案也算是对的,有点类似古代的通假字,或者现代的很多流行语。

第二种就是用人工干预。

简单说来就是人工将语料里的内容剔除,或者对其进行人类反馈强化学习。但人工干预并不意味着就没有问题了,这种方法有可能导致新的问题出现,比如将人的主观好恶加入到模型中,或者有可能伪造一些信息,加入到模型中。

缺点二:Hallucinations

这个可以直译成「幻觉」,简单说来,就是会说胡话。有些问题因为语聊很少,计算概率后,会吐出一些很奇怪的内容,比如这个例子,我让 AI 介绍一个世界上不存在的品牌 Boie 的智能牙刷:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Tell me about AeroGlide UltraSlim Smart Toothbrush by Boie

AI 的回答是,你可以看到 AI 就是在一本正经地说胡话:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
The AeroGlide UltraSlim Smart Toothbrush by Boie is a high-tech toothbrush that uses advanced sonic technology to provide a deep and thorough clean. It features a slim and sleek design that makes it easy to hold and maneuver, and it comes with a range of smart features that help you optimize your brushing routine.

One of the key features of the AeroGlide UltraSlim Smart Toothbrush is its advanced sonic technology, which uses high-frequency vibrations to break up plaque and bacteria on your teeth and gums. This technology is highly effective at removing even the toughest stains and buildup, leaving your teeth feeling clean and refreshed.

In addition to its sonic technology, the AeroGlide UltraSlim Smart Toothbrush also comes with a range of smart features that help you optimize your brushing routine. These include a built-in timer that ensures you brush for the recommended two minutes, as well as a pressure sensor that alerts you if you're brushing too hard.

Overall, the AeroGlide UltraSlim Smart Toothbrush by Boie is a highly advanced and effective toothbrush that is perfect for anyone looking to take their oral hygiene to the next level. With its advanced sonic technology and smart features, it provides a deep and thorough clean that leaves your teeth feeling fresh and healthy.

缺点三:暂时只能解决数学问题

我解释下,这里提到的数学问题,并不仅仅指的是数学运算这种数学问题,而是能通过数学解决的问题。比如我们可以研发无人驾驶汽车,当它遇到行人突然横穿马路时,能自己刹车停下来,这就是一个数学问题,它通过计算识别行人,并进行刹车。

但如果这辆无人车在一个单行道的巷子里遇到一辆堵在巷子的汽车,它就没有办法了,只能报警,让司机过来挪车,这就是一个数学无法解决的问题。

暂时来看目前大多数的 LLMs 都只能解决数学问题,有些不可计算的问题,暂时都没法解决。特别像是需要自己实操进行实验的问题。

当然我这里也只是称其为「暂时」,因为可能未来机器人 + LLMs 有可能会将可计算的范围拓展宽一点。

参考链接:https://github.com/thinkingjimmy/Learning-Prompt

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下,DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证,其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开可用的网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,这是近端策略优化(Proximal Policy Optimization,PPO)算法的一个变体,它在增强数学推理能力的同时,还能优化 PPO 的内存使用。
AI浩
2025/06/08
870
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
大模型应用开发基础 : 语言模型的关键思路跃迁
语言是信息的载体,承载着沟通的信息,无论是中文,英文,亦或是甲骨文,没有语言,人与人就无法沟通。
郑子铭
2024/11/27
1300
大模型应用开发基础 : 语言模型的关键思路跃迁
【AI大模型】ChatGPT模型原理介绍(下)
2020年5月, OpenAI发布了GPT-3, 同时发表了论文“Language Models are Few-Shot Learner”《小样本学习者的语言模型》.
小言从不摸鱼
2024/09/18
2500
【AI大模型】ChatGPT模型原理介绍(下)
MEDGO:一个中文医疗大语言模型,已在在上海东方医院落地 !
医疗服务对每个人的福祉至关重要,在保障人类生命和健康方面发挥关键作用,并在改善人们整体健康状况方面具有决定性价值。然而,医疗保健领域面临几个关键挑战。一个重要问题是不同地区医疗服务质量的巨大差异,限制了患者获得持续、高质量医疗保健的途径。这种区域差异因医疗专业行人显著短缺和分布不均而加剧。熟练医疗行人的短缺尤其严重,尤其是在资源有限的偏远地区和基层卫生保健设施。这些挑战严重影响医疗服务的获得性和公平性。解决这些问题需要技术创新,例如应用人工智能(AI),以提高护理交付的效率和质量。通过集成像大型语言模型这样的AI技术,医疗系统有可能弥合这些差距,为服务不足的地区提供更一致、可靠、便捷的医疗服务。
AIGC 先锋科技
2024/11/25
1.2K0
MEDGO:一个中文医疗大语言模型,已在在上海东方医院落地 !
Nat. Mach. Intell. | 探索语言模型的缺点
今天为大家介绍的是来自Tal Golan团队的一篇论文。语言模型似乎越来越符合人类处理语言的方式,但通过对抗性示例来识别它们的弱点十分具有挑战性,因为语言是离散的,并且人类语言感知非常复杂。
DrugAI
2023/10/04
1950
Nat. Mach. Intell. | 探索语言模型的缺点
Nat. Commun. | 迈向医学大语言模型!上海交通大学团队构建数据集与评估基准
今天为大家介绍的是来自上海交通大学的王延峰与谢伟迪团队的一篇论文。开源的多语言医学语言模型的发展可以惠及来自不同地区、语言多样化的广泛受众。为了推动该领域的发展,作者做出了以下贡献:首先,作者构建了一个包含大约255亿tokens、覆盖6种主要语言的多语言医学语料库——MMedC,使得通用LLM能够进行自回归领域适应;其次,为了监测多语言医学LLM的发展,作者提出了一个多语言医学多项选择问答基准(包含推理过程),称为MMedBench;第三,作者在该基准上评估了多个开源大型语言模型,以及那些在MMedC上进行进一步自回归训练的模型。作者的最终模型MMed-Llama 3,仅有80亿参数,在MMedBench和英语基准上表现优异,甚至可以与GPT-4媲美。总之,在这项工作中,作者提供了一个大规模语料库、一个评估基准以及一系列模型,以支持多语言医学LLM的发展。
DrugAI
2024/11/23
1660
Nat. Commun. | 迈向医学大语言模型!上海交通大学团队构建数据集与评估基准
复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限
---- 新智元报道   来源:信息与电子工程前沿FITEE 作者:周杰 柯沛 邱锡鹏 黄民烈 张军平 编辑:好困 【新智元导读】为更好地理解ChatGPT,这里我们简要介绍其历史,讨论其优点和不足,指出几个潜在应用,最后分析它对可信赖人工智能、会话搜索引擎和通用人工智能(artificial general intelligence, AGI)发展的影响。 最近,OpenAI发布了对话生成预训练模型Transformer(Chat Generative Pre-trained Transformer
新智元
2023/03/29
4550
复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限
基于AIGC的写作尝试:A Survey of Large Language Models(论文翻译)(上)
自从图灵测试在20世纪50年代提出以来,人类一直在探索机器掌握语言智能的方法。语言本质上是一个由语法规则控制的复杂、精细的人类表达系统。开发能够理解和掌握语言的能力强大的人工智能(AI)算法是一个重大挑战。作为一种主要方法,语言建模在过去二十年中已经被广泛研究,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练Transformer模型,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面表现出强大的能力。由于研究人员发现模型扩展可以提高模型容量,他们进一步通过将参数规模增加到更大的尺寸来研究扩展效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅可以实现显著的性能提升,而且还表现出一些特殊的能力(例如上下文学习),这些能力在小规模语言模型(例如BERT)中不存在。为了区分不同参数规模的语言模型,研究界为具有显著规模(例如包含数十亿或数百亿个参数)的PLMs创造了大型语言模型(LLM)这个术语。最近,学术界和工业界对LLMs的研究取得了很大进展,其中一个显著的进展是ChatGPT的推出(一种基于LLMs开发的强大AI聊天机器人),引起了社会的广泛关注。LLMs的技术进化对整个AI社区产生了重要影响,这将革命性地改变我们开发和使用AI算法的方式。考虑到这种快速的技术进步,在本次调查中,我们通过介绍背景、关键发现和主流技术,回顾了LLMs的最新进展。特别是,我们关注LLMs的四个主要方面,即预训练、适应调整、利用和容量评估。此外,我们还总结了开发LLMs的可用资源,并讨论了未来方向的剩余问题。本次调查提供了LLMs文献的最新综述,可供研究人员和工程师使用。
jhonye
2023/05/29
1.7K0
万字长文——这次彻底了解LLM大语言模型
自然语言处理领域正在经历着一场又一场的革命,各类技术层出不穷,不断的改变我们对文本的理解方式和文本生成方式。类似与蝴蝶效应,这场革命不仅提高了机器翻译、文本摘要、文本分类等任务的性能,还在各行各业引发了巨大的变革。越来越 多的行业AI化、智能化。在本小节,将介绍一些语言模型中的核心概念,为更好的理解大语言模型做铺垫。
聪明鱼
2023/12/07
6.4K2
ICML 2024 | Cell2Sentence: 教会大语言模型生物语言
今天为大家介绍的是来自David van Dijk团队和Rahul M. Dhodapkar团队的一篇论文。大型语言模型(如GPT)在自然语言任务中表现出色。在此,作者提出了一种新颖的方法,将这些预训练模型直接应用于生物学领域,特别是单细胞转录组学。作者的方法称为Cell2Sentence,它通过将基因表达数据表示为文本来实现这一点。具体来说,Cell2Sentence方法将每个细胞的基因表达谱转换为按表达水平排序的基因名称序列。作者展示了这些基因序列(“细胞句子”)可以用于微调因果语言模型,如GPT-2。关键的是,作者发现自然语言预训练提升了模型在细胞句子任务上的表现。当在细胞句子上进行微调时,GPT-2在给定细胞类型的情况下可以生成生物学上有效的细胞。相反,当给定细胞句子时,它也可以准确预测细胞类型标签。这表明,使用Cell2Sentence微调的语言模型可以获得对单细胞数据的生物学理解,同时保留其生成文本的能力。作者的方法提供了一个简单、适应性强的框架,可以使用现有的模型和库将自然语言和转录组学结合起来。代码可在以下网址获取:https://github.com/vandijklab/cell2sentence-ft。
DrugAI
2024/07/05
2530
ICML 2024 | Cell2Sentence: 教会大语言模型生物语言
Chem. Sci. | SynAsk:首个可公开访问的特定化学领域大语言模型
今天为大家介绍的是来自广州国家实验室廖矿标课题组的一篇论文。自然语言处理(NLP)领域随着大语言模型(LLMs)的出现经历了一场变革性的转变,在各种语言任务和应用中掀起了一场革命。将LLMs整合到特定领域可增强其在特定领域的应用能力。值得注意的是,NLP在有机化学领域取得了重大进展,尤其是在预测合成任务方面,为专门针对有机化学领域开发LLMs铺平了道路。本研究介绍了SynAsk,这是一个由AIChemEco公司开发的综合性有机化学特定领域LLM平台。通过使用特定领域数据对LLM进行微调,并将其与思维链方法相结合,SynAsk可以无缝访问我们的知识库和高级化学工具,以问答格式实现功能。这种新颖的方法将微调技术与外部资源整合相结合,形成了一个专门针对有机化学的模型,有助于推动该领域的研究和发现。SynAsk可在https://synask.aichemeco.com上访问,代表了在利用自然语言处理进行合成应用方面的重大进步。
DrugAI
2025/01/02
4390
Chem. Sci. | SynAsk:首个可公开访问的特定化学领域大语言模型
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
8380
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
deephub
2024/07/01
6780
2024年6月上半月30篇大语言模型的论文推荐
LLM基础知识
💥通常,大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型),这些参数是在大量文本数据上训练的,例如模型 GPT-3、ChatGPT、PaLM、BLOOM和 LLaMA等.
@小森
2024/06/04
3780
LLM基础知识
针对特定领域较小的语言模型是否与较大的模型同样有效?
经过2023年的发展,大语言模型展示出了非常大的潜力,训练越来越大的模型成为有效性评估的一个关键指标,论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis》中,作者全面分析了微调大语言模型(llm)及其在金融情绪分析中的零样本和少样本的能力。
deephub
2024/01/23
3020
针对特定领域较小的语言模型是否与较大的模型同样有效?
92秒 < 75秒?E-EVAL揭露一众大模型不会做小学题目!
随着大型语言模型(LLM)的快速发展,LLM和教育领域的结合变得越来越切。但是,目前还没有一个专门为中国K-12教育领域设计的LLM评估基准。为了准确评估各种LLM在中国K-12教育领域的表现,我们推出了E-EVAL。E-EVAL包括4351道选择题,涵盖了小学、初中和高中阶段,如图 1 所示,涵盖了23个学科,包括小学语文、数学、英语、科学、思想品德,以及初中和高中阶段的各种学科。我们进一步将问题分为两类:文科和理科,理科包括数学、物理、化学等,文科包括语文、英语、历史等。通常来说,理科的难度要高于文科。
zenRRan
2024/02/22
3150
92秒 < 75秒?E-EVAL揭露一众大模型不会做小学题目!
大语言模型-1.1-语言模型发展历程
本博客内容是《大语言模型》一书的读书笔记,该书是中国人民大学高瓴人工智能学院赵鑫教授团队出品,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。
IT从业者张某某
2025/03/15
1530
大语言模型-1.1-语言模型发展历程
临床模型 | 大型语言模型编码临床知识 | Nature
◉ 我们整理了MultiMedQA,这是一个涵盖医学考试、医学研究和消费者医学问题的基准数据集。◉ 我们在MultiMedQA上评估了PaLM及其指令调优变体Flan-PaLM。◉ 通过结合多种提示策略,Flan-PaLM在MedQA(美国医学执照考试)、MedMCQA、PubMedQA和MMLU临床主题上的表现超过了现有最先进的模型。◉ 特别是在MedQA(美国医学执照考试)上,其性能比之前的最佳水平提高了超过17%。◉ 接下来,我们提出了指令提示调优方法,以进一步使Flan-PaLM与医学领域对齐,生成了Med-PaLM。◉ 根据我们的人类评估框架,Med-PaLM对消费者医学问题的回答与临床医生的回答相当,证明了指令提示调优的有效性。
生信菜鸟团
2025/03/28
1010
临床模型 | 大型语言模型编码临床知识 | Nature
N-Gram模型 vs. RNN | 语言模型之战 | 老炮儿聊机器语音 | 3th
语言模型是自然语言处理中的核心模型,是对一句话的合理性进行度量的模型,比如“今天天气不错”就比“不错天气今天”要合理,如何对句子的合理性进行评价,是语言模型需要解决的核心问题。实现语言模型的基础从最初语言学家基于语言规则的度量,发展到现在的基于概率统计理论的度量,因此我们现在说的语言模型,基本都是指统计语言模型(Statistical Language Model)。
用户7623498
2020/08/04
5570
N-Gram模型 vs. RNN | 语言模型之战 | 老炮儿聊机器语音 | 3th
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
机器之心报道 机器之心编辑部 为什么仿佛一夜之间,自然语言处理(NLP)领域就突然突飞猛进,摸到了通用人工智能的门槛?如今的大语言模型(LLM)发展到了什么程度?未来短时间内,AGI 的发展路线又将如何? 自 20 世纪 50 年代图灵测试提出以来,人们始终在探索机器处理语言智能的能力。语言本质上是一个错综复杂的人类表达系统,受到语法规则的约束。因此,开发能够理解和精通语言的强大 AI 算法面临着巨大挑战。过去二十年,语言建模方法被广泛用于语言理解和生成,包括统计语言模型和神经语言模型。 近些年,研究人员通
机器之心
2023/04/06
1.4K0
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
推荐阅读
相关推荐
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验