知己知彼,百战不殆
人工智能大模型时代已经来临,我们有充分的理由搞清楚火爆的NLP大模型的一些基本原理,方能在接下来的碳基生命和硅基生命赛跑进化的过程中不被落下,不能输在起跑线上!
题外话:为啥还是拿GPT上手?众所周知,谷歌Gemini视频是特意剪辑的,已经遭质疑,在使用行业标准5-shot MMLU的情况下,HuggingFace技术主管Philipp Schmid根据技术报告中的数据重新分析并得出结论:假设使用5-shot,Gemini的得分实为83.7%,而非90.0%;GPT4则取得86.4%的得分。
本系列是chatgpt入门指南,分上中下三篇,提纲挈领+通俗易懂的方式回答灵魂三问
1.ChatGPT是什么
2.ChatGPT如何训练
3.ChatGPT训练好了怎么用
•GPT技术路线的一大核心理念
•用最简单的自回归生成架构来解决无监督学习问题,也就是利用无须人特意标注的原始数据,学习其中对世界的映射。自回归生成架构,通俗的“只是一次添加一个词”。
•这里特别要注意的是,选择这种架构并不是为了做生成任务,而是为了理解或者学习,是为了实现模型的通用能力。
GPT模型的主要结构是一个多层的Transformer解码器,但它只使用了Transformer解码器的部分,没有使用编码器-解码器的结构。另外,为了保证生成的文本在语法和语义上的连贯性, GPT模型采用了因果掩码(causal mask)或者称为自回归掩码(auto-regressive mask),这使得每个单词只能看到其前面的单词,而不能看到后面的单词。
•Transformer的思想
为组成一段文本的标记序列做与此相似的事情。但是,Transformer不是仅仅定义了序列中可以连接的固定区域,而是引入了“注意力”的概念——即更多地“关注”序列的某些部分,而不是其他部分。也许在将来的某一天,可以启动一个通用神经网络并通过训练来完成所有的定制工作。但至少目前来看,在实践中将事物“模块化”似乎是至关重要的——就像Transformer所做的那样,也可能是我们的大脑所做的那样。
具体操作分为三个基本阶段。
1.第一阶段,它获取与目前的文本相对应的标记序列,并找到表示这些标记的一个嵌入(即由数字组成的数组)。
2.第二阶段,它以“标准的神经网络的方式”对此( emdedding)嵌入进行操作,值“像涟漪一样依次通过”网络中的各层,从而产生一个新的嵌入(即一个新的数组)。
3.第三阶段,它获取此数组的最后一部分,并据此生成包含约50000个值的数组,这些值就成了各个可能的下一个标记的概率。(没错,使用的标记数量恰好与英语常用词的数量相当,尽管其中只有约3000个标记是完整的词,其余的则是片段。)
•关键是,这条流水线的每个部分都由一个神经网络实现,其权重是通过对神经网络进行端到端的训练确定的。换句话说,除了整体架构,实际上没有任何细节是有“明确设计”的,一切都是从训练数据中学习得来的
小结一下
•ChatGPT的基本概念在某种程度上相当简单:首先从互联网、书籍等获取人类创造的海量文本样本,然后训练一个神经网络来生成“与之类似”的文本。特别是,它能够从“prompt”开始,继续生成“与其训练数据相似的文本”。
下一篇将讲述ChatGPT是如何训练的。喜欢的朋友欢迎关注、收藏、评论、转发
领取专属 10元无门槛券
私享最新 技术干货