在这个大模型时代,国内外各大厂商均对大模型积极布局,呈现百家争鸣的现象。 Nvidia或成最大赢家。最近10年, 是NLP技术和业务场景发展最快的黄金时期,NLP本身的技术体系被重构,所影响的业务领域也不断扩大。
GPT系列从1到3,通通采用的是transformer架构,可以说模型结构并没有创新性的设计。但是探索出一条路: 就是可以通过海量数据,超强算力,让NLP产生质的变化。
NVIDIA估算,如果要训练GPT-3,即使单个机器的显存/内存能装得下,用8张V100的显卡,训练时长预计要36年;如果拥有1024张80GBA100,那么完整训练GPT-3的时长可以缩减到1个月。
领取专属 10元无门槛券
私享最新 技术干货