在自然语言生成和大规模语言模型推理中,Top - p采样(又叫核采样,Nucleus Sampling)是一种基于累积概率的采样策略。
Top - p中的p是一个概率阈值,取值范围是0到1。它表示在生成文本时,从概率分布中选择累计概率大于或等于p的最小词集,然后从这个词集中随机选择一个词作为输出。 例如,如果p = 0.7,那么模型会从概率分布中选出累计概率达到0.7的那些词,然后从中随机挑选一个作为下一个生成的词。较低的p值会使模型更倾向于选择最可能的词,生成的文本更可预测和重复;较高的p值则会让模型考虑更大的词集,生成的文本更多样和有创意。