这个阈值可以看作是概率分布的

shafi987@gmail. · 發表於 2024-3-20 13:57:39

然而，如果遇到词组或者成语，这些通常被视为一个整体，因此在模型输出中，一个词组或成语会被标记为一个或多个连续的token。比如，“人工智能这个词组在模型中可能会被标记为两个token“人工和“智能，或者作为一个整体标记为token，这取决于模型的训练方式和分词策略。至于“造词，通常发生在模型在生成过程中遇到它从为见过的词或短语时，由于模型是基于大量文本数据训练的，它可能学习到一些词汇的组合方式，即使这些组合在训练数据中并不存在。在某些情况下，

模型可能会尝试将这些组合方式应用到新的上下文中，从而产生冰岛手机号码数据新的词或短语。“造词的能力，是ChatGPT学习到的能力，从这点也验证了ChatGPT不是为了做生成任务，而是为了理解和学习。上文也说到ChatGPT在完成生成任务的本质是一遍又一遍的询问“根据当前上下文，下一个词是什么，而它在每一遍的询问过程中都会得到一个带概率的词汇表。所以它就会选择概率值最高的词，把概率值最高的词添加为“标记吗？如果ChatGPT真的是如此这样做的，那么你通常只会得到一篇非常“平淡的文章，完全显示不出任何创造力，甚至会一字不差的重复前文。事实上，模型并不总是选择概率最高的词，而是综合考虑整个序列的上下文信息来做出最终的选择，

即对上下文“合理的延续或“意义匹配。三、温度参数：控制生成的多样性在自回归模型中，“温度 Temperature是一个控制文本生成多样性的参数。高温度当温度值较高时，模型倾向于选择概率分布中较低概率的词。这增加了生成文本的随机性和多样性。这种情况下，模型可能生成意想不到、创造性的文本，但同时也会产生不连贯或不和逻辑的内容。低温度当温度较低时，模型更倾向于选择概率分布中较高概率的词，这使得生成的文本内容更加保守和可预测。这种情况下，文本的连贯性和准确性会提高，但创造性可能会受到限制。阈值在某些情况下，模型可能会使用一个阈值来限制选择的词。一个截断点，只有高于阈值的词才会被考虑。阈值的设置会影响模型在生成文本时的保守程度。

		自動登錄	找回密碼
密碼			立即註冊