文档中心

解决方案、常见问题、您都可以在这里找到

购买相关
支付相关
OpenAI(ChatGPT)
介绍
导言
身份验证
发出请求
参数详情
创建语音
创建转录
参数详情OpenAI(ChatGPT)

参数详情

频率和存在惩罚

Completions API 中发现的频率和存在惩罚可用于降低对令牌重复序列进行采样的可能性。他们通过添加贡献直接修改 logits(非标准化对数概率)来工作。

mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence

在哪里:

 

mu[j]是第 j 个标记的对数

 

c[j]是在当前位置之前对该令牌进行采样的频率

 

float(c[j] > 0)如果为 1,c[j] > 0否则为 0

 

alpha_frequency是频率惩罚系数

 

alpha_presence是存在惩罚系数

正如我们所见,存在惩罚是一种一次性的加性贡献,适用于所有至少被采样过一次的标记,而频率惩罚是与特定标记被采样的频率成正比的贡献。

如果目标只是稍微减少重复样本,则惩罚系数的合理值约为 0.1 到 1。如果目标是强烈抑制重复,那么可以将系数增加到 2,但这会显着降低样本质量。负值可用于增加重复的可能性。

浏览量:43
更新时间:2024-09-02 01:17:27