奖励 | Twinkle

Reward

Mon, 01 Jan 0001 00:00:00 +0000

Reward (奖励函数) 是 RLHF 训练中用于评估模型输出质量的组件。奖励函数根据模型生成的轨迹计算奖励分数,用于指导策略学习。

基本接口

class Reward:

 def __call__(self, trajectories: List[Trajectory], ground_truths: List[Trajectory]):
 """
 计算奖励值

 Args:
 trajectories: 模型生成的轨迹列表
 ground_truths: 真实答案轨迹列表

 Returns:
 奖励值列表
 """
 ...

MathReward

数学奖励函数用于评估数学问题的答案正确性。

from twinkle.reward import MathReward

reward_fn = MathReward()
rewards = reward_fn(generated_trajectories, ground_truth_trajectories)
# rewards: List[float],1.0 表示正确,0.0 表示错误

FormatReward

格式奖励函数用于检查输出是否符合指定格式。

from twinkle.reward import FormatReward

reward_fn = FormatReward()
rewards = reward_fn(trajectories, ground_truths)

自定义奖励函数

你可以通过继承 Reward 基类或使用函数来创建自定义奖励:

from twinkle.reward import Reward
from twinkle.data_format import Trajectory
from typing import List

class CustomReward(Reward):

 def __call__(self, trajectories: List[Trajectory], ground_truths: List[Trajectory]):
 rewards = []
 for traj, gt in zip(trajectories, ground_truths):
 # 自定义评估逻辑
 score = self._evaluate(traj, gt)
 rewards.append(score)
 return rewards

 def _evaluate(self, traj, gt):
 # 实现具体评估逻辑
 ...

或使用函数:

def my_reward(trajectories, ground_truths):
 return [1.0 if t == gt else 0.0 for t, gt in zip(trajectories, ground_truths)]

# 在训练中使用
rewards = my_reward(generated, ground_truths)

使用场景

奖励函数在 RLHF 训练的典型使用流程:

from twinkle.sampler import vLLMSampler
from twinkle.reward import MathReward
from twinkle.advantage import GRPOAdvantage

sampler = vLLMSampler(model_id='ms://Qwen/Qwen3.5-4B')
reward_fn = MathReward()
advantage_fn = GRPOAdvantage()

for batch in dataloader:
 # 1. 采样生成多个候选答案
 response = sampler.sample(batch, num_samples=4)

 # 2. 使用奖励函数评估质量
 rewards = reward_fn(response.trajectories, batch.ground_truths)

 # 3. 计算优势值
 advantages = advantage_fn(rewards, num_generations=4)

 # 4. 用优势值进行策略梯度更新
 ...

奖励函数的设计对 RLHF 效果至关重要。好的奖励函数应该准确反映任务目标,并提供明确的学习信号。

GSM8K 奖励

Mon, 01 Jan 0001 00:00:00 +0000

专为评估 GSM8K 数学问题求解设计的奖励函数。

GSM8KAccuracyReward

通过提取 boxed 或 hash 格式（####）的答案并进行数值/字符串比较来评估 GSM8K 答案的正确性。

from twinkle.reward import GSM8KAccuracyReward

reward_fn = GSM8KAccuracyReward()
rewards = reward_fn(generated_trajectories, ground_truth_trajectories)
# rewards: List[float], 1.0 表示正确, 0.0 表示错误

奖励函数的工作流程:

从模型补全中提取 \boxed{...} 或 #### ... 格式的答案
从参考轨迹中提取真实答案
执行数值比较（带容差）或精确字符串匹配

GSM8KFormatReward

检查模型输出是否包含正确格式的答案部分。

from twinkle.reward import GSM8KFormatReward

reward_fn = GSM8KFormatReward()
rewards = reward_fn(trajectories, ground_truths)
# rewards: List[float], 1.0 表示格式有效, 0.0 表示无效

在数学问题求解的 GRPO 训练中，将 GSM8KAccuracyReward 和 GSM8KFormatReward 组合使用作为复合奖励。

多模态奖励

Mon, 01 Jan 0001 00:00:00 +0000

用于评估多模态视觉问答（VQA）任务的奖励函数。

MultiModalAccuracyReward

评估多模态 VQA 答案的正确性，支持回退到符号数学验证。

from twinkle.reward import MultiModalAccuracyReward

reward_fn = MultiModalAccuracyReward()
rewards = reward_fn(generated_trajectories, ground_truth_trajectories)
# rewards: List[float], 1.0 表示正确, 0.0 表示错误

奖励函数的工作流程:

从补全文本中提取模型的答案
使用精确字符串匹配与真实答案比较
当字符串匹配失败时回退到 math_verify 进行符号表达式比较

专为 CLEVR 等视觉推理任务设计，答案可能是数字、布尔值或短文本。

OlympiadBench 奖励

Mon, 01 Jan 0001 00:00:00 +0000

用于评估 OlympiadBench 数学和物理竞赛问题的奖励函数族。

OlympiadBenchAccuracyReward

评估答案正确性，支持 LaTeX 归一化、数值容差和部分匹配。

from twinkle.reward import OlympiadBenchAccuracyReward

reward_fn = OlympiadBenchAccuracyReward()
rewards = reward_fn(generated_trajectories, ground_truth_trajectories)
# rewards: List[float], 1.0 表示正确, 0.0 表示错误

奖励函数的工作流程:

从 \boxed{...} 中提取答案，支持嵌套大括号处理
归一化预测和真实答案（LaTeX、单位、分数）
通过归一化字符串匹配或带容差的数值比较进行判断

OlympiadBenchFormatReward

验证模型输出的结构格式。

from twinkle.reward import OlympiadBenchFormatReward

reward_fn = OlympiadBenchFormatReward()
rewards = reward_fn(trajectories, ground_truths)
# rewards: List[float], 基于格式质量的分数

评分标准:

\boxed{...} 答案的存在性
答案位置（应出现在末尾附近）
答案的唯一性和一致性

OlympiadBenchQualityReward

结合多个维度评估响应质量的复合奖励。

from twinkle.reward import OlympiadBenchQualityReward

reward_fn = OlympiadBenchQualityReward()
rewards = reward_fn(trajectories, ground_truths)

质量维度:

推理结构: 检测逐步推理模式
长度适当性: 对过短或过长响应的平滑惩罚曲线
内容唯一性: 惩罚响应中的重复内容

这些奖励可以单独使用或组合为复合奖励，用于竞赛级数学和物理问题的 GRPO 训练。