指标 | Twinkle

TrainMetric

Mon, 01 Jan 0001 00:00:00 +0000

训练指标用于衡量训练过程中的状态。训练指标包含了当前学习率、当前step、总训练时长、训练速度等训练指标。

from twinkle.metric import TrainMetric
metric = TrainMetric()
metric.accumulate(None, None, lr=0.0001, step=10, gradient_accumulation_steps=16)
...
_metric = metric.calculate()

TrainMetric 不需要 device_mesh 和 process_group 信息，也不需要 inputs、outputs 信息

LossMetric

Mon, 01 Jan 0001 00:00:00 +0000

LossMetric用于打印和评估残差和grad_norm信息

from twinkle.metric import LossMetric
from twinkle.data_format import InputFeature, ModelOutput
metric = LossMetric(device_mesh=..., process_group=...)
metric.accumulate(InputFeature(labels=...), ModelOutput(loss=...), grad_norm=...)
...
_metric = metric.calculate()

Accuracy

Mon, 01 Jan 0001 00:00:00 +0000

准确率指标用于衡量训练时的token级别准确率信息。

from twinkle.metric import Accuracy
from twinkle.data_format import InputFeature, ModelOutput
metric = Accuracy(device_mesh=..., process_group=...)
metric.accumulate(InputFeature(labels=...), ModelOutput(logits=...))
...
_metric = metric.calculate()

Accuracy目前尚未支持List
\[InputFeature\]
作为输入，也就是对Megatron的支持待适配。

CompletionRewardMetric

Mon, 01 Jan 0001 00:00:00 +0000

CompletionRewardMetric 在 RLHF 训练过程中聚合关键统计数据，包括生成时间、权重同步时间、奖励分数和补全长度。

from twinkle.metric import CompletionRewardMetric

metric = CompletionRewardMetric(device_mesh=..., process_group=...)

# 在训练循环中累积
metric.accumulate(
 inputs,
 outputs,
 generation_time=gen_time,
 weight_sync_time=sync_time,
 rewards=reward_values,
 completions=completion_texts,
)

# 计算聚合指标
result = metric.calculate()
# result 包含: generation_time, weight_sync_time, mean_reward, mean_completion_length 等

此指标专为 GRPO 和其他 RL 训练循环设计，用于监控生成质量和系统性能。

CompletionRewardMetric 执行 DP 感知的聚合，在所有数据并行 rank 上正确地取平均值。

DPOMetric

Mon, 01 Jan 0001 00:00:00 +0000

DPOMetric 在 DPO 训练过程中跟踪偏好优化相关的统计数据。

from twinkle.metric import DPOMetric

metric = DPOMetric(device_mesh=..., process_group=...)

# 每次前向传播后累积
metric.accumulate(inputs, outputs, ref_outputs=ref_outputs)

# 计算聚合指标
result = metric.calculate()

跟踪的指标:

chosen_logps: chosen 响应的平均对数概率
rejected_logps: rejected 响应的平均对数概率
ref_chosen_logps: 参考模型对 chosen 响应的对数概率
ref_rejected_logps: 参考模型对 rejected 响应的对数概率
rewards/chosen: chosen 响应的隐式奖励
rewards/rejected: rejected 响应的隐式奖励
accuracy: chosen 优于 rejected 的样本对比例
margin: chosen 和 rejected 之间的平均奖励差距

DPOMetric 在所有数据并行 rank 上执行 DP 感知的聚合。支持交替排列和分开排列的 chosen/rejected 批次格式。

GRPOMetric

Mon, 01 Jan 0001 00:00:00 +0000

GRPOMetric 跟踪 GRPO 训练中的策略优化诊断指标，包括 KL 散度、裁剪率、熵和对数概率统计。

使用方法

from twinkle.metric import GRPOMetric

metric = GRPOMetric(
 device_mesh=device_mesh,
 process_group=process_group,
 epsilon=0.2, # PPO 裁剪范围
 temperature=1.0, # 用于 logp 重缩放的采样温度
 top_k_kl=10, # 每步记录 top-K 高 KL token
)

# 训练循环中
metric.accumulate(inputs, outputs, old_logps=old_logps, advantages=advantages)

# 日志间隔时
results = metric.calculate()

输出指标

指标	说明
`train/policy_confidence`	exp(mean_new_logp) — 越高表示模型越自信
`train/mean_new_logp`	当前策略下生成 token 的平均对数概率
`train/mean_old_logp`	参考策略下的平均对数概率
`train/approx_kl`	Schulman K3 KL 估计器
`train/entropy`	平均 token 级熵
`train/clip_ratio`	被裁剪的 token 比例

变体

GSPOMetric — 序列级裁剪率（几何平均比率）
CISPOMetric — 无条件裁剪率（不按优势符号门控）

EmbeddingMetric

Mon, 01 Jan 0001 00:00:00 +0000

EmbeddingMetric 跟踪对比学习（InfoNCE）训练中的嵌入质量，报告锚点-正样本余弦相似度和批内负样本相似度。

使用方法

from twinkle.metric import EmbeddingMetric

metric = EmbeddingMetric(device_mesh=device_mesh, process_group=process_group)

# 训练中
metric.accumulate(inputs, outputs)

# 日志间隔时
results = metric.calculate()
# results: {'pos_sim': '0.8523', 'neg_sim': '0.2134', 'loss': '0.3412', ...}

输出指标

指标	说明
`pos_sim`	锚点与正样本的平均余弦相似度
`pos_sim_min`	批内最小正样本相似度
`pos_sim_max`	批内最大正样本相似度
`neg_sim`	锚点与其他正样本（批内负样本）的平均相似度
`loss`	平均对比损失值
`grad_norm`	梯度范数

此指标与 InfonceLoss 配合使用，适用于嵌入/检索模型训练。

构建指标

Mon, 01 Jan 0001 00:00:00 +0000

指标用于衡量训练过程和训练结果。指标组件属于可定制组件的一部分。

class Metric:

 def __init__(self, device_mesh, process_group, **kwargs):
 self.process_group = process_group
 self.device_mesh = device_mesh

 # 由于 microbatch 的存在，输入到 Metric 的 inputs 可能是个 List
 def accumulate(self, inputs: 'Union[InputFeature, List[InputFeature]]', outputs: 'ModelOutput'):
 ...

 def calculate(self):
 ...

 def reset(self):
 ...

指标无法通过 Callable 传入。因为它包含了 accumulate 和 calculate 两个部分，并需要支持 reset 来归零。指标的构造中会自动传入 device_mesh 和隶属于当前 dp 组的 process_group，用以跨进程通信。并且，在实际的实现中，基类提供了 gather_results 方法来辅助收集各个进程的输入结果。