样例总览#
从数据集视角出发
该文档从数据集视角提供了一个样例列表,用户可以轻松了解哪些数据集已经在样例中覆盖和支持了。
数据集 |
算法 |
使用场景 |
参考文档 |
|---|---|---|---|
GRPO |
常规 RFT |
||
GRPO |
异步训练 |
||
Multi-Step GRPO |
AgentScope ReAct 智能体训练 |
||
AsymRE |
常规 RFT |
||
CISPO |
常规 RFT |
||
GRPO |
使用优先级任务进行训练 |
||
GRPO |
在经验上进行奖励重塑的训练 |
||
GRPO |
使用 RULER (Relative Universal LLM-Elicited Rewards) 进行训练 |
||
GRPO |
训练策略模型作为其自身的奖励模型 |
||
GRPO |
使用 LoRA 进行训练 |
||
OPMD |
异策略 RFT |
||
REC |
使用组相对强化变体进行训练 |
||
sPPO |
使用 sPPO 算法进行训练 |
||
TOPR |
渐减式异策略 RFT |
||
数学类型任务 |
GRPO |
使用 RM-Gallery 的奖励进行训练 |
|
AsymRE |
常规 RFT |
||
MIX |
使用更先进大模型生成的“专家”数据进行训练 |
||
GRPO |
拼接多轮 RFT |
||
Multi-Step GRPO |
通用多轮 RFT |
||
GRPO |
拼接多轮 RFT |
||
GRPO |
拼接多轮 RFT |
||
Multi-Step GRPO |
多轮网页搜索智能体训练 |
||
Multi-Step GRPO |
多轮邮件搜索智能体训练 |
||
GRPO |
常规 RFT |
||
GRPO |
使用贝叶斯在线任务选择进行训练 |
||
GRPO |
拼接多轮 RFT |
||
GRPO |
针对不可验证医学问答任务,使用大模型裁判和评分标准提供奖励进行训练 |
||
GRPO |
针对工具调用的常规 RFT |
||
GRPO |
针对视觉语言模型的常规 RFT |
||
MIX |
使用更先进大模型生成的“专家”数据进行训练 |
||
GRPO |
学习主动提问的常规 RFT |
||
CHORD |
动态 SFT 与 RL 联合训练 |
||
CHORD |
动态 SFT 与 RL 联合训练 |
||
PPO |
基于 critic 模型的训练 |
||
PPO |
使用 Megatron-LM 作为训练后端 |
||
PPO |
使用经验回放进行训练 |
||
SFT |
常规 SFT |
||
DPO |
基于预设人类偏好的训练 |
||
示例数据 |
DPO |
基于训练环路中人类实时偏好标注的训练 |