样例总览#

从数据集视角出发

该文档从数据集视角提供了一个样例列表，用户可以轻松了解哪些数据集已经在样例中覆盖和支持了。

数据集	算法	使用场景	参考文档
openai/gsm8k	GRPO	常规 RFT	样例位置, 相关文档
	GRPO	异步训练	样例位置, 相关文档
	Multi-Step GRPO	AgentScope ReAct 智能体训练	样例位置, 相关文档
	AsymRE	常规 RFT	样例位置
	CISPO	常规 RFT	样例位置
	GRPO	使用优先级任务进行训练	样例位置, 相关文档
	GRPO	在经验上进行奖励重塑的训练	样例位置, 相关文档
	GRPO	使用 RULER (Relative Universal LLM-Elicited Rewards) 进行训练	样例位置
	GRPO	训练策略模型作为其自身的奖励模型	样例位置
	GRPO	使用 LoRA 进行训练	样例位置
	OPMD	异策略 RFT	样例位置, 相关文档
	REC	使用组相对强化变体进行训练	样例位置
	sPPO	使用 sPPO 算法进行训练	样例位置
	TOPR	渐减式异策略 RFT	样例位置
数学类型任务	GRPO	使用 RM-Gallery 的奖励进行训练	样例位置
	AsymRE	常规 RFT	样例位置
	MIX	使用更先进大模型生成的“专家”数据进行训练	样例位置, 相关文档
ALFWorld	GRPO	拼接多轮 RFT	样例位置, 相关文档
	Multi-Step GRPO	通用多轮 RFT	样例位置, 相关文档
SciWorld	GRPO	拼接多轮 RFT	样例位置
WebShop	GRPO	拼接多轮 RFT	样例位置, 相关文档
callanwu/WebWalkerQA	Multi-Step GRPO	多轮网页搜索智能体训练	样例位置
corbt/enron-emails	Multi-Step GRPO	多轮邮件搜索智能体训练	样例位置, 相关文档
open-r1/DAPO-Math-17k-Processed	GRPO	常规 RFT	样例位置
LLM360/guru-RL-92k	GRPO	使用贝叶斯在线任务选择进行训练	样例位置
Frozen Lake	GRPO	拼接多轮 RFT	样例位置
anisha2102/RaR-Medicine	GRPO	针对不可验证医学问答任务，使用大模型裁判和评分标准提供奖励进行训练	样例位置
Team-ACE/ToolACE	GRPO	针对工具调用的常规 RFT	样例位置
hiyouga/geometry3k	GRPO	针对视觉语言模型的常规 RFT	样例位置
	MIX	使用更先进大模型生成的“专家”数据进行训练	样例位置
datajuicer/RealMedConv	GRPO	学习主动提问的常规 RFT	样例位置
datajuicer/Trinity-ToolAce-RL-split	CHORD	动态 SFT 与 RL 联合训练	样例位置
datajuicer/Trinity-ToolAce-SFT-split	CHORD	动态 SFT 与 RL 联合训练	样例位置
Jiayi-Pan/Countdown-Tasks-3to4	PPO	基于 critic 模型的训练	样例位置
	PPO	使用 Megatron-LM 作为训练后端	样例位置
	PPO	使用经验回放进行训练	样例位置
open-r1/Mixture-of-Thoughts	SFT	常规 SFT	样例位置, 相关文档
HumanLLMs/Human-Like-DPO-Dataset	DPO	基于预设人类偏好的训练	样例位置, 相关文档
示例数据	DPO	基于训练环路中人类实时偏好标注的训练	样例位置, 相关文档