样例总览

样例总览#

从数据集视角出发

该文档从数据集视角提供了一个样例列表,用户可以轻松了解哪些数据集已经在样例中覆盖和支持了。

数据集

算法

使用场景

参考文档

openai/gsm8k

GRPO

常规 RFT

样例位置, 相关文档

GRPO

异步训练

样例位置, 相关文档

Multi-Step GRPO

AgentScope ReAct 智能体训练

样例位置, 相关文档

AsymRE

常规 RFT

样例位置

CISPO

常规 RFT

样例位置

GRPO

使用优先级任务进行训练

样例位置, 相关文档

GRPO

在经验上进行奖励重塑的训练

样例位置, 相关文档

GRPO

使用 RULER (Relative Universal LLM-Elicited Rewards) 进行训练

样例位置

GRPO

训练策略模型作为其自身的奖励模型

样例位置

GRPO

使用 LoRA 进行训练

样例位置

OPMD

异策略 RFT

样例位置, 相关文档

REC

使用组相对强化变体进行训练

样例位置

sPPO

使用 sPPO 算法进行训练

样例位置

TOPR

渐减式异策略 RFT

样例位置

数学类型任务

GRPO

使用 RM-Gallery 的奖励进行训练

样例位置

AsymRE

常规 RFT

样例位置

MIX

使用更先进大模型生成的“专家”数据进行训练

样例位置, 相关文档

ALFWorld

GRPO

拼接多轮 RFT

样例位置, 相关文档

Multi-Step GRPO

通用多轮 RFT

样例位置, 相关文档

SciWorld

GRPO

拼接多轮 RFT

样例位置

WebShop

GRPO

拼接多轮 RFT

样例位置, 相关文档

callanwu/WebWalkerQA

Multi-Step GRPO

多轮网页搜索智能体训练

样例位置

corbt/enron-emails

Multi-Step GRPO

多轮邮件搜索智能体训练

样例位置, 相关文档

open-r1/DAPO-Math-17k-Processed

GRPO

常规 RFT

样例位置

LLM360/guru-RL-92k

GRPO

使用贝叶斯在线任务选择进行训练

样例位置

Frozen Lake

GRPO

拼接多轮 RFT

样例位置

anisha2102/RaR-Medicine

GRPO

针对不可验证医学问答任务,使用大模型裁判和评分标准提供奖励进行训练

样例位置

Team-ACE/ToolACE

GRPO

针对工具调用的常规 RFT

样例位置

hiyouga/geometry3k

GRPO

针对视觉语言模型的常规 RFT

样例位置

MIX

使用更先进大模型生成的“专家”数据进行训练

样例位置

datajuicer/RealMedConv

GRPO

学习主动提问的常规 RFT

样例位置

datajuicer/Trinity-ToolAce-RL-split

CHORD

动态 SFT 与 RL 联合训练

样例位置

datajuicer/Trinity-ToolAce-SFT-split

CHORD

动态 SFT 与 RL 联合训练

样例位置

Jiayi-Pan/Countdown-Tasks-3to4

PPO

基于 critic 模型的训练

样例位置

PPO

使用 Megatron-LM 作为训练后端

样例位置

PPO

使用经验回放进行训练

样例位置

open-r1/Mixture-of-Thoughts

SFT

常规 SFT

样例位置, 相关文档

HumanLLMs/Human-Like-DPO-Dataset

DPO

基于预设人类偏好的训练

样例位置, 相关文档

示例数据

DPO

基于训练环路中人类实时偏好标注的训练

样例位置, 相关文档