Cookbook | Twinkle – LLM Training Framework by ModelScope

多模态 SFT (VLM)

视觉语言模型微调，支持图片输入（如 LaTeX OCR、Gemma4）。查看完整源码 →

2026年6月20日 • 1 分钟阅读时长

DPO (偏好优化)

Direct Preference Optimization — 使用人类偏好数据对齐模型，无需显式 reward 建模。支持 sigmoid/hinge/IPO/SimPO/ORPO/CPO 变体。

2026年6月15日 • 1 分钟阅读时长

多轮 RL (OpenEnv)

多轮 GRPO + 交互式环境 — Agent 通过 tool call 与环境交互，从 episode reward 中学习。查看完整源码 →

2026年6月8日 • 1 分钟阅读时长

On-Policy 蒸馏 (GKD)

广义知识蒸馏：学生 on-policy 生成，教师提供 top-k logprobs，学生学习匹配教师分布。

2026年6月2日 • 1 分钟阅读时长

Embedding 训练

使用 InfoNCE 对比损失训练 Embedding 模型。支持全参数或 LoRA 微调。查看完整源码 → import twinkle from twinkle import DeviceMesh from twinkle.dataloader import DataLoader from twinkle.dataset import Dataset, …

2026年5月28日 • 1 分钟阅读时长

GRPO (强化学习)

Group Relative Policy Optimization — 使用 vLLM 采样 + 自定义奖励函数（如 GSM8K 数学）。查看完整源码 → import twinkle from twinkle import DeviceMesh, DeviceGroup, get_logger from twinkle.advantage import …

2026年5月22日 • 1 分钟阅读时长

EP + MoE (DeepSeek V4 / Qwen3.5 MoE)

专家并行 + FSDP2，适用于 DeepSeek V4、Qwen3.5 MoE 等 MoE 模型。

2026年5月18日 • 1 分钟阅读时长

昇腾 NPU — Megatron + MindSpeed

使用 Megatron 后端在华为昇腾 NPU 上训练，集成 MindSpeed 加速。 Twinkle 通过 kernelize_model() 自动应用融合 NPU 算子（RMSNorm、RoPE、SwiGLU、SDPA）。

2026年5月12日 • 1 分钟阅读时长

Megatron 张量并行训练

通过 Megatron 后端进行张量并行训练 — 适用于单卡放不下的大模型。查看完整源码 →

2026年5月10日 • 1 分钟阅读时长

SFT — Transformers FSDP2

使用 FSDP2 分片 + Muon 优化器的监督微调。支持全参数和 LoRA 训练。查看完整源码 →

2026年5月5日 • 1 分钟阅读时长

Shell 启动 (torchrun)

标准多卡本地训练的 torchrun 启动方式： #!/usr/bin/env bash CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ torchrun --nproc_per_node=8 fsdp2.py \ --model-id ms://Qwen/Qwen3.5-4B \ --dataset-id …

2026年5月1日 • 1 分钟阅读时长

No results found