多模态 SFT (VLM)

视觉语言模型微调,支持图片输入(如 LaTeX OCR、Gemma4)。 查看完整源码 →

DPO (偏好优化)

Direct Preference Optimization — 使用人类偏好数据对齐模型,无需显式 reward 建模。支持 sigmoid/hinge/IPO/SimPO/ORPO/CPO 变体。

多轮 RL (OpenEnv)

多轮 GRPO + 交互式环境 — Agent 通过 tool call 与环境交互,从 episode reward 中学习。 查看完整源码 →

On-Policy 蒸馏 (GKD)

广义知识蒸馏:学生 on-policy 生成,教师提供 top-k logprobs,学生学习匹配教师分布。

Embedding 训练

使用 InfoNCE 对比损失训练 Embedding 模型。支持全参数或 LoRA 微调。 查看完整源码 → import twinkle from twinkle import DeviceMesh from twinkle.dataloader import DataLoader from twinkle.dataset import Dataset, …

GRPO (强化学习)

Group Relative Policy Optimization — 使用 vLLM 采样 + 自定义奖励函数(如 GSM8K 数学)。 查看完整源码 → import twinkle from twinkle import DeviceMesh, DeviceGroup, get_logger from twinkle.advantage import …

EP + MoE (DeepSeek V4 / Qwen3.5 MoE)

专家并行 + FSDP2,适用于 DeepSeek V4、Qwen3.5 MoE 等 MoE 模型。

昇腾 NPU — Megatron + MindSpeed

使用 Megatron 后端在华为昇腾 NPU 上训练,集成 MindSpeed 加速。 Twinkle 通过 kernelize_model() 自动应用融合 NPU 算子(RMSNorm、RoPE、SwiGLU、SDPA)。

Megatron 张量并行训练

通过 Megatron 后端进行张量并行训练 — 适用于单卡放不下的大模型。 查看完整源码 →

SFT — Transformers FSDP2

使用 FSDP2 分片 + Muon 优化器的监督微调。支持全参数和 LoRA 训练。 查看完整源码 →

Shell 启动 (torchrun)

标准多卡本地训练的 torchrun 启动方式: #!/usr/bin/env bash CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ torchrun --nproc_per_node=8 fsdp2.py \ --model-id ms://Qwen/Qwen3.5-4B \ --dataset-id …