Direct Preference Optimization — 使用人类偏好数据对齐模型,无需显式 reward 建模。支持 sigmoid/hinge/IPO/SimPO/ORPO/CPO 变体。
使用 InfoNCE 对比损失训练 Embedding 模型。支持全参数或 LoRA 微调。 查看完整源码 → import twinkle from twinkle import DeviceMesh from twinkle.dataloader import DataLoader from twinkle.dataset import Dataset, …
Group Relative Policy Optimization — 使用 vLLM 采样 + 自定义奖励函数(如 GSM8K 数学)。 查看完整源码 → import twinkle from twinkle import DeviceMesh, DeviceGroup, get_logger from twinkle.advantage import …
使用 Megatron 后端在华为昇腾 NPU 上训练,集成 MindSpeed 加速。 Twinkle 通过 kernelize_model() 自动应用融合 NPU 算子(RMSNorm、RoPE、SwiGLU、SDPA)。
标准多卡本地训练的 torchrun 启动方式: #!/usr/bin/env bash CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ torchrun --nproc_per_node=8 fsdp2.py \ --model-id ms://Qwen/Qwen3.5-4B \ --dataset-id …