支持的模型

支持的模型

Twinkle 支持任何兼容 HuggingFace Transformers 或 Megatron-LM 的模型。以下是经过测试的模型列表。

语言模型

模型系列模型 ID参数量特性
Qwen 3.5Qwen/Qwen3.5-0.6B ~ Qwen/Qwen3.5-235B-A22B0.6B–235BMoE、思考模式
Qwen 2.5Qwen/Qwen2.5-0.5B ~ Qwen/Qwen2.5-72B0.5B–72BDense
DeepSeek V4deepseek-ai/DeepSeek-V4685B MoE自定义 DSML 编码
DeepSeek R1deepseek-ai/DeepSeek-R1685B MoE推理
LLaMA 3meta-llama/Llama-3.3-70B-Instruct8B–70BDense
Mistralmistralai/Mistral-7B-v0.37BDense
Yi01-ai/Yi-1.5-34B6B–34BDense
GLM-4THUDM/glm-4-9b-chat9BDense
InternLM 2.5internlm/internlm2_5-7b-chat7B–20BDense

视觉语言模型

模型系列模型 ID特性
Qwen 3.5 VLQwen/Qwen3.5-VL-3B ~ Qwen/Qwen3.5-VL-72B图片、视频
Qwen 2.5 VLQwen/Qwen2.5-VL-7B-Instruct图片、视频
InternVL 2.5OpenGVLab/InternVL2_5-8B图片

嵌入模型

模型系列模型 ID训练方法
Qwen3 EmbeddingQwen/Qwen3-Embedding-0.6BInfoNCE 对比学习
GTEthenlper/gte-large-zhInfoNCE 对比学习

模型加载

from twinkle.model import TransformersModel

# 从 ModelScope 加载(ms:// 前缀)
model = TransformersModel(model_id='ms://Qwen/Qwen3.5-4B')

# 从 HuggingFace 加载(hf:// 前缀)
model = TransformersModel(model_id='hf://meta-llama/Llama-3.3-70B-Instruct')

# 本地路径
model = TransformersModel(model_id='/path/to/model')

框架支持

框架类名适用场景
TransformersTransformersModel通用训练(SFT、RLHF、DPO)
Transformers + Multi-LoRAMultiLoraTransformersModel多租户训练
Megatron-LMMegatronModel大规模分布式预训练
Megatron + Multi-LoRAMultiLoraMegatronModel大规模多租户

精度支持

模式说明
bf16BFloat16 混合精度(推荐 A100/H100)
fp16Float16 混合精度(适用于旧 GPU)
fp8FP8 精度(H100 + Transformer Engine)
no全精度(仅用于调试)

并行策略

策略配置键说明
FSDPstrategy=accelerateAccelerate 管理的 FSDP(默认)
原生 FSDPstrategy=native_fsdpPyTorch 原生 FSDP
张量并行tp_size跨 GPU 切分层
流水线并行pp_size切分模型阶段
数据并行dp_size复制模型,切分数据
序列并行sequence_parallel切分长序列
专家并行ep_sizeMoE 专家分布
docs