Twinkle Twinkle
  • 首页
  • 快速上手
  • 文档
  • 博客
  • Cookbook
  • 社区
中文 EN
ESC

Searching...

No results found

↑↓ Navigate ↵ Select
Powered by Hugo Blox
  • 博客
    • 序列并行与 Ring Attention:超长上下文训练技术解析
    • 昇腾 NPU 支持:融合算子与 Flash Linear Attention
    • 两种执行模式:torchrun(本地)与 Ray(分布式)
    • Multi-LoRA:共享 GPU 上的多租户并行训练
    • TUI 与 Auto-Research:用 AI Agent 控制训练
    • OpenEnv 集成:连接外部环境到 RL 训练
    • 魔搭社区免费 LLM 训练:Twinkle 训练即服务
  • 文档
    • 快速开始
    • 概念与架构
      • 组件
      • 运行模式
      • 多租户
      • 服务端与客户端
      • 训练即服务
      • Cookbook
      • NPU 支持
      • 架构
    • API 参考
    • 使用指引
      • 训练指南
      • Twinkle安装
      • 服务端和客户端
        • 概述
        • 服务端(Server)
        • 可观测化
        • Twinkle 客户端
        • Tinker 客户端
      • NPU(昇腾)开箱指南
      • ModelScope上的Twinkle训练服务
      • Qwen3.5 训练最佳实践
      • Embedding 模型训练
    • 组件
      • 数据集
        • 基本数据集组件
        • 懒加载数据集
        • 固定长度装箱数据集
        • 流式数据集
        • 流式固定长度装箱数据集
      • 数据格式
        • 消息
        • 轨迹
        • 模型输入
        • 模型输入
        • 采样输出
        • 模型输出
      • 模板
        • DeepSeek-V4 模板
        • 工具调用解析器
        • Template
      • 预处理器和过滤器
        • Preprocessor
        • 内置预处理器
        • Filter
      • 数据加载
        • DataLoader
      • 任务处理器
        • InputProcessor
      • 模型
        • 支持的模型
        • TwinkleModel
        • TransformersModel
        • MultiLoraTransformersModel
        • MegatronModel
        • MultiLoraMegatronModel
      • 采样器
        • Sampler
        • vLLMSampler
        • TorchSampler
      • 奖励
        • Reward
        • GSM8K 奖励
        • 多模态奖励
        • OlympiadBench 奖励
      • 优势
        • Advantage
        • GRPOAdvantage
        • RLOOAdvantage
      • Hub
        • Hub
      • 检查点引擎
        • CheckpointEngine
        • NCCLCheckpointEngine
        • HCCLCheckpointEngine
      • 指标
        • TrainMetric
        • LossMetric
        • Accuracy
        • CompletionRewardMetric
        • DPOMetric
        • GRPOMetric
        • EmbeddingMetric
        • 构建指标
      • 损失
        • InfoNCE 损失
        • 交叉熵
        • 分块交叉熵
        • DPO 损失
        • GKD 损失
        • GRPO 损失
        • MSE 损失
        • 构建新的 Loss
      • 损失缩放
        • 损失缩放
      • LRScheduler
        • CosineWarmupScheduler
        • LinearWarmupScheduler
      • 补丁
        • Patch
      • 组件化
        • Plugin
      • Kernel
      • 训练中间件
        • DeviceMesh/DeviceGroup
        • 专家并行 (EP)
        • 序列并行 (SP)
        • Padding-Free 训练
        • RemoteClass
        • TwinkleClient 客户端
      • CLI
        • CLI 命令行配置
      • 通知器
        • 通知器
      • Agentic
        • Agentic 预处理器
        • 协议(Protocol)
        • 多轮 Rollout
        • 工具与 ToolManager
        • 执行环境(Envs)
        • 多轮工具使用指南
      • Auto
        • Auto-Research
        • SkillProvider 技能系统
  • Cookbook
    • Shell 启动
    • SFT (FSDP2)
    • Megatron TP
    • NPU(昇腾)
    • EP + MoE
    • GRPO
    • Embedding
    • GKD 蒸馏
    • 多轮 RL
    • DPO
    • 多模态
  • 社区
  • 需要帮助?
  • 社区
  • GitHub ↗
  • 快速开始
  • 概念与架构
    • 组件
    • 运行模式
    • 多租户
    • 服务端与客户端
    • 训练即服务
    • Cookbook
    • NPU 支持
    • 架构
  • API 参考
  • 使用指引
    • 训练指南
    • Twinkle安装
    • 服务端和客户端
      • 概述
      • 服务端(Server)
      • 可观测化
      • Twinkle 客户端
      • Tinker 客户端
    • NPU(昇腾)开箱指南
    • ModelScope上的Twinkle训练服务
    • Qwen3.5 训练最佳实践
    • Embedding 模型训练
  • 组件
    • 数据集
      • 基本数据集组件
      • 懒加载数据集
      • 固定长度装箱数据集
      • 流式数据集
      • 流式固定长度装箱数据集
    • 数据格式
      • 消息
      • 轨迹
      • 模型输入
      • 模型输入
      • 采样输出
      • 模型输出
    • 模板
      • DeepSeek-V4 模板
      • 工具调用解析器
      • Template
    • 预处理器和过滤器
      • Preprocessor
      • 内置预处理器
      • Filter
    • 数据加载
      • DataLoader
    • 任务处理器
      • InputProcessor
    • 模型
      • 支持的模型
      • TwinkleModel
      • TransformersModel
      • MultiLoraTransformersModel
      • MegatronModel
      • MultiLoraMegatronModel
    • 采样器
      • Sampler
      • vLLMSampler
      • TorchSampler
    • 奖励
      • Reward
      • GSM8K 奖励
      • 多模态奖励
      • OlympiadBench 奖励
    • 优势
      • Advantage
      • GRPOAdvantage
      • RLOOAdvantage
    • Hub
      • Hub
    • 检查点引擎
      • CheckpointEngine
      • NCCLCheckpointEngine
      • HCCLCheckpointEngine
    • 指标
      • TrainMetric
      • LossMetric
      • Accuracy
      • CompletionRewardMetric
      • DPOMetric
      • GRPOMetric
      • EmbeddingMetric
      • 构建指标
    • 损失
      • InfoNCE 损失
      • 交叉熵
      • 分块交叉熵
      • DPO 损失
      • GKD 损失
      • GRPO 损失
      • MSE 损失
      • 构建新的 Loss
    • 损失缩放
      • 损失缩放
    • LRScheduler
      • CosineWarmupScheduler
      • LinearWarmupScheduler
    • 补丁
      • Patch
    • 组件化
      • Plugin
    • Kernel
    • 训练中间件
      • DeviceMesh/DeviceGroup
      • 专家并行 (EP)
      • 序列并行 (SP)
      • Padding-Free 训练
      • RemoteClass
      • TwinkleClient 客户端
    • CLI
      • CLI 命令行配置
    • 通知器
      • 通知器
    • Agentic
      • Agentic 预处理器
      • 协议(Protocol)
      • 多轮 Rollout
      • 工具与 ToolManager
      • 执行环境(Envs)
      • 多轮工具使用指南
    • Auto
      • Auto-Research
      • SkillProvider 技能系统
  • 需要帮助?
  • 社区
  • GitHub ↗
编辑本页
文档
组件
Agentic

Agentic

Agentic 预处理器 协议(Protocol) 多轮 Rollout 工具与 ToolManager 执行环境(Envs) 多轮工具使用指南
Agentic 预处理器 协议(Protocol) 多轮 Rollout 工具与 ToolManager 执行环境(Envs) 多轮工具使用指南
docs

© 2026 ModelScope. Licensed under Apache License 2.0.

由Hugo Blox支持发布——免费开源网站,为创作者赋能。 构建您的 →