Twinkle Twinkle
  • 首页
  • 快速上手
  • 文档
  • 博客
  • Cookbook
  • 社区
中文 EN
ESC

Searching...

No results found

↑↓ Navigate ↵ Select
Powered by Hugo Blox
  • 博客
    • 序列并行与 Ring Attention:超长上下文训练技术解析
    • 昇腾 NPU 支持:融合算子与 Flash Linear Attention
    • 两种执行模式:torchrun(本地)与 Ray(分布式)
    • Multi-LoRA:共享 GPU 上的多租户并行训练
    • TUI 与 Auto-Research:用 AI Agent 控制训练
    • OpenEnv 集成:连接外部环境到 RL 训练
    • 魔搭社区免费 LLM 训练:Twinkle 训练即服务
  • 文档
    • 快速开始
    • 概念与架构
      • 组件
      • 运行模式
      • 多租户
      • 服务端与客户端
      • 训练即服务
      • Cookbook
      • NPU 支持
      • 架构
    • API 参考
    • 使用指引
      • 训练指南
      • Twinkle安装
      • 服务端和客户端
        • 概述
        • 服务端(Server)
        • 可观测化
        • Twinkle 客户端
        • Tinker 客户端
      • NPU(昇腾)开箱指南
      • ModelScope上的Twinkle训练服务
      • Qwen3.5 训练最佳实践
      • Embedding 模型训练
    • 组件
      • 数据集
        • 基本数据集组件
        • 懒加载数据集
        • 固定长度装箱数据集
        • 流式数据集
        • 流式固定长度装箱数据集
      • 数据格式
        • 消息
        • 轨迹
        • 模型输入
        • 模型输入
        • 采样输出
        • 模型输出
      • 模板
        • DeepSeek-V4 模板
        • 工具调用解析器
        • Template
      • 预处理器和过滤器
        • Preprocessor
        • 内置预处理器
        • Filter
      • 数据加载
        • DataLoader
      • 任务处理器
        • InputProcessor
      • 模型
        • 支持的模型
        • TwinkleModel
        • TransformersModel
        • MultiLoraTransformersModel
        • MegatronModel
        • MultiLoraMegatronModel
      • 采样器
        • Sampler
        • vLLMSampler
        • TorchSampler
      • 奖励
        • Reward
        • GSM8K 奖励
        • 多模态奖励
        • OlympiadBench 奖励
      • 优势
        • Advantage
        • GRPOAdvantage
        • RLOOAdvantage
      • Hub
        • Hub
      • 检查点引擎
        • CheckpointEngine
        • NCCLCheckpointEngine
        • HCCLCheckpointEngine
      • 指标
        • TrainMetric
        • LossMetric
        • Accuracy
        • CompletionRewardMetric
        • DPOMetric
        • GRPOMetric
        • EmbeddingMetric
        • 构建指标
      • 损失
        • InfoNCE 损失
        • 交叉熵
        • 分块交叉熵
        • DPO 损失
        • GKD 损失
        • GRPO 损失
        • MSE 损失
        • 构建新的 Loss
      • 损失缩放
        • 损失缩放
      • LRScheduler
        • CosineWarmupScheduler
        • LinearWarmupScheduler
      • 补丁
        • Patch
      • 组件化
        • Plugin
      • Kernel
      • 训练中间件
        • DeviceMesh/DeviceGroup
        • 专家并行 (EP)
        • 序列并行 (SP)
        • Padding-Free 训练
        • RemoteClass
        • TwinkleClient 客户端
      • CLI
        • CLI 命令行配置
      • 通知器
        • 通知器
      • Agentic
        • Agentic 预处理器
        • 协议(Protocol)
        • 多轮 Rollout
        • 工具与 ToolManager
        • 执行环境(Envs)
        • 多轮工具使用指南
      • Auto
        • Auto-Research
        • SkillProvider 技能系统
  • Cookbook
    • Shell 启动
    • SFT (FSDP2)
    • Megatron TP
    • NPU(昇腾)
    • EP + MoE
    • GRPO
    • Embedding
    • GKD 蒸馏
    • 多轮 RL
    • DPO
    • 多模态
  • 社区
  • 需要帮助?
  • 社区
  • GitHub ↗
  • 快速开始
  • 概念与架构
    • 组件
    • 运行模式
    • 多租户
    • 服务端与客户端
    • 训练即服务
    • Cookbook
    • NPU 支持
    • 架构
  • API 参考
  • 使用指引
    • 训练指南
    • Twinkle安装
    • 服务端和客户端
      • 概述
      • 服务端(Server)
      • 可观测化
      • Twinkle 客户端
      • Tinker 客户端
    • NPU(昇腾)开箱指南
    • ModelScope上的Twinkle训练服务
    • Qwen3.5 训练最佳实践
    • Embedding 模型训练
  • 组件
    • 数据集
      • 基本数据集组件
      • 懒加载数据集
      • 固定长度装箱数据集
      • 流式数据集
      • 流式固定长度装箱数据集
    • 数据格式
      • 消息
      • 轨迹
      • 模型输入
      • 模型输入
      • 采样输出
      • 模型输出
    • 模板
      • DeepSeek-V4 模板
      • 工具调用解析器
      • Template
    • 预处理器和过滤器
      • Preprocessor
      • 内置预处理器
      • Filter
    • 数据加载
      • DataLoader
    • 任务处理器
      • InputProcessor
    • 模型
      • 支持的模型
      • TwinkleModel
      • TransformersModel
      • MultiLoraTransformersModel
      • MegatronModel
      • MultiLoraMegatronModel
    • 采样器
      • Sampler
      • vLLMSampler
      • TorchSampler
    • 奖励
      • Reward
      • GSM8K 奖励
      • 多模态奖励
      • OlympiadBench 奖励
    • 优势
      • Advantage
      • GRPOAdvantage
      • RLOOAdvantage
    • Hub
      • Hub
    • 检查点引擎
      • CheckpointEngine
      • NCCLCheckpointEngine
      • HCCLCheckpointEngine
    • 指标
      • TrainMetric
      • LossMetric
      • Accuracy
      • CompletionRewardMetric
      • DPOMetric
      • GRPOMetric
      • EmbeddingMetric
      • 构建指标
    • 损失
      • InfoNCE 损失
      • 交叉熵
      • 分块交叉熵
      • DPO 损失
      • GKD 损失
      • GRPO 损失
      • MSE 损失
      • 构建新的 Loss
    • 损失缩放
      • 损失缩放
    • LRScheduler
      • CosineWarmupScheduler
      • LinearWarmupScheduler
    • 补丁
      • Patch
    • 组件化
      • Plugin
    • Kernel
    • 训练中间件
      • DeviceMesh/DeviceGroup
      • 专家并行 (EP)
      • 序列并行 (SP)
      • Padding-Free 训练
      • RemoteClass
      • TwinkleClient 客户端
    • CLI
      • CLI 命令行配置
    • 通知器
      • 通知器
    • Agentic
      • Agentic 预处理器
      • 协议(Protocol)
      • 多轮 Rollout
      • 工具与 ToolManager
      • 执行环境(Envs)
      • 多轮工具使用指南
    • Auto
      • Auto-Research
      • SkillProvider 技能系统
  • 需要帮助?
  • 社区
  • GitHub ↗
编辑本页
文档
组件
损失

损失

InfoNCE 损失 交叉熵 分块交叉熵 DPO 损失 GKD 损失 GRPO 损失 MSE 损失 构建新的 Loss
InfoNCE 损失 交叉熵 分块交叉熵 DPO 损失 GKD 损失 GRPO 损失 MSE 损失 构建新的 Loss
docs

© 2026 ModelScope. Licensed under Apache License 2.0.

由Hugo Blox支持发布——免费开源网站,为创作者赋能。 构建您的 →