LLM 训练基础设施领域发展迅速,各种平台涌现帮助团队微调和训练大语言模型。然而,一个关键的分歧存在:开源 vs 闭源。本文将解释 Twinkle 为何选择开源路线,以及这对企业采用意味着什么。
基于人类反馈的强化学习(RLHF)及其变体已成为 LLM 对齐的必备技术。这一领域有两个优秀的开源框架:veRL(来自字节 Seed 团队)和 Twinkle(来自魔搭社区)。两者都是生产就绪的框架,支持多种训练场景。本文将比较它们的架构理念,帮助你选择合适的工具。
我们很高兴地宣布,Twinkle 训练即服务(TaaS) 现已在魔搭社区上线!开发者可以免费体验 Twinkle 的训练 API——无需 GPU 集群。