小红书多模态 RL 开源引擎Relax 设计与实践

课程 ID: 19333

描述:
话题概述: 随着大模型从预训练走向强化学习后训练(RLHF/RL Post-Training)阶段,业界面临三个核心瓶颈:训练与推理耦合导致 GPU 利用率低下、单模态框架无法支撑文本 + 图像 + 视频 + 音频的 Omni 模型端到端 RL 训练、以及生产环境下弹性扩缩容与自动容错能力缺失。Relax(Reinforcement Engine Leveraging Agentic X-modality)是小红书 AI Infra 团队开源的全模态异步强化学习后训练框架,基于 Ray Serve 构建六层服务化架构,以 Megatron-LM 为训练后端、SGLang 为推理引擎,并通过自研 TransferQueue 数据传输系统实现训练与推理的完全解耦。Actor、Rollout、Reference 等角色运行在独立 GPU 集群上,通过异步流水线并行执行,大幅提升整体吞吐。目前 Relax 是业内极少数已开源并实际支持 Omni 模型(Qwen3-Omni)端到端 RL 后训练的框架之一,已在小红书内部大规模训练任务中稳定运行,并于 2026 年 4 月正式对外开源。 演讲题纲: 1. 背景与动机:大模型后训练规模化面临的三大瓶颈——训推耦合、单模态局限、生产可靠性缺失 2. 整体架构设计:六层服务化架构(Entrypoints / Orchestration / Components / Engine / Backends / Distributed)各层职责与设计动机 3. TransferQueue:完全异步流水线的核心机制——独立 GPU 集群间的流式数据交换与可配置 Staleness 控制 4. 全模态 RL 训练实现:文本、视觉、音频统一训练路径,多模态上下文 carry-over 在 Agentic RL 中的工程细节 5. 弹性扩缩与容错:运行时 REST API 动态增减推理实例、HealthManager 自动恢复、DCS 权重同步机制 6. 算法可插拔设计:GRPO / GSPO / SAPO / On-Policy Distillation 插件化实现,GenRM(LLM-as-judge)奖励函数接入 7. 开源历程与踩坑实录:从内部工具到生产级开源项目,CI/CD、双语文档、Checkpoint 兼容性的工程规范取舍 话题亮点: 1. 业内首批支持全模态(文本/图像/视频/音频)统一端到端 RL 训练的开源框架,实际完成 Qwen3-Omni 级别 Omni 模型后训练 2. 完全异步服务化架构:训练与推理彻底解耦,GPU 利用率显著高于 Colocate 方案,并支持运行时动态弹性扩缩推理集群 3. 生产级工程能力:HealthManager 自动故障恢复 + DCS 分布式 Checkpoint 服务 + 多平台 Metrics 统一接入,真正做到“训练任务不需要人工值守”