小红书多模态 RL 开源引擎Relax 设计与实践

课程 ID: 19333

描述:
话题概述: 随着大模型从预训练走向强化学习后训练（RLHF/RL Post-Training）阶段，业界面临三个核心瓶颈：训练与推理耦合导致 GPU 利用率低下、单模态框架无法支撑文本 + 图像 + 视频 + 音频的 Omni 模型端到端 RL 训练、以及生产环境下弹性扩缩容与自动容错能力缺失。Relax（Reinforcement Engine Leveraging Agentic X-modality）是小红书 AI Infra 团队开源的全模态异步强化学习后训练框架，基于 Ray Serve 构建六层服务化架构，以 Megatron-LM 为训练后端、SGLang 为推理引擎，并通过自研 TransferQueue 数据传输系统实现训练与推理的完全解耦。Actor、Rollout、Reference 等角色运行在独立 GPU 集群上，通过异步流水线并行执行，大幅提升整体吞吐。目前 Relax 是业内极少数已开源并实际支持 Omni 模型（Qwen3-Omni）端到端 RL 后训练的框架之一，已在小红书内部大规模训练任务中稳定运行，并于 2026 年 4 月正式对外开源。演讲题纲: 1. 背景与动机：大模型后训练规模化面临的三大瓶颈——训推耦合、单模态局限、生产可靠性缺失 2. 整体架构设计：六层服务化架构（Entrypoints / Orchestration / Components / Engine / Backends / Distributed）各层职责与设计动机 3. TransferQueue：完全异步流水线的核心机制——独立 GPU 集群间的流式数据交换与可配置 Staleness 控制 4. 全模态 RL 训练实现：文本、视觉、音频统一训练路径，多模态上下文 carry-over 在 Agentic RL 中的工程细节 5. 弹性扩缩与容错：运行时 REST API 动态增减推理实例、HealthManager 自动恢复、DCS 权重同步机制 6. 算法可插拔设计：GRPO / GSPO / SAPO / On-Policy Distillation 插件化实现，GenRM（LLM-as-judge）奖励函数接入 7. 开源历程与踩坑实录：从内部工具到生产级开源项目，CI/CD、双语文档、Checkpoint 兼容性的工程规范取舍话题亮点： 1. 业内首批支持全模态（文本/图像/视频/音频）统一端到端 RL 训练的开源框架，实际完成 Qwen3-Omni 级别 Omni 模型后训练 2. 完全异步服务化架构：训练与推理彻底解耦，GPU 利用率显著高于 Colocate 方案，并支持运行时动态弹性扩缩推理集群 3. 生产级工程能力：HealthManager 自动故障恢复 + DCS 分布式 Checkpoint 服务 + 多平台 Metrics 统一接入，真正做到“训练任务不需要人工值守”