从技术创新到业务赋能：小红书大模型推理优化及弹性部署工程实践

课程 ID: 18286

描述:
话题概述: 随着大模型技术从实验室走向产业落地，如何在保证性能的同时实现高效推理与低成本部署，已成为AI技术竞争的核心战场。小红书中台稠密平台团队基于自研的RedServingLLM推理引擎与QuickSilver大模型生产平台，打造了覆盖性能优化、模型压缩、动态调度、弹性部署的全链路解决方案，助力小红书内搜索、推荐、安全等10余个核心业务实现大模型高效落地。本次分享将聚焦于大模型推理性能优化与部署效率提升两大核心问题，结合团队在性能优化、量化压缩、知识蒸馏、弹性调度等领域的技术突破与实践，通过具体案例，介绍推理加速及降本的实战经验，解析从算法到工程的系统优化方法论，为行业提供可复用的技术范式。演讲题纲: 1. 小红书大模型推理部署特点及挑战 - 大模型推理部署特点与挑战 - 小红书大模型推理部署特点 - 小红书大模型推理部署挑战 2. 大模型推理加速技术实践 - 小红书引擎技术产品简介 - 大模型推理引擎优化技术实践概览 - 大模型压缩技术实践概览 - 大模型推理实践案例介绍（搜索、推荐、多模态等） 3. 大模型部署提效技术实践 - 大模型服务部署技术整体介绍 - 大模型弹性伸缩技术实践、整体效果及收益 - 大模型下载加速技术实践、整体效果及收益 - 大模型联邦部署技术实践、整体效果及收益 4. 大模型推理部署展望及思考 - 小红书推理部署演进思考及技术商品化 - 大模型推理部署行业演进思考话题亮点： 1、自研推理引擎性能领先：RedServingLLM在Dense场景性能超越开源框架30%以上，支持动态批处理、多模态异构部署、128K长上下文等复杂场景。 2、全栈压缩技术突破：覆盖量化（RedSlim支持W4A8无损压缩）、蒸馏（模型体积缩小70%+精度无损）、稀疏化多技术路径，突破传统量化性能上限。 3、弹性部署创新实践：实现大模型服务秒级冷启动（部署时间从1小时压缩至3分钟）、多集群异构资源调度，GPU利用率从14%提升至60%。