课程 ID: 19229
描述:
话题概述:
随着大模型技术快速发展,语音识别正在进入新一轮技术迭代周期。在智能座舱、语音助手等高频交互场景中,用户的表达方式日趋自然、多样和个性化,不再局限于简单指令。语音识别作为整条语音交互链路的入口,其质量直接决定了后续理解、决策与响应的可靠性,也深刻影响着产品的智能化体验。相比传统方案,大模型驱动的语音识别在语义理解、上下文利用和长尾表达处理上展现出明显优势,但在实际落地中仍面临三大核心挑战:模型效果与推理时延之间的效率瓶颈、生成式解码带来的幻觉风险,以及大规模热词定制的精度与性能平衡。围绕这些挑战,我们结合算法创新与真实业务需求,探索了一套面向生产环境的语音识别升级方案。通过重新设计多阶段训练范式,我们以轻量化模型实现了与数倍参数量模型相当甚至更优的识别效果,大幅降低了推理时延与部署成本;同时在工程上实现了流式推理和基于RAG的热词实时定制,使系统能够快速响应业务侧的个性化需求。
本次分享将重点介绍大模型驱动语音识别升级过程中的关键挑战、系统设计思路,以及在车载和实时交互场景中的落地实践经验。目前该方案已在多项公开评测和内部真实场景中验证了竞争力,为大模型在复杂语音交互场景中的工程化落地提供了一条可参考的路径。
演讲题纲:
一、背景与动机(约5分钟)
* 语音识别在整条语音交互链路中的关键角色
* 从传统 ASR 到大模型驱动 ASR 的范式变化
* 真实交互场景(特别是车载场景)对 ASR 提出的新要求
二、核心挑战(约10分钟)
* 挑战一:模型效果与推理时延之间的效率瓶颈
* 挑战二:生成式解码带来的幻觉问题
* 挑战三:大规模热词定制——如何高效适配个性化词汇
三、系统设计与关键技术方案(约20分钟)
* 整体架构设计:encoder–adaptor–LLM 的功能角色划分思路
* 多阶段训练范式:如何通过训练策略提升参数效率,以轻量化模型实现large-scale模型效果
* 幻觉抑制:表征漂移的成因分析与训练侧的缓解策略
* 流式推理优化:增量上下文扩展架构如何实现低延迟实时识别
* 热词 RAG:基于音素检索的百万级热词定制方案
* ASR 专用强化学习:如何通过 RL 进一步提升流式场景鲁棒性
四、落地效果与实践经验(约10分钟)
* 公开评测结果:与主流开源模型的对比
* 内部真实场景效果:POI、媒体、车控、对话等场景的表现
* 热词定制的实际业务效果
* 工程部署经验与踩坑总结
五、总结与展望(约5分钟)
* 当前方案的局限与未来演进方向
* 对大模型 ASR 工程化落地的几点思考
话题亮点:
1. 从底层算法原理实现的轻量高效与低幻觉,为资源受限场景下的大模型落地提供了高性价比方案。
2. 完整的生产级落地方案,覆盖从多阶段训练、流式推理到百万级热词实时定制的完整链路。
3. 针对真实业务痛点的系统性优化:围绕效率瓶颈、幻觉抑制、热词定制三大核心落地难题,分别给出了经过业务验证的解决思路。