课程 ID: 17549
描述:
话题概述:
自ChatGPT问世以来,大型语言模型(LLM)已经成为互联网领域的焦点话题。LLM的出现似乎预示着,解决自然语言相关任务的最优策略正在从针对具体场景进行独立训练的碎片化方法,逐步转变为依赖面向泛任务的大尺度模型。作为行业先锋的全民生活服务平台,58同城迅速将大语言模型应用于本地生活服务场景,以解决实际业务问题。然而,在这个过程中,我们发现大模型在垂直领域场景的知识深度不足,无法即刻投入使用。因此,我们将以本地生活服务领域为例,分享我们如何通过增量预训练、微调和对齐等阶段,引入特定行业的知识和数据,与拥有深度行业知识的专家们共同努力,将通用大模型转变为适应本地生活服务场景的大模型的过程。
演讲题纲:
讲述在将通用大模型转为领域大模型时,在训练/推理过程中,遇到的一些问题、解决方法及最终取得的效果。
话题亮点:
1.行业具体落地经验
2.业界开源推理框架的深入尝试(TGI/vLLM/tensorRT LLM)
3.多种低参微调方法的对比及分析
4.MoE训练范式的一些经验