AquilaMoE的训练与优化

课程 ID: 17772

描述:
话题概述: 我们推出了 AquilaMoE，这是一款先进的双语8*16B混合专家（MoE）语言模型，采用了一种名为EfficientScale的创新训练方法开发。该方法通过两阶段过程优化性能的同时，最小化数据需求。第一阶段，称为“规模扩大”（Scale-Up），通过从预训练的较小模型传递权重来初始化更大的模型，实现了大量的知识迁移，并且可以用显著较少的数据继续进行预训练。第二阶段，称为“规模扩展”（Scale-Out），使用预训练的密集模型来初始化MoE专家，进一步增强了知识迁移和性能。在对1.8B和7B模型进行的广泛验证实验中，比较了各种初始化方案，最终实现了在持续预训练过程中保持并减少损失的模型。利用最优方案成功训练了一款16B模型，随后开发出8*16B的AquilaMoE模型，显著提高了性能和训练效率。在本次分享中，我们将会从背景介绍、数据集、高效训练方案、训练细节、训练工具等方面详解介绍我们的工程实践，同时也会基于我们踩的坑分享在MoE训练过程中的思考和对未来的展望。演讲题纲: AquilaMoE的训练与优化 1. 背景介绍 2. 数据集构建 3. 基于知识集成的高效训练方式 4. 训练细节和遇到的问题 5. LLM训练工具套件 6. 下一步计划话题亮点： 1. AquilaMoE采用一种高效训练的方式 2. AquilaMoE模型从头训练的完整过程