跨语言预训练

课程 ID: 15514

描述:
话题概述: 在把自然语言模型扩展到多语言的过程中，新的语言往往缺少标注数据。跨语言预训练的目标是利用一个语言的标注数据帮助其他语言，实现语言之间的知识迁移。在本次分享中，我将会介绍跨语言预训练相关的背景知识，以及从如何利用双语数据和知识库来提高跨语言模型的迁移效果。本介绍种涉及的模型已经帮助了十余项微软产品进行多语言扩展。我们挑选了其中的代表性场景，将数据进行了开源。开源数据集包括6个任务，19种语言，涉及搜索引擎排序、智能问答、新闻分类等多个场景。演讲题纲: 一、跨语言预训练背景简介二、利用双语数据提高跨语言模型三、利用知识库提高跨语言模型四、微软真实业务数据的开源话题亮点： 1. 跨语言预训练领域的综合介绍, 2. 微软真实业务数据的开源