课程 ID: 15514
描述:
话题概述:
在把自然语言模型扩展到多语言的过程中,新的语言往往缺少标注数据。跨语言预训练的目标是利用一个语言的标注数据帮助其他语言,实现语言之间的知识迁移。在本次分享中,我将会介绍跨语言预训练相关的背景知识,以及从如何利用双语数据和知识库来提高跨语言模型的迁移效果。本介绍种涉及的模型已经帮助了十余项微软产品进行多语言扩展。我们挑选了其中的代表性场景,将数据进行了开源。开源数据集包括6个任务,19种语言,涉及搜索引擎排序、智能问答、新闻分类等多个场景。
演讲题纲:
一、跨语言预训练背景简介
二、利用双语数据提高跨语言模型
三、利用知识库提高跨语言模型
四、微软真实业务数据的开源
话题亮点:
1. 跨语言预训练领域的综合介绍, 2. 微软真实业务数据的开源