唯品会大规模稀疏模型推理优化实践

案例来源:唯品会
会议地点:上海
分享时间: 2021-11-27 11:00-12:00

詹益峰  |

唯品会 基础平台部资深工程师

詹益峰 唯品会基础平台部AI平台资深开发工程师 毕业于中山大学信息工程专业,目前就职于唯品会广州,负责深度学习训练推理平台开发,深度学习模型优化。主要专注的领域在深度学习框架,对Tensorflow, Pytorch框架有比较深入的理解,对于大规模稀疏模型有较多的实践和研究。

课程概要

话题概述:
背景
随着深度学习的不断发展,深度学习模型的应用领域从一开始的图像,NLP等领域逐渐延生到广告推荐搜索等领域中,Wide&Deep等深度学习模型也逐渐取代了传统的机器学习模型,成为该领域的主流。不同于其他的AI模型的是,推荐搜索等领域的深度学习模型往往需要涉及到大规模的离散特征,单机无法适应新的模型,因此我们需要一个新的方案来支撑超大规模离散特征的模型的训练和推理。

面临的挑战
第一个面临的挑战就是目前深度学习框架对动态分布式embedding的支持不够,推荐搜索等领域往往会使用稀疏特征作为模型特征输入,稀疏特征需要由高维映射到低维,也就是Embedding操作,由于稀疏特征的量级很大,模型的Embedding层往往有几十几百甚至上千G的大小,显然单机已经无法满足要求,因此需要一个支持动态扩展的分布式embedding存储计算方案来支持模型的使用,而目前开源方案中鲜有该功能的支持,因此需要我们针对深度学习框架做对应的定制来满足此要求。

第二个面临的挑战就是推理性能的挑战,不同于传统计算密集型的AI模型的是,大规模稀疏模型是IO密集和计算密集共存的模型,从模型输入特征到打分网络之前涉及到很多IO/访存密集的操作,而模型的打分网络又是计算密集型的,因此就需要我们对特定的模型进行有针对性的优化,降低模型推理的时延,提高计算资源的利用率,进而提高推理服务的吞吐。

解决思路
1. 针对大规模动态embedding,我们采用了训练推理一体化的方案,采用相同的分布式kv存储结构来实现,从根本上解决了大模型水平扩展的问题
2. 针对推理方面,一方面进行图优化(包括算子融合,图裁剪等方式)提高访存和计算的效率,另一方面针对不同的模型结构使用AI编译手段针对不同的硬件平台生成优化后的可执行指令,从而减少人工优化的成本。

成果
目前AI平台已经能够支持大规模的离散模型,一体化训练推理平台也已经上线,给推荐搜索诸多场景带来了可观的效果提升。


演讲题纲:
1. 大规模稀疏模型的背景和挑战
1.1 为什么需要支持动态Embedding
1.2 动态Embedding带来的挑战
2. 大规模动态embedding方案
2.1 Embedding分布式kv存储
2.2 分布式kv存储模型推理
3. 稀疏特征模型的推理优化
3.1 推理优化架构
3.2 推理优化方案介绍

话题亮点:
1. 提供了大规模稀疏场景深度学习的解决方案,从根本上解决了模型开发的痛点。
2. 针对推荐搜索的模型推理提出了定制化的优化方案,并且在实践中取得很好的效果。

听众收益

1. 了解大规模稀疏深度学习模型的痛点和解决方案
2. 了解在涉及大规模稀疏深度学习模型的推理优化的一些经验

詹益峰  |

唯品会 基础平台部资深工程师

詹益峰 唯品会基础平台部AI平台资深开发工程师 毕业于中山大学信息工程专业,目前就职于唯品会广州,负责深度学习训练推理平台开发,深度学习模型优化。主要专注的领域在深度学习框架,对Tensorflow, Pytorch框架有比较深入的理解,对于大规模稀疏模型有较多的实践和研究。

课程概要

话题概述:
背景
随着深度学习的不断发展,深度学习模型的应用领域从一开始的图像,NLP等领域逐渐延生到广告推荐搜索等领域中,Wide&Deep等深度学习模型也逐渐取代了传统的机器学习模型,成为该领域的主流。不同于其他的AI模型的是,推荐搜索等领域的深度学习模型往往需要涉及到大规模的离散特征,单机无法适应新的模型,因此我们需要一个新的方案来支撑超大规模离散特征的模型的训练和推理。

面临的挑战
第一个面临的挑战就是目前深度学习框架对动态分布式embedding的支持不够,推荐搜索等领域往往会使用稀疏特征作为模型特征输入,稀疏特征需要由高维映射到低维,也就是Embedding操作,由于稀疏特征的量级很大,模型的Embedding层往往有几十几百甚至上千G的大小,显然单机已经无法满足要求,因此需要一个支持动态扩展的分布式embedding存储计算方案来支持模型的使用,而目前开源方案中鲜有该功能的支持,因此需要我们针对深度学习框架做对应的定制来满足此要求。

第二个面临的挑战就是推理性能的挑战,不同于传统计算密集型的AI模型的是,大规模稀疏模型是IO密集和计算密集共存的模型,从模型输入特征到打分网络之前涉及到很多IO/访存密集的操作,而模型的打分网络又是计算密集型的,因此就需要我们对特定的模型进行有针对性的优化,降低模型推理的时延,提高计算资源的利用率,进而提高推理服务的吞吐。

解决思路
1. 针对大规模动态embedding,我们采用了训练推理一体化的方案,采用相同的分布式kv存储结构来实现,从根本上解决了大模型水平扩展的问题
2. 针对推理方面,一方面进行图优化(包括算子融合,图裁剪等方式)提高访存和计算的效率,另一方面针对不同的模型结构使用AI编译手段针对不同的硬件平台生成优化后的可执行指令,从而减少人工优化的成本。

成果
目前AI平台已经能够支持大规模的离散模型,一体化训练推理平台也已经上线,给推荐搜索诸多场景带来了可观的效果提升。


演讲题纲:
1. 大规模稀疏模型的背景和挑战
1.1 为什么需要支持动态Embedding
1.2 动态Embedding带来的挑战
2. 大规模动态embedding方案
2.1 Embedding分布式kv存储
2.2 分布式kv存储模型推理
3. 稀疏特征模型的推理优化
3.1 推理优化架构
3.2 推理优化方案介绍

话题亮点:
1. 提供了大规模稀疏场景深度学习的解决方案,从根本上解决了模型开发的痛点。
2. 针对推荐搜索的模型推理提出了定制化的优化方案,并且在实践中取得很好的效果。

听众收益

1. 了解大规模稀疏深度学习模型的痛点和解决方案
2. 了解在涉及大规模稀疏深度学习模型的推理优化的一些经验

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2021 Msup

获取大会更多详情

立即参会
报名咨询
报名咨询
优惠门票
×

扫码关注公众号:回复【A2M】

参与《免费领取PPT》活动



关注后,回复【A2M】

×

扫码关注公众号:回复【A2M】

参与《免费领取PPT》活动



关注后,回复【A2M】