高密度高性能算法推断优化实践

案例来源:格灵深瞳
会议地点:上海
分享时间: 2019-05-19 13:30-14:30

周瑞  |

格灵深瞳 技术总监,首席架构师

负责基础研发方面的工作,曾就职于盛大,百度等公司,设计开发过多个大型分布式系统,在高性能计算,机器学习和大规模集群等方向都有丰富的经验。

课程概要

背景介绍:
随着视觉分析业务的日益落地普及,计算密度成为一个实际应用中的关注焦点,在单个服务器内可以处理的视频数量和现实世界中海量的视频接入之间产生了一道鸿沟,我们的基础研发团队花费了半年的时间,从系统底层开始逐步优化重构系统,最终达到了极限的分析能力。

解决思路/成功要点:
优化过程中将全部计算都移植到GPU上,将所有模型压缩量化,并在GPU内重组了整个计算流水线,精确利用显存进行缓存等方法,解放了CPU和内存,进而达到了直接插显卡就可以提升计算能力的目的。

成果:
最终的优化成果是每张显卡仅需要一个CPU物理核就能将显卡的算力完全发挥出来,做到在4U服务器上进行320路视频分析或者1000路以上摘要分析,并可在集群内扩容到万路以上规模。

听众收益

来自一线的算法推断优化实战经验

周瑞  |

格灵深瞳 技术总监,首席架构师

负责基础研发方面的工作,曾就职于盛大,百度等公司,设计开发过多个大型分布式系统,在高性能计算,机器学习和大规模集群等方向都有丰富的经验。

课程概要

背景介绍:
随着视觉分析业务的日益落地普及,计算密度成为一个实际应用中的关注焦点,在单个服务器内可以处理的视频数量和现实世界中海量的视频接入之间产生了一道鸿沟,我们的基础研发团队花费了半年的时间,从系统底层开始逐步优化重构系统,最终达到了极限的分析能力。

解决思路/成功要点:
优化过程中将全部计算都移植到GPU上,将所有模型压缩量化,并在GPU内重组了整个计算流水线,精确利用显存进行缓存等方法,解放了CPU和内存,进而达到了直接插显卡就可以提升计算能力的目的。

成果:
最终的优化成果是每张显卡仅需要一个CPU物理核就能将显卡的算力完全发挥出来,做到在4U服务器上进行320路视频分析或者1000路以上摘要分析,并可在集群内扩容到万路以上规模。

听众收益

来自一线的算法推断优化实战经验

详情咨询:赵丹丹
邮箱:dandan.zhao@msup.com.cn
联系电话:158-0221-7295
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2019 Msup