专题出品人: 唐扬

美图公司 美图秀秀 高级技术专家

专题:性能优化

本专题下的议题

美图秀秀性能优化实践
钟杰 北京美图之家 用户产品研发部/美图秀秀技术-技术专家
所属专题:性能优化

课程概要

话题概述:
随着美图秀秀功能迭代完善和新玩法的推出,用户每天上传的图片、视频等资源量越来越多,文件大小也越来越大,如何提高资源上传效率并保证成功率,成为了一大挑战。加上视频内容消费场景越来越多,如何提升视频播放容错率,提高用户观看体验?各类新颖玩法的推出,素材也越来越丰富,素材包体积的增大,用户下载素材使用体验如何能得到更好的保障等。本次话题中我们将结合几个实际处理案例,分享美图秀秀是如何引入HTTP/3来提高资源加速上传,融合调度平台为什么能提升容错率从而带来更好的用户体验,素材方面又做了哪些优化方案,从而提升服务SLA并极大程度降低带宽成本。

演讲题纲:
1.美图秀秀现状分析以及所面临的挑战
2.优化关注点和性能评估手段
3.性能优化实践-3个具体案例分析
4.总结

话题亮点:
1.HTTP/3落地应用
2.融合调度平台
3.素材中心优化策略

听众收益

1.HTTP/3的落地方案
2.融合调度平台设计架构,如何在不同网络环境下提升视频播放的容错率
3.大量静态资源情况下的优化方案

微博直播互动架构的热点挑战和应对实战
单戈 新浪微博 微博研发中心-流媒体平台-直播基础服务架构师
所属专题:性能优化

课程概要

话题概述:
随着新冠疫情的爆发和持续,以微博直播为载体的各类发布会、慢直播、云课堂、直播带货、线上演唱会等活动络绎不绝,直播热度也水涨船高。尤其是“全国中小学消防公开课”的微博独家直播,有数百万的同时在线人数,数万的瞬时进场速度和每秒互动量,短短1个多小时就达到了6280万的观看量。海量用户涌入同一个直播间所产生的热点难题,比进入分散的多个房间要更难于处理。我将为您分享微博直播在此场景下所面临的技术挑战和应对实践。

演讲题纲:
- 1.业务背景
- (1)背景:消防在线云课堂,面向全国中小学生,宣传消防安全知识。要求全国中小学生必须在线观看,部分企业也给职工下达了观看的要求,且有明星公益使者参与助力。
- (2)过程:观众提前打开微博等候,开播后快速进场。微博侧提供开屏、热搜、置顶、推荐等手段推热度
- (3)成绩:流和IM一切正常。提供播放量、涨粉量、话题阅读量、在线量、互动量、消息下推量等数据和监控图趋势
- (4)展示来自 @中国消防 的感谢微博
- 2.超热直播的技术挑战
- (1)有强制观看要求:预计在线人数极高。
- (2)定时直播预告:观众提前打开微博候着,瞬时进场速度极快。对服务器、资源压力大,尤其对直播间级的资源单端口的读写qps极高。
- (3)用户互动热情高:生动的内容引发观众激烈的讨论,主持人的提问环节让瞬时互动量更高。对全链路压力大
- (4)用户观看时间长:持续观看、热度只增不减。对服务持续产生压力
- (5)微博各种资源推广:导流其他用户进场,热度持续增长
- (6)联动其他热点:微博其他服务均产生热点、有扩容需求,可能导致ECS库存紧张
- (7)仅提前1天报备:准备时间较短,热度史无前例,这要求平时的工作到位,临时抱佛脚来不及。
- 3.超热直播的应对方案
- (1)应对海量在线用户
- I.架构设计
- i.直播IM分层架构图介绍。服务无状态,方便水平扩容
- ii.资源按用户维度拆分多端口,避免资源热点
- iii.服务器压力负载均衡
- iv.拉流直播中,流的传输架构图介绍
- v.播放端码率支持在线控制,在架构图中的控制位置
- II.运维保障
- i.提前扩容足量的机器,保证预估用户容量:SLB和服务器扩容、资源扩从
- ii.监控资源qps、容量,长连网关的在线用户数、load、带宽、pps等指标
- iii.持续关注服务器压力,应对微博推广资源的持续投入,通过微博混合云DCP服务自动扩容
- 扩容要快速,保障服务稳定。介绍扩容因子计算方案,介绍ECI扩容模式
- 缩容要及时,优化成本
- iv.消息限速和降级预案
- (2)应对超快进场速度:
- I.架构设计
- i.对第三方接口的请求异步化处理,内存合并、批量调用
- ii.对资源写入时,使用buffer组件,对计数变更采用内存合并计算、通过pipeline发送命令。介绍buffer的实现原理
- iii.对资源读取时,对于允许一定延迟的数据,优先读取LocalCache缓存。介绍思路和可cache的数据
- iv.提供优化前后的数据对比
- v.直播入口获取直播间信息支持静态化
- II.运维保障
- i.业务处理机扩容,具备更强的处理能力。机器越多,buffer和cache的作用越明显。
- ii.资源扩从库,减少读库的压力。
- iii.限速和降级预案:不下推历史消息,远程方法改为本地实现,降级铁粉关系查询
- iv.直播间入口静态化处理
- (3)应对互动瞬时高峰
- I.架构设计
- i.消息上行处理和下推流程图介绍
- ii.上行消息过多级限速,内容审核
- iii.待下推消息分级,在长连网关通过优先级队列下推
- iv.可靠性保障,重要消息必达
- II.运维保障
- i.全链路提前扩容:发号器、用户关系、FEED评论、反垃圾、内容监控
- ii.监控长连网关的带宽和PPS指标,自动扩容
- iii.限速和降级预案
- (4)全链路压测演练
- I.全链路压测系统设计和实现
- II.全链路压测的范围
- III.压测结果:百万用户在线、千万级消息下推时,达到率99.99%,99.99%的消息延迟1.5秒
- IV.随着需求迭代和架构调整的工作,定期对系统进行压测
- 4.总结与展望

话题亮点:
1.业界领先的直播互动解决方案
2.介绍了全网和单直播间超热的不同场景下,分别的性能优化重点,如何解决单点过热的问题
3.介绍了服务可用性验证和稳定性保障方案

听众收益

1.了解微博直播的业务形态和热点挑战
2.了解全网和单房间热点的情况下分别的优化方案,如何解决单点过热的问题
3.如何对IM服务进行压测和线上保障

唯品会大规模稀疏模型推理优化实践
詹益峰 唯品会信息科技有限公司 基础平台部 资深工程师
所属专题:性能优化

课程概要

话题概述:
背景
随着深度学习的不断发展,深度学习模型的应用领域从一开始的图像,NLP等领域逐渐延生到广告推荐搜索等领域中,Wide&Deep等深度学习模型也逐渐取代了传统的机器学习模型,成为该领域的主流。不同于其他的AI模型的是,推荐搜索等领域的深度学习模型往往需要涉及到大规模的离散特征,单机无法适应新的模型,因此我们需要一个新的方案来支撑超大规模离散特征的模型的训练和推理。

面临的挑战
第一个面临的挑战就是目前深度学习框架对动态分布式embedding的支持不够,推荐搜索等领域往往会使用稀疏特征作为模型特征输入,稀疏特征需要由高维映射到低维,也就是Embedding操作,由于稀疏特征的量级很大,模型的Embedding层往往有几十几百甚至上千G的大小,显然单机已经无法满足要求,因此需要一个支持动态扩展的分布式embedding存储计算方案来支持模型的使用,而目前开源方案中鲜有该功能的支持,因此需要我们针对深度学习框架做对应的定制来满足此要求。

第二个面临的挑战就是推理性能的挑战,不同于传统计算密集型的AI模型的是,大规模稀疏模型是IO密集和计算密集共存的模型,从模型输入特征到打分网络之前涉及到很多IO/访存密集的操作,而模型的打分网络又是计算密集型的,因此就需要我们对特定的模型进行有针对性的优化,降低模型推理的时延,提高计算资源的利用率,进而提高推理服务的吞吐。

解决思路
1. 针对大规模动态embedding,我们采用了训练推理一体化的方案,采用相同的分布式kv存储结构来实现,从根本上解决了大模型水平扩展的问题
2. 针对推理方面,一方面进行图优化(包括算子融合,图裁剪等方式)提高访存和计算的效率,另一方面针对不同的模型结构使用AI编译手段针对不同的硬件平台生成优化后的可执行指令,从而减少人工优化的成本。

成果
目前AI平台已经能够支持大规模的离散模型,一体化训练推理平台也已经上线,给推荐搜索诸多场景带来了可观的效果提升。


演讲题纲:
1. 大规模稀疏模型的背景和挑战
1.1 为什么需要支持动态Embedding
1.2 动态Embedding带来的挑战
2. 大规模动态embedding方案
2.1 Embedding分布式kv存储
2.2 分布式kv存储模型推理
3. 稀疏特征模型的推理优化
3.1 推理优化架构
3.2 推理优化方案介绍

话题亮点:
1. 提供了大规模稀疏场景深度学习的解决方案,从根本上解决了模型开发的痛点。
2. 针对推荐搜索的模型推理提出了定制化的优化方案,并且在实践中取得很好的效果。

听众收益

1. 了解大规模稀疏深度学习模型的痛点和解决方案
2. 了解在涉及大规模稀疏深度学习模型的推理优化的一些经验

唐扬,目前在美图公司任职高级技术专家,负责美图明星产品美图秀秀的服务端研发工作,主导了秀秀工具和社区的架构设计、优化以及稳定性相关的工作,保障了美图秀秀这个月活过亿的高并发产品的高性能和高可用。
具有超过10年的系统研发和软件架构设计的经验,在多个大型互联网公司负责多个大型产品的研发工作,对于技术团队的管理也有一定的经验。目前个人主要专注于系统架构设计、高并发系统设计与优化,微服务架构以及高并发系统的性能问题排查等领域。
曾受邀在2019年GIAC深圳站的大会上发布了「美图秀秀社区化的性能优化探索与实践」的技术演讲,在极客时间上有名为「高并发系统设计40问」的技术专栏,已经有超过16000人和我一起学习。

专题:性能优化

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2021 Msup

大会PPT合辑限量放送, 仅限1000份

立即参会
领取PPT
领取PPT
优惠门票
×

扫码关注公众号:回复【A2M】

参与《免费领取PPT》活动



关注后,回复【A2M】

×

扫码关注公众号:回复【A2M】

参与《免费领取PPT》活动



关注后,回复【A2M】