阿里巴巴新零售场景下智能运维的整体挑战和应对实践

专题:机器学习与深度学习

案例来源: 阿里巴巴  

会议地点:上海

分享时间:2018-08-25 16:50-17:50

冯阳

阿里巴巴 GOC 高级算法工程师

目前就职于阿里巴巴集团基础设施事业群-全球运营型指挥中心(GOC).参与阿里巴巴集团业务,系统指标异常检测算法等智能运维(AIOps)相关领域工作,提高了集团故障发现的准确率和自动化水平。对机器学习应用于AIOps领域有比较深入的了解和实践,对于阿里巴巴业务指标异常检测的相关研究发表在WWW’2018上。

课程概要

随着阿里巴巴的高速发展,业务和系统越发复杂, 数据以及监控也大规模的增长。监控指标的飞速膨胀给异常检测技术提出了挑战,传统的阈值配置方案已经不能很好的解决业务问题。因此我们引入了多项机器学习技术,在智能阈值,概率密度,样本数据均衡,有监督学习以及时间序列聚类等方向进行深度实践,形成了在一定反馈条件下对各类指标进行智能检测的机制,目前已经覆盖集团核心业务指标项,并且取得了较好的准确率和召回率的平衡。

听众收益

异常检测算法在解决阿里巴巴业务指标监控里遇到的整体挑战和演变
1、为降低运维成本,如何借助机器学习技术进行海量指标的异常检测
2、针对不同业务,如何采取合适的算法进行监控异常发现
3、业务异常检测在商业化路上的挑战

获取体验票