专题出品人: 秦江杰

阿里云 计算平台开源大数据生态技术负责人

专题:流式计算核心技术

本专题下的议题

Clink: A linker between Flink/Alink feature engineering and C/C++ online feature serving
陈震 360 智能工程部总监
所属专题:流式计算核心技术

课程概要

话题概述:
得益于Flink的批流一体机制和Alink的丰富算子库,基于Flink生态的特征生成和特征工程架构已在360多个业务线落地,但从基于Java栈的Flink生态上线到搜广推业务中常见的C/C++开发的特征服务的过程中,存在着语言不一致,代码重复开发,算子实现细节差异,一致性难以保证、调试困难等问题。在这个背景下,我们与阿里Flink/Alink团队合作开发了Clink。Clink主要包括两部分:使用C/C++开发了高性能的特征工程算子库libfg,可被Flink/Alink直接调用,解决编程语言和算子实现细节不一致的问题;Flink/Alink可直接导出Clink标准的特征处理模型和Pipeline,可被Clink-Serving,一个基于bRPC和libfg的高性能特征工程服务直接加载启动,避免代码重复开发和一致性问题。目前Clink已在360部分业务正式上线,基本上实现了“Batch-Steaming-Online”特征工程的一致性保证,较好地提升了算法迭代的效率。此外,Clink也将于近期正式开源,希望能帮助到有类似需求的团队和公司。

演讲题纲:
1. 基于Flink/Alink的“Batch-Streaming”特征工程方案
2. 上述方案在C++技术栈上的局限
3. Clink的解决方案
4. Clink libfg特征工程算子库
5. Clink Serving 开箱即用的高性能特征服务
6. 与Flink/Alink 的原生集成
7. Clink与在线机器学习
8. 业务应用方式和效果
9. Clink开源


话题亮点:
1. Flink和C++生态下的Batch-Steaming-Online 特征工程的一致性保证方案
2. Clink将于近期开源

听众收益

1. 为有类似需求的团队提供一种解决Batch-Steaming-Online 特征工程的一致性保证的思路
2. 为在线机器学习中复杂的实时特征工程提供一种方案
3. 提升机器学习算法的迭代效率,规范研发流程,减少线上问题

基于 Flink 和 Flink AI Extended 的实时推荐系统
秦江杰 阿里云 计算平台开源大数据生态技术负责人
所属专题:流式计算核心技术

课程概要

话题概述:
推荐系统在很多公司的业务中都具有重要的地位,在包括搜索、推荐、广告在内的众多场景中对用户增长、用户粘性和营收等关键业务指标有着举足轻重的作用。目前的推荐系统正逐步从离线静态推荐系统向实时推荐系统演进。在推荐系统演进的过程中对流计算技术本身以及流计算和批计算的融合等方面都提出了更高的要求,同时系统的复杂程度和快速容错恢复方面也带来了新的挑战。本案例介绍了以 Flink + Flink AI Extended 作为流计算基础搭建的业界领先的实时推荐系统,从推荐系统原理出发,解释了实时推荐为什么有用,实时推荐系统的要素,以及如何基于 Flink 和 Flink AI Extended 搭建实时推荐系统的最佳实践。

演讲题纲:
1. 推荐系统原理及演进趋势
1.1 静态推荐系统
1.2 加入实时特征的推荐系统
1.3 加入实时训练的推荐系统

2. 实时推荐系统架构
2.1 实时特征
2.2 实时样本
2.3 实时模型训练

3. 实时推荐系统关键技术
3.1 Flink
3.2 Flink AI Extended

话题亮点:
1. 实时推荐系统的最佳实践。
2. 基于 Flink + Flink AI Extend 构建流批混合的工作流。

听众收益

1. 推荐系统实时化的内在逻辑
2. 实时推荐系统的要素和架构
3. 如何基于 Flink + Flink AI Extended 搭建实时推荐系统。

Flink实时计算在微博的应用
曹富强 新浪微博 架构师
所属专题:流式计算核心技术

课程概要

话题概述:
主要分享:Flink实时计算在微博的应用。内容包括微博的介绍,数据计算平台的介绍,以
及Flink在数据计算平台的应用。

演讲题纲:
一、计算平台介绍
二、计算平台典型应用
1. 流式机器学习
2. 多模态内容处理
3. 内容去重服务

话题亮点:
1. 流式机器学习的整体框架
2. 多模态内容处理解决方案

听众收益

1. 基于flink的计算平台建设
2. 流式模型训练相关
3. 多模态服务相关

以 Apache Pulsar 和 Apache Flink 构建批流融合统一处理
盛宇帆 StreamNative 高级工程师
所属专题:流式计算核心技术

课程概要

话题概述:
Apache Pulsar是云原生分布式消息平台,它在2018年9月毕业成为Apache基金会的顶级项目。
Apace Pulsar从2012年开始设计时就前瞻性地采用了存储计算分离、分层分片的云原生架构,极大减轻了了用户在消息系统中遇到的扩展和运维的困难;并且它采用专门为消息和流专门设计的存储系统,为重要场景 提供了可靠的读写服务质量 和 一致性的保障。
Apache Flink 为批流融合的数据处理提供了统一的接口和引擎,但是在数据存储层,批数据和流数据还是分别存储在不同的系统中,这给用户带来了数据运维和转换的困难。 Pulsar 结合存储计算分离的架构和独特的一套冷热数据管理框架,可以很好的满足批流融合在数据存储上的需求,为计算层提供批流融合的存储层。
本次分享将为大家介绍 Pulsar 和 Flink 在批流融合方面的功能特性和最新的进展。

演讲题纲:
1. 相比其他流数据存储平台 Apache Pulsar 在架构上的优势。
2. Pulsar 在批流融合中的角色和背后的原因。
3. Pulsar 和 Flink 在批流融合中的具体落地内容。

话题亮点:
1. 业界领先的流数据解决方案
2. 存算分离的云原生架构的优势

听众收益

1. 了解 Apache Pulsar 相比其他流数据存储平台在架构上的优势,以及为用户带来的价值;
2. 了解 Apache Pulsar 和 Apache Flink 结合在批流融合方向的优势,以及为用户带来的便捷;
3. 了解社区动态和进展情况,以及参与社区的途径。

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2021 Msup

获取大会更多详情

立即参会
报名咨询
报名咨询
优惠门票
×

扫码关注公众号:回复【A2M】

参与《免费领取PPT》活动



关注后,回复【A2M】

×

扫码关注公众号:回复【A2M】

参与《免费领取PPT》活动



关注后,回复【A2M】