智能博弈与动态优化：AI Agent在京东广告拍卖中的创新实践

课程 ID: 18218

描述:
话题概述: 电商平台的推荐广告作为核心业务，在落地中面临着复杂的应用场景。广告系统中包含用户，商家以及平台之间的行为交互，这构成了一个博弈系统。作为规则的制定者，平台需要建立完备的机制以保证平台收益、用户体验以及商家营销目标的综合改善。这是一个具有挑战的问题，因为用户以及商家行为的动态性会对系统的建模和优化带来困难。我们的工作重点研究了在线动态系统中的拍卖机制设计，并通过一系列技术增强机制对于用户、商家行为动态变化的自适应能力，从而实现系统的整体优化。演讲题纲: 推荐广告业务背景：推荐广告系统需要面对庞大的用户以及商家群体，并实现高效的流量分配计费。为了营造健康的广告生态环境，平台需要在提升广告收入的同时保证用户体验以及商家推广产品目标的达成。博弈均衡建模：广告系统通常使用拍卖对流量进行统一的分配与计费。作为博弈理论的一个重要应用，拍卖中的机制设计是一个已经被广泛研究的问题。从平台机制设计的角度来说，需要根据流量分布得到的虚拟价值进行分配，并设计满足激励相容的计费规则。目前应用中的待改进点：目前行业内在实现基于模型的机制设计时，通常都是利用离线的用户请求、商家出价数据进行统一训练。这意味着假设用户和商家行为服从特定分布，离线学习可以得到该分布下的最优机制。然而，在线上应用中，用户行为在不同时段通常会表现出显著的差异。此外，商家行为也会根据实时的目标达成情况进行调整。主要解决思路及技术针对用户流量分布的动态特性建模：当平台在机制设计中同时考虑平台收入、商家目标达成、用户体验时，会面临一个复杂的多目标优化问题。对于流量分布在线变化的场景来说，一个完全基于离线数据训练的静态机制无法保证最优性。因此我们引入了一个超网络结构，它接收实时流量特征作为输入，并在线调控机制网络的部分参数。这建立了在线流量分布与机制间的映射，从而保证机制可以实时自适应调整到符合当前流量的最优。针对商家出价策略的多智能体博弈建模：对于平台来说，收入的直接来源是商家的广告预算。因此如何通过帮助商家达成营销目标，激发其预算上限对于平台非常重要。为了解决这一问题，我们提出了量价敏感性等衡量商家状态的指标。相比于仅考虑单次广告拍卖，这些指标从长期商家行为建模及预测的角度给出了机制调整对于商家未来行为策略的影响。这避免了仅关注单次拍卖导致的局部最优，实现了商家目标和平台收入的长期健康改进。未来规划和总结总的来说，基于拍卖的推荐广告目前仍有许多改进空间。其中一个重要的部分来自于包含多智能体的复杂动态环境下如何实现最优机制。未来会在这一领域进行更多的探索与应用。话题亮点：业界的现有方案中，多数是基于静态模型实现的广告拍卖。模型在线服务时不会根据实时流量反馈进行调整，因此无法确保实时最优性。而我们的工作通过引入机制对在线实时流量特征的感知与自适应调整，实现了多项优化指标的改进。