用户理解范式重构：蚂蚁FIND大模型的多源数据对齐与营销决策效率跃迁

课程 ID: 18257

描述:
话题概述: 在互联网广告、营销、风控等场景中，存在大量需要进行定向圈选用户并进行投放的需求，传统的方式无法快速、准确的找到业务需要的目标人群。大模型出现之后，通过人机交互的方式，可以快速找到目标用户，实现准确圈选。这种冷启动的方式节省了大量人力成本，并大幅提升投放效果。尤其是在支付宝内部，各个行业线有大量的投放诉求，更好的圈人方式可以助力业务实现目标。核心技术点包括 1）自然语言与多源异构数据的对齐，是业内第一次提出将用户的自然语言与互联网行业的多源异构数据进行对齐，可以实现交互式快速建模，并通过意图理解、query改写、positive/negative prompt学习等创新方式，增强下游模型效果。 2）反馈强化的对齐增强：通过圈选结果和人的世界知识，利用react方式对圈选结果进行调整，通过用户与系统的不断交互，逐渐增强其圈选效果； 3）多源异构数据预训练研究：对齐过程前，需要对多源异构用户数据（行为序列、表格、图等结构化数据/非结构化数据）进行预训练，从而得到更好的用户表征和加速对齐训练。特别是其中结构化数据的pretrain，在互联网场景中拥有大量数据且当前使用非常局限，通过异构学习可以将其更好的融合到一起；演讲题纲: 1. 互联网场景下的多源异构数据； 2. 从LLM/VLM到多源异构数据的大模型发展； 3. 多源异构大模型FIND的构建细节； 4. 业务场景应用&未来方向话题亮点： 1. 蚂蚁自研FIND用户理解大模型； 2. 场景通用性，FIND在营销和用增场景的应用