多模态大模型LMM与细粒度开放世界目标检测

课程 ID: 17779

描述:
话题概述: 多模态大模型（Large Multimodal Model）同时具备对语言模态信息和视觉模态信息及其混合形态的理解和处理能力，使其具有成为统一不同模态信息和任务处理能力的大一统模型（generalist model）的潜力。当前多模态大模型的研究仍处于早期阶段，多模态LMM虽然具备多样的通用能力，但在各个垂直场景下相比专业模型仍有着显著差距，这一点在目标检测任务上表现尤甚。报告将在总结当前多模态LMM研发发展的各个关键关键技术节点的基础上，重点讨论多模态LMM的细粒度图文对应能力及其与开放世界目标检测OVD（Open-Vocabulary object Detection）相结合的可能性，并与听众一起探讨一个新的技术方向：细粒度开放世界目标检测演讲题纲: 视觉-语言跨模态学习开放世界目标检测OVD 多模态大模型LMM 细粒度开放世界目标检测话题亮点： 1. 多模态大模型研发中的关键核心问题 2. 开放世界目标检测的前沿视角