构建 Data Agent 的完整 Harness：InfiniSynapse 的企业级数据分析栈实践

课程 ID: 19319

描述:
话题概述: 随着 AI 从 Copilot 走向 Agent，企业级数据分析产品也在从“自然语言查一条 SQL”走向“给定目标后自动跑完整条分析链路”。但现实中，大多数 ChatBI、NL2SQL、Python 沙箱方案都很难同时解决跨源联合、复杂分析、机器学习与数据合规这四件事。InfiniSynapse 这一轮实践的核心，不是再包一层 AI，而是把 Data Agent 的整套基础设施重做一遍：顶层是能规划、自检、修复的 Agent，中间是为 Agent 设计的数据语言 InfiniSQL，底层是跨 MySQL、PostgreSQL、Oracle、ClickHouse、Excel 等异构数据源的执行引擎，并把知识库、记忆库、动态报表和可复用分析链路接成一套系统。分享中我会结合海关、央国企等敏感数据场景背后的真实要求，拆解为什么“1400+ 张表接入即可提问”“92 秒生成评分卡并得到 AUC 0.7712”“全栈私有化、数据不出域”不是某个单点功能，而是架构选择的结果，以及产品和工程团队该如何把 AI 数据产品从 demo 驱动做成可交付、可复用、可合规的严肃系统。演讲题纲: 1. 为什么今天很多 AI 数据产品容易“能演示、难交付” 2. 三条主流路线的边界：NL2SQL、Python 沙箱、数仓内 Agent 3. 我们为什么决定重做 Data Agent 的整套 Harness 4. 四层架构拆解：Agent、InfiniSQL、知识与记忆、跨源执行引擎 5. 产品交付层怎么设计：动态报表、可追问报告、记忆库、复用分析链路 6. 两个硬证据与一个敏感场景：1400+ 张表接入即可提问、92 秒评分卡、全栈私有化 7. 对产品经理和技术团队的启发：如何判断 AI 功能是 demo 能力，还是可落地的产品能力话题亮点： 1. 不讲空泛概念，直接拆开 InfiniSynapse 的四层架构：Agent、InfiniSQL、知识/记忆层、跨源执行引擎，讲清楚 serious Data Agent 为什么不能只靠 NL2SQL。 2. 用真实硬指标讲产品边界：1400+ 张表接入即可提问，92 秒端到端生成评分卡，AUC 0.7712，高于 XGBoost 学术基线 0.7611。 3. 重点分享海关、央国企等敏感场景背后的架构取舍：数据不出域、模型可私有化、跨库联合分析与可审计交付如何同时成立。 4. 从产品视角讲“动态报表”“记忆库”“复用分析链路”如何把一次问答，沉淀成长期可复用的组织知识资产。