DC娱乐网

[CL]《Structure-Grounded Knowledge Retrie

[CL]《Structure-Grounded Knowledge Retrieval via Code Dependencies for Multi-Step Data Reasoning》X Huang, M Lu, H Dong [Microsoft & Simon Fraser University & University of Science and Technology of China] (2026)

在领域特定的多步数据分析任务中,检索正确知识是代码生成的核心瓶颈。过去的方法受困于词法匹配或嵌入相似度,本质原因是它们假定"语义相近即知识相关"——但在代码推理中,关键函数往往与问题文本表面无关,却在计算依赖链上不可或缺。

本文的核心洞见是:把"知识检索"重新看作"依赖路径查找"。将领域知识绑定到函数节点,函数调用关系构成有向图;给定新问题,从其语义输入/输出标签出发,在图上执行广度优先搜索,沿依赖路径提取恰好构成完整推理链的函数集合——这一操作使"相似却无关"与"不似却必要"的函数得以被正确区分。

这项工作真正留下的遗产是:证明了代码结构本身是比语义向量更可靠的知识相关性信号。它为后来者打开的新门是:将程序依赖图引入RAG框架,使检索结果天然具备可执行的组合一致性。但尚未跨过的门槛是:系统依赖已有高质量示例代码,冷启动新领域时图的构建成本尚无自动化解法。

arxiv.org/abs/2604.10516

机器学习 人工智能 论文 AI创造营