各位朋友大家好,今天我分享的论文题目是:
THINK-ON-GRAPH 2.0: DEEP AND FAITHFUL LARGE LANGUAGE MODEL REASONING WITH
KNOWLEDGE-GUIDED RETRIEVAL AUGMENTED GENERATION
我将会从以下五个角度出发,与各位分享这篇论文。
研究动机
传统RAG方法经常只关注表层语义相似性,难以捕捉实体关系,导致难以胜任多跳、复杂的推理任务。
知识图谱检索虽然结构化,但往往知识不全,缺少细节,难以应对没有先验结构的信息扩展需求。
两者“松耦合”结合依然无法充分协同发挥各自优势,导致深层推理和真确性受限。
目标:设计一种“紧耦合”框架,交替挖掘结构化(KG)与非结构化(文本)知识,在推理链条中多轮交替迭代,从而让大模型能更深入、可靠地获取线索,接近人类推理过程。
方法框架
核心思想
提出一个“紧耦合”的 KG×Text 混合 RAG 框架——Think-on-Graph 2.0 (ToG-2)。
总体流程:
从问题中抽取实体;
在知识图谱上扩展实体关系;
基于这些实体,在文档库中检索上下文;
用 LLM 判断是否信息充足,否则生成新线索进入下一轮;
迭代至足够信息或达到最大深度。
最终实现“图指导文检索,文反哺图探索”的循环。
技术细节
我主要重点讲这三个模块:
Relation Prune:用 LLM 判断哪些关系可能提供有用信息。
Context-based Entity Prune:通过 DRM(如 BGE-Reranker)计算上下文相关性。
Iterative Reasoning Loop:每轮输出答案或继续检索。
实验效果
注意: 我通常不会过于关注论文中的实验结果,因为每篇论文的实验结果都会展示为“很好”。因此,重心应更多地放在其他研究维度上,比如方法、动机等。
亮点结果
在 7 个数据集上,6 个取得 SOTA;
相比 ToG、CoK、GraphRAG 等方法显著提升(例如 AdvHotpotQA 提升 16.6%);
能把 Llama-2-13B 提升到 GPT-3.5 的水平;
在新构建的金融数据集 ToG-FinQA 上表现最突出。
额外分析
Ablation 证明 ToG-2 不同模块(Topic Prune、Clue 反馈、Relation Prune 方式)都有贡献;
性能与宽度深度参数 (W, D) 呈饱和关系;
相比 ToG,ToG-2 效率更高,减少 LLM 调用量。
应用价值与局限
应用价值
对需要多跳推理的问答、知识问答、事实验证等任务效果显著;
可作为无训练、可插拔框架,适配各种 LLM;
在金融场景(ToG-FinQA)中展现潜力。
局限
依赖知识图谱的完整性;
检索与推理循环仍较耗时;
对 LLM 判断“信息是否充分”的准确性依赖大;
仍可能出现“过于保守”导致 recall 下降。
研究价值再思考
学术层面: ToG-2 将 RAG 从“简单融合”推向“深度交互”,开辟了 KG × Text 协同检索的新路线。
工程层面: 提供了一个可复用的、无训练的推理工作流。
未来展望:
自适应迭代(动态调整深度宽度);
更高效的 DRM + KG 构建;
向多模态(图像/表格/代码)RAG扩展。